数据集:
narrativeqa
任务:
文生文子任务:
abstractive-qa语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:1712.07040许可:
apache-2.0NarrativeQA 是一个使用英语的故事和相关问题的数据集,旨在测试阅读理解,特别是对长文档的理解能力。
该数据集用于测试阅读理解。文章中提出了两个任务:“仅摘要”和“仅故事”,取决于使用人工生成的摘要还是完整的故事文本来回答问题。
英语
典型的数据点包括一个问题和答案对,以及一个摘要/故事,可用于回答问题。还提供了其他信息,如URL、字数、维基百科页面等。
典型的示例如下所示:
{ "document": { "id": "23jncj2n3534563110", "kind": "movie", "url": "https://www.imsdb.com/Movie%20Scripts/Name%20of%20Movie.html", "file_size": 80473, "word_count": 41000, "start": "MOVIE screenplay by", "end": ". THE END", "summary": { "text": "Joe Bloggs begins his journey exploring...", "tokens": ["Joe", "Bloggs", "begins", "his", "journey", "exploring",...], "url": "http://en.wikipedia.org/wiki/Name_of_Movie", "title": "Name of Movie (film)" }, "text": "MOVIE screenplay by John Doe\nSCENE 1..." }, "question": { "text": "Where does Joe Bloggs live?", "tokens": ["Where", "does", "Joe", "Bloggs", "live", "?"], }, "answers": [ {"text": "At home", "tokens": ["At", "home"]}, {"text": "His house", "tokens": ["His", "house"]} ] }
根据故事将数据分为训练、验证和测试集(即同一故事不能出现在多个拆分中):
Train | Valid | Test |
---|---|---|
32747 | 3461 | 10557 |
[需要更多信息]
故事和电影剧本从 Project Gutenburg 下载,并从一系列电影剧本仓库(主要是 imsdb )中获取。
谁是源语言的制作者?语言制作者是故事和剧本的作者,以及提问的亚马逊土耳其工作人员。
亚马逊土耳其工作者使用人工编写的故事摘要(以使注释工作可行,并引导注释者提出非定位性问题)。使用故事标题匹配维基百科中的剧情摘要,并借助人工注释员的帮助验证匹配。要求亚马逊机械土耳其工作者仅基于给定摘要编写 10 个问答对。要求注释者想象自己在为已阅读完整故事但未阅读摘要的学生进行测试时编写问题。我们要求问题具体到足够程度,考虑到叙述的长度和复杂性,并提供关于角色、事件、原因等的多样化问题集。鼓励注释者使用自己的措辞,防止抄袭。要求答案在语法上是完整的句子,并明确允许简短的答案(一个词、几个词的短语或简短的句子),因为我们认为在询问事实信息时,用完整句子回答通常被视为不自然。要求注释者在问题或答案中避免额外的、不必要的信息,并避免询问有关作者或演员的是/非问题。
谁是注释者?亚马逊机械土耳其工作者。
无
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该数据集是根据 Apache-2.0 License 发布的。
@article{narrativeqa, author = {Tom\'a\v s Ko\v cisk\'y and Jonathan Schwarz and Phil Blunsom and Chris Dyer and Karl Moritz Hermann and G\'abor Melis and Edward Grefenstette}, title = {The {NarrativeQA} Reading Comprehension Challenge}, journal = {Transactions of the Association for Computational Linguistics}, url = {https://TBD}, volume = {TBD}, year = {2018}, pages = {TBD}, }
感谢 @ghomasHudson 添加了这个数据集。