数据集:

narrativeqa

任务:

文生文

子任务:

abstractive-qa

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1712.07040

许可:

apache-2.0
英文

Narrative QA 数据集卡片

数据集摘要

NarrativeQA 是一个使用英语的故事和相关问题的数据集,旨在测试阅读理解,特别是对长文档的理解能力。

支持的任务和排行榜

该数据集用于测试阅读理解。文章中提出了两个任务:“仅摘要”和“仅故事”,取决于使用人工生成的摘要还是完整的故事文本来回答问题。

语言

英语

数据集结构

数据实例

典型的数据点包括一个问题和答案对,以及一个摘要/故事,可用于回答问题。还提供了其他信息,如URL、字数、维基百科页面等。

典型的示例如下所示:

{
    "document": {
        "id": "23jncj2n3534563110",
        "kind": "movie",
        "url": "https://www.imsdb.com/Movie%20Scripts/Name%20of%20Movie.html",
        "file_size": 80473,
        "word_count": 41000,
        "start": "MOVIE screenplay by",
        "end": ". THE END",
        "summary": {
            "text": "Joe Bloggs begins his journey exploring...",
            "tokens": ["Joe", "Bloggs", "begins", "his", "journey", "exploring",...],
            "url": "http://en.wikipedia.org/wiki/Name_of_Movie",
            "title": "Name of Movie (film)"
        },
        "text": "MOVIE screenplay by John Doe\nSCENE 1..."
    },
    "question": {
        "text": "Where does Joe Bloggs live?",
        "tokens": ["Where", "does", "Joe", "Bloggs", "live", "?"],
    },
    "answers": [
        {"text": "At home", "tokens": ["At", "home"]},
        {"text": "His house", "tokens": ["His", "house"]}
    ]
}

数据字段

  • document.id - 故事的唯一 ID。
  • document.kind - 故事来源是“电影”还是“古腾堡”。
  • document.url - 故事下载的 URL。
  • document.file_size - 故事的文件大小(以字节为单位)。
  • document.word_count - 故事中的标记数。
  • document.start - 故事的前 3 个标记。用于验证故事是否已被修改。
  • document.end - 故事的后 3 个标记。用于验证故事是否已被修改。
  • document.summary.text - 维基百科摘要的文本。
  • document.summary.tokens - document.summary.text 的标记化版本。
  • document.summary.url - 摘要的维基百科 URL。
  • document.summary.title - 摘要的维基百科标题。
  • question - 关于故事的问题,形式为 {"text":"...", "tokens":[...]}。
  • answers - 关于问题的有效答案的列表,形式为 {"text":"...", "tokens":[...]}。

数据拆分

根据故事将数据分为训练、验证和测试集(即同一故事不能出现在多个拆分中):

Train Valid Test
32747 3461 10557

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

故事和电影剧本从 Project Gutenburg 下载,并从一系列电影剧本仓库(主要是 imsdb )中获取。

谁是源语言的制作者?

语言制作者是故事和剧本的作者,以及提问的亚马逊土耳其工作人员。

注释

注释过程

亚马逊土耳其工作者使用人工编写的故事摘要(以使注释工作可行,并引导注释者提出非定位性问题)。使用故事标题匹配维基百科中的剧情摘要,并借助人工注释员的帮助验证匹配。要求亚马逊机械土耳其工作者仅基于给定摘要编写 10 个问答对。要求注释者想象自己在为已阅读完整故事但未阅读摘要的学生进行测试时编写问题。我们要求问题具体到足够程度,考虑到叙述的长度和复杂性,并提供关于角色、事件、原因等的多样化问题集。鼓励注释者使用自己的措辞,防止抄袭。要求答案在语法上是完整的句子,并明确允许简短的答案(一个词、几个词的短语或简短的句子),因为我们认为在询问事实信息时,用完整句子回答通常被视为不自然。要求注释者在问题或答案中避免额外的、不必要的信息,并避免询问有关作者或演员的是/非问题。

谁是注释者?

亚马逊机械土耳其工作者。

个人和敏感信息

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

该数据集是根据 Apache-2.0 License 发布的。

引用信息

@article{narrativeqa,
author = {Tom\'a\v s Ko\v cisk\'y and Jonathan Schwarz and Phil Blunsom and
          Chris Dyer and Karl Moritz Hermann and G\'abor Melis and
          Edward Grefenstette},
title = {The {NarrativeQA} Reading Comprehension Challenge},
journal = {Transactions of the Association for Computational Linguistics},
url = {https://TBD},
volume = {TBD},
year = {2018},
pages = {TBD},
}

贡献者

感谢 @ghomasHudson 添加了这个数据集。