数据集:

narrativeqa_manual

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original

预印本库:

arxiv:1712.07040

许可:

apache-2.0

语言:

en

任务:

文生文

子任务:

abstractive-qa
英文

Narrative QA Manual 数据集卡片

数据集概述

NarrativeQA Manual 是一个英语数据集,包含了故事和相应问题,旨在测试阅读理解能力,尤其是对于长篇文档的阅读理解。此数据集需要手动下载文件!由于原始存储库中的脚本每次都会从原始 URL 下载故事,导致链接有时会失效或无效。因此,您需要使用作者提供的脚本手动下载这个数据集的故事( https://github.com/deepmind/narrativeqa/blob/master/download_stories.sh )。运行shell脚本将在根目录下创建一个名为“tmp”的文件夹,并将故事下载到该文件夹中。可以使用包含故事的此文件夹通过 datasets.load_dataset("narrativeqa_manual", data_dir="") 加载数据集。

支持的任务和排行榜

数据集用于测试阅读理解能力。论文中提出了两个任务:“仅摘要”和“仅故事”,具体取决于是使用人工摘要还是完整的故事文本来回答问题。

语言

英语

数据集结构

数据实例

典型的数据点由一个问题和答案对以及可用于回答问题的摘要/故事组成。还提供了其他信息,如URL、单词计数、维基百科页面。

典型的例子如下:

{
    "document": {
        "id": "23jncj2n3534563110",
        "kind": "movie",
        "url": "https://www.imsdb.com/Movie%20Scripts/Name%20of%20Movie.html",
        "file_size": 80473,
        "word_count": 41000,
        "start": "MOVIE screenplay by",
        "end": ". THE END",
        "summary": {
            "text": "Joe Bloggs begins his journey exploring...",
            "tokens": ["Joe", "Bloggs", "begins", "his", "journey", "exploring",...],
            "url": "http://en.wikipedia.org/wiki/Name_of_Movie",
            "title": "Name of Movie (film)"
        },
        "text": "MOVIE screenplay by John Doe\nSCENE 1..."
    },
    "question": {
        "text": "Where does Joe Bloggs live?",
        "tokens": ["Where", "does", "Joe", "Bloggs", "live", "?"],
    },
    "answers": [
        {"text": "At home", "tokens": ["At", "home"]},
        {"text": "His house", "tokens": ["His", "house"]}
    ]
}

数据字段

  • document.id - 故事的唯一ID。
  • document.kind - 根据故事的来源,可以是“movie”或“gutenberg”。
  • document.url - 从中下载故事的URL。
  • document.file_size - 故事的文件大小(以字节为单位)。
  • document.word_count - 故事中的标记数。
  • document.start - 故事的前三个标记。用于验证故事是否未被修改。
  • document.end - 故事的最后三个标记。用于验证故事是否未被修改。
  • document.summary.text - 故事的维基百科摘要的文本。
  • document.summary.tokens - document.summary.text 的标记化版本。
  • document.summary.url - 摘要的维基百科URL。
  • document.summary.title - 摘要的维基百科标题。
  • question - 关于故事的问题,格式为{"text":"...", "tokens":[...]}。
  • answers - 问题的有效答案列表,格式为{"text":"...", "tokens":[...]}。

数据拆分

根据故事将数据划分为训练集、验证集和测试集(即同一故事不能出现在多个拆分中):

Train Valid Test
32747 3461 10557

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

故事和电影剧本是从 Project Gutenburg 以及一系列电影剧本存储库(主要是 imsdb )中下载的。

资源语言的生产者是谁?

语言的生产者是故事和剧本的作者以及提问的亚马逊土耳其工人。

标注

标注过程

亚马逊土耳其工人根据故事提供了人工撰写的摘要(为了使标注工作可行,并引导标注者提问非局部化的问题)。使用标题将故事与维基百科的情节摘要进行匹配,并在人工标注者的帮助下验证匹配结果。要求亚马逊土耳其工人根据给定的摘要仅编写10个问题-答案对。要求标注者想象他们在为已阅读完整故事但未阅读摘要的学生设计测试问题。要求问题足够具体,考虑到叙述的长度和复杂性,并提供一组关于角色、事件、原因等各个方面的多样化问题。鼓励标注者使用自己的措辞,并禁止他们抄袭。要求答案是语法正确、完整的句子,并明确允许短答案(一个词、几个词的短语或一个简短的句子),因为我们认为在询问事实信息时,用一个完整的句子回答往往被认为是不真实的。要求标注者在问题或答案中避免额外、不必要的信息,并避免是/否的问题或关于作者或演员的问题。

标注者是谁?

亚马逊土耳其工人。

个人和敏感信息

没有

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

该数据集基于 Apache-2.0 License 发布。

引用信息

@article{narrativeqa,
author = {Tom\'a\v s Ko\v cisk\'y and Jonathan Schwarz and Phil Blunsom and
          Chris Dyer and Karl Moritz Hermann and G\'abor Melis and
          Edward Grefenstette},
title = {The {NarrativeQA} Reading Comprehension Challenge},
journal = {Transactions of the Association for Computational Linguistics},
url = {https://TBD},
volume = {TBD},
year = {2018},
pages = {TBD},
}

贡献者

感谢 @rsanjaykamath 添加了此数据集。