数据集:

ccdv/cnn_dailymail

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

许可:

apache-2.0
英文

修复了 "NotADirectoryError: [Errno 20]" 的 cnn_dailymail 数据集副本。

CNN每日邮报数据集的数据集卡片

数据集摘要

CNN每日邮报数据集是一个包含300多个唯一新闻文章的英语数据集,这些文章是由CNN和每日邮报的记者撰写的。当前版本支持抽取式和抽象式摘要方法,尽管最初版本是为机器阅读和理解以及抽象式问答而创建的。

支持的任务和排行榜

语言

英语的BCP-47代码通常为en-US(美国)和en-GB(英国)。不清楚数据中是否还包含其他英语变种。

数据集结构

数据实例

对于每个实例,有一篇文章、一段摘要和一个id字符串。请查看 CNN / Daily Mail dataset viewer 以了解更多示例。

{'id': '0054d6d30dbcad772e20b22771153a2a9cbeaf62',
 'article': '(CNN) -- An American woman died aboard a cruise ship that docked at Rio de Janeiro on Tuesday, the same ship on which 86 passengers previously fell ill, according to the state-run Brazilian news agency, Agencia Brasil. The American tourist died aboard the MS Veendam, owned by cruise operator Holland America. Federal Police told Agencia Brasil that forensic doctors were investigating her death. The ship's doctors told police that the woman was elderly and suffered from diabetes and hypertension, according the agency. The other passengers came down with diarrhea prior to her death during an earlier part of the trip, the ship's doctors said. The Veendam left New York 36 days ago for a South America tour.'
 'highlights': 'The elderly woman suffered from diabetes and hypertension, ship's doctors say .\nPreviously, 86 passengers had fallen ill on the ship, Agencia Brasil says .'}

文章和摘要中的平均标记数量如下所示:

Feature Mean Token Count
Article 781
Highlights 56

数据字段

  • id :包含从URL中检索到故事的十六进制格式的SHA1散列的字符串
  • article :包含新闻文章内容的字符串
  • highlights :包含根据文章作者撰写的文章重点摘要的字符串

数据拆分

CNN / DailyMail数据集有3个拆分:训练集、验证集和测试集。下面是版本3.0.0的数据集统计信息。

Dataset Split Number of Instances in Split
Train 287,113
Validation 13,368
Test 11,490

数据集创建

策划理由

1.0.0版本旨在支持使用大量真实自然语言训练数据进行监督神经方法的机器阅读和问答,并发布了约313,000个独特文章和将近1M个Cloze样式问题。2.0.0和3.0.0版本更改了数据集的结构,支持摘要而非问答。3.0.0版本提供了一份未匿名化的数据,而之前的版本则对命名实体进行了替换,使用了唯一标识符标签。

源数据

初始数据收集与规范化

数据包括新闻文章和重点句子。在数据的问答设置中,文章用作上下文,实体逐个隐藏在重点句子中,从而生成Cloze样式问题。模型的目标是正确猜测在重点中隐藏的上下文中的哪个实体。在摘要设置中,重点句子被连接起来形成文章的摘要。CNN的文章撰写于2007年4月至2015年4月之间。每日邮报的文章撰写于2010年6月至2015年4月之间。

原始数据收集的代码可在 https://github.com/deepmind/rc-data 找到。文章下载使用的是Wayback Machine的存档。如果文章超过2000个标记,该文章将不包含在1.0.0版本的收藏中。由于Wayback Machine的可访问性问题,Kyunghyun Cho已经提供了数据集的下载链接 https://cs.nyu.edu/~kcho/DMQA/ 。一个不匿名化数据的更新版本可在 https://github.com/abisee/cnn-dailymail 找到。

Hermann等人提供了他们自己的标记脚本。See提供的脚本使用了PTBTokenizer。它还将文本转换为小写,并在缺少句号的行末添加句号。

谁是源语言生产者?

文本是由CNN和每日邮报的记者撰写的。

注释

数据集不包含任何其他注释。

注释过程

[不适用]

谁是注释者?

[不适用]

个人和敏感信息

3.0版本没有进行匿名化处理,因此数据集中可能包含个人姓名。数据集中不包含有关原始作者的信息。

使用数据时的注意事项

数据集的社会影响

该数据集的目的是帮助开发能够将长段落的文本进行摘要为一两个句子的模型。

这个任务对于在大量文本中高效呈现信息非常有用。应当明确指出,模型在训练该数据集的过程中生成的任何摘要都反映了文章中使用的语言,但实际上是自动生成的。

偏见讨论

Bordia and Bowman (2019) 在CNN /每日邮报数据集、Penn Treebank和WikiText-2中探索了测量性别偏见和去偏方法。他们发现,根据其度量标准,CNN /每日邮报数据集的性别偏见略低于其他数据集,但仍然显示了诸如“脆弱”之类的词存在性别偏见的证据。

由于这些文章是由并面向美国和英国的人员撰写的,它们很可能呈现特定于美国和英国的观点,并涵盖被认为与当时文章被发布时这些群体相关的事件。

其他已知限制

研究表明新闻文章遵循撰写规范,其中重要信息主要在文章的前三分之一中呈现 (Kryściński et al, 2019) Chen et al (2016) 对数据集第一版本的100个随机实例进行了手动研究,发现25%的样本都对于人类来说很难正确回答,因为存在模糊性和指代错误。

还应注意,即使是抽取式的机器生成摘要,其真实性值与原始文章相比可能会有所不同。

其他信息

数据集策划者

数据最初由Google DeepMind的Karl Moritz Hermann、Tomáš Kočiský、Edward Grefenstette、Lasse Espeholt、Will Kay、Mustafa Suleyman和Phil Blunsom收集。Tomáš Kočiský和Phil Blunsom还与牛津大学有关。他们发布了将数据收集和处理成问答格式的脚本。

IMB Watson的Ramesh Nallapati、Bowen Zhou、Cicero dos Santos和Bing Xiang以及Université de Montréal的Çağlar Gu̇lçehre修改了Hermann等人的收集脚本,将数据恢复为摘要格式。他们还制作了匿名化和非匿名化版本。

非匿名化版本的代码由Stanford University的Abigail See、Google Brain的Peter J. Liu和Stanford University的Christopher D. Manning公开提供,网址为 https://github.com/abisee/cnn-dailymail 。斯坦福大学的工作得到了DARPA DEFT计划AFRL合同号FA8750-13-2-0040的支持。

许可信息

CNN /每日邮报数据集1.0.0版本发布在 Apache-2.0 License 下。

引用信息

@inproceedings{see-etal-2017-get,
    title = "Get To The Point: Summarization with Pointer-Generator Networks",
    author = "See, Abigail  and
      Liu, Peter J.  and
      Manning, Christopher D.",
    booktitle = "Proceedings of the 55th Annual Meeting of the Association for Computational Linguistics (Volume 1: Long Papers)",
    month = jul,
    year = "2017",
    address = "Vancouver, Canada",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/P17-1099",
    doi = "10.18653/v1/P17-1099",
    pages = "1073--1083",
    abstract = "Neural sequence-to-sequence models have provided a viable new approach for abstractive text summarization (meaning they are not restricted to simply selecting and rearranging passages from the original text). However, these models have two shortcomings: they are liable to reproduce factual details inaccurately, and they tend to repeat themselves. In this work we propose a novel architecture that augments the standard sequence-to-sequence attentional model in two orthogonal ways. First, we use a hybrid pointer-generator network that can copy words from the source text via pointing, which aids accurate reproduction of information, while retaining the ability to produce novel words through the generator. Second, we use coverage to keep track of what has been summarized, which discourages repetition. We apply our model to the CNN / Daily Mail summarization task, outperforming the current abstractive state-of-the-art by at least 2 ROUGE points.",
}
@inproceedings{DBLP:conf/nips/HermannKGEKSB15,
  author={Karl Moritz Hermann and Tomás Kociský and Edward Grefenstette and Lasse Espeholt and Will Kay and Mustafa Suleyman and Phil Blunsom},
  title={Teaching Machines to Read and Comprehend},
  year={2015},
  cdate={1420070400000},
  pages={1693-1701},
  url={http://papers.nips.cc/paper/5945-teaching-machines-to-read-and-comprehend},
  booktitle={NIPS},
  crossref={conf/nips/2015}
}

贡献

感谢 @thomwolf @lewtun @jplu @jbragg @patrickvonplaten @mcmillanmajora 添加此数据集。