数据集:

newsroom

语言:

en

计算机处理:

monolingual

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

other
英文

"newsroom"数据集卡片

数据集概述

NEWSROOM是用于训练和评估摘要系统的大型数据集。它包含来自38家主要新闻出版社新闻编辑室和作者撰写的130万篇文章和摘要。

数据集特点包括:

  • 文本:输入的新闻文本。
  • 摘要:新闻的摘要。以及其他特征:
  • 标题:新闻标题。
  • URL:新闻的URL。
  • 日期:文章的日期。
  • 密度:抽取密度。
  • 覆盖范围:抽取覆盖范围。
  • 压缩比例:压缩比率。
  • 密度范围:低、中、高。
  • 覆盖范围:抽取式、抽象式。
  • 压缩范围:低、中、高。

可以通过请求下载此数据集。将所有内容“train.jsonl,dev.josnl,test.jsonl”解压缩到tfds文件夹中。

支持的任务和排行榜

More Information Needed

语言

英语(en)。

数据集结构

数据实例

默认
  • 下载的数据集文件大小:0.00 MB
  • 生成的数据集大小:5.30 GB
  • 总共使用的磁盘空间:5.30 GB

'train'的示例如下。

{
    "compression": 33.880001068115234,
    "compression_bin": "medium",
    "coverage": 1.0,
    "coverage_bin": "high",
    "date": "200600000",
    "density": 11.720000267028809,
    "density_bin": "extractive",
    "summary": "some summary 1",
    "text": "some text 1",
    "title": "news title 1",
    "url": "url.html"
}

数据字段

数据字段在所有拆分中都相同。

默认
  • 文本:字符串特征。
  • 摘要:字符串特征。
  • 标题:字符串特征。
  • URL:字符串特征。
  • 日期:字符串特征。
  • 密度范围:字符串特征。
  • 覆盖范围:字符串特征。
  • 压缩范围:字符串特征。
  • 密度:float32特征。
  • 覆盖范围:float32特征。
  • 压缩比率:float32特征。

数据拆分

name train validation test
default 995041 108837 108862

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和归一化

More Information Needed

什么是源语言生成者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集创作者

More Information Needed

许可信息

https://cornell.qualtrics.com/jfe/form/SV_6YA3HQ2p75XH4IR

此数据集使用协议(“协议”)是与康奈尔新闻室摘要团队(“新闻室”)签订的法律协议,用于个人或实体(“研究人员”)行使本协议项下的权利。 "数据集"包括所有文本,数据,信息,源代码以及任何相关材料,文档,文件,媒体,更新或修订。

数据集仅供非商业研究和教育目的使用,不收取任何许可证或其他知识产权费用。研究人员下载或使用数据集即表示他们同意接受本协议的条款,并声明并保证他们有权代表任何行使本协议项下权利的实体执行本协议。研究人员接受并同意遵守本协议的条款和条件。如果研究人员不同意本协议,他们可能不会下载或使用数据集。

通过与新闻室分享内容,例如通过提交内容到本网站或与新闻室贡献者进行通信,研究人员授予新闻室使用、复制、展示、执行、改编、修改、分发、有所分发和促销内容的权利,无论形式、地点和目的如何,例如用于评估和比较摘要系统。本协议不视为新闻室提供数据集的任何支持义务。研究人员就与数据集相关的任何反馈、建议、想法、评论、改进自愿给予,新闻室可以自由使用,没有任何义务或限制。

研究人员对其使用数据集承担全部责任,并保卫、赔偿并使新闻室免受任何因研究人员使用数据集而引起的索赔。研究人员同意遵守所有涉及访问和使用数据集和服务的法律法规,包括美国出口管辖权和其他美国和国际法规。

数据集按原样提供。新闻室对所有明示或默示的责任声明,包括适销性、适合特定目的和非侵权的默示保证,不承担任何责任。在不限制上述内容的情况下,新闻室不保证数据集没有错误或缺陷,并且不对其使用或由此产生的结果(包括正确性、准确性或可靠性)给予任何保证。数据集不保证满足任何特定目标或需求。

在法律允许的范围内,无论是基于合同违约、侵权(包括疏忽)还是其他原因,新闻室不对任何直接和间接、附带、特殊或后果性损害负责,这些损害是如何引起的以及基于任何责任理论的,包括但不限于利润损失,即使有关可能性的通知。这些限制适用于任何有限救济的任何基本目的失败。

本协议有效期至终止。新闻室保留随时终止研究人员对数据集的访问权利的权利。如果研究人员违反本协议,研究人员对使用数据集的权利将自动终止。研究人员将立即停止使用和分发数据集,并销毁其拥有的任何副本或部分数据集。

本协议受纽约州法律的管辖,不考虑法律冲突原则。在可能的情况下,应按照使其有效的方式解释本协议的所有条款和规定,但如果任何条款或规定在有管辖权的法院被发现为非法或不可强制执行,则不影响本协议其余条款或规定的有效性或可执行性。

本协议是双方之间关于其主题的完整和排他性协议,并取代有关主题的所有先前或同时的口头或书面协议或理解。

引用信息

@inproceedings{N18-1065,
  author    = {Grusky, Max and Naaman, Mor and Artzi, Yoav},
  title     = {NEWSROOM: A Dataset of 1.3 Million Summaries
               with Diverse Extractive Strategies},
  booktitle = {Proceedings of the 2018 Conference of the
               North American Chapter of the Association for
               Computational Linguistics: Human Language Technologies},
  year      = {2018},
}

贡献

感谢 @lewtun @patrickvonplaten @yoavartzi @thomwolf 添加了此数据集。