数据集:
newsroom
任务:
摘要生成语言:
en计算机处理:
monolingual语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original许可:
otherNEWSROOM是用于训练和评估摘要系统的大型数据集。它包含来自38家主要新闻出版社新闻编辑室和作者撰写的130万篇文章和摘要。
数据集特点包括:
可以通过请求下载此数据集。将所有内容“train.jsonl,dev.josnl,test.jsonl”解压缩到tfds文件夹中。
英语(en)。
'train'的示例如下。
{ "compression": 33.880001068115234, "compression_bin": "medium", "coverage": 1.0, "coverage_bin": "high", "date": "200600000", "density": 11.720000267028809, "density_bin": "extractive", "summary": "some summary 1", "text": "some text 1", "title": "news title 1", "url": "url.html" }
数据字段在所有拆分中都相同。
默认name | train | validation | test |
---|---|---|---|
default | 995041 | 108837 | 108862 |
https://cornell.qualtrics.com/jfe/form/SV_6YA3HQ2p75XH4IR
此数据集使用协议(“协议”)是与康奈尔新闻室摘要团队(“新闻室”)签订的法律协议,用于个人或实体(“研究人员”)行使本协议项下的权利。 "数据集"包括所有文本,数据,信息,源代码以及任何相关材料,文档,文件,媒体,更新或修订。
数据集仅供非商业研究和教育目的使用,不收取任何许可证或其他知识产权费用。研究人员下载或使用数据集即表示他们同意接受本协议的条款,并声明并保证他们有权代表任何行使本协议项下权利的实体执行本协议。研究人员接受并同意遵守本协议的条款和条件。如果研究人员不同意本协议,他们可能不会下载或使用数据集。
通过与新闻室分享内容,例如通过提交内容到本网站或与新闻室贡献者进行通信,研究人员授予新闻室使用、复制、展示、执行、改编、修改、分发、有所分发和促销内容的权利,无论形式、地点和目的如何,例如用于评估和比较摘要系统。本协议不视为新闻室提供数据集的任何支持义务。研究人员就与数据集相关的任何反馈、建议、想法、评论、改进自愿给予,新闻室可以自由使用,没有任何义务或限制。
研究人员对其使用数据集承担全部责任,并保卫、赔偿并使新闻室免受任何因研究人员使用数据集而引起的索赔。研究人员同意遵守所有涉及访问和使用数据集和服务的法律法规,包括美国出口管辖权和其他美国和国际法规。
数据集按原样提供。新闻室对所有明示或默示的责任声明,包括适销性、适合特定目的和非侵权的默示保证,不承担任何责任。在不限制上述内容的情况下,新闻室不保证数据集没有错误或缺陷,并且不对其使用或由此产生的结果(包括正确性、准确性或可靠性)给予任何保证。数据集不保证满足任何特定目标或需求。
在法律允许的范围内,无论是基于合同违约、侵权(包括疏忽)还是其他原因,新闻室不对任何直接和间接、附带、特殊或后果性损害负责,这些损害是如何引起的以及基于任何责任理论的,包括但不限于利润损失,即使有关可能性的通知。这些限制适用于任何有限救济的任何基本目的失败。
本协议有效期至终止。新闻室保留随时终止研究人员对数据集的访问权利的权利。如果研究人员违反本协议,研究人员对使用数据集的权利将自动终止。研究人员将立即停止使用和分发数据集,并销毁其拥有的任何副本或部分数据集。
本协议受纽约州法律的管辖,不考虑法律冲突原则。在可能的情况下,应按照使其有效的方式解释本协议的所有条款和规定,但如果任何条款或规定在有管辖权的法院被发现为非法或不可强制执行,则不影响本协议其余条款或规定的有效性或可执行性。
本协议是双方之间关于其主题的完整和排他性协议,并取代有关主题的所有先前或同时的口头或书面协议或理解。
@inproceedings{N18-1065, author = {Grusky, Max and Naaman, Mor and Artzi, Yoav}, title = {NEWSROOM: A Dataset of 1.3 Million Summaries with Diverse Extractive Strategies}, booktitle = {Proceedings of the 2018 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies}, year = {2018}, }
感谢 @lewtun 、 @patrickvonplaten 、 @yoavartzi 、 @thomwolf 添加了此数据集。