您可以在 GEM Website 找到主要数据卡。
XSum是一个英语新闻摘要数据集,任务是根据其余的内容预测一篇文章的第一句话。
可以通过以下方式加载数据集:
import datasets data = datasets.load_dataset('GEM/xsum')
数据加载器可以在 here 找到。
网站n/a
论文 作者Shashi Narayan, Shay B. Cohen, Mirella Lapata(三位作者在创建数据集时均隶属于爱丁堡大学)
@InProceedings{xsum-emnlp, author = "Shashi Narayan and Shay B. Cohen and Mirella Lapata", title = "Don't Give Me the Details, Just the Summary! {T}opic-Aware Convolutional Neural Networks for Extreme Summarization", booktitle = "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ", year = "2018", address = "Brussels, Belgium", }联系人姓名
Shashi Narayan
联系人邮箱shashinarayan@google.com
有排行榜吗?否
否
涵盖的方言由于数据集的来源是BBC文章,语言属于新闻记者所写的英国英语的一种变体。
涵盖的语言英语
谁的语言?专业新闻记者
许可证cc-by-sa-4.0:知识共享署名-相同方式共享国际许可证
预期使用该数据集用于极端形式的抽象概括任务,即用一句话对文档进行概括。其目的是创建一个简短的、一句话的新闻摘要,回答问题“文章是关于什么的?”
主要任务概括
交流目标在给定的新闻文章中,生成对文章内容的一个句子概括。
学术机构
创建组织爱丁堡大学
数据集创建者Shashi Narayan, Shay B. Cohen, Mirella Lapata(三位作者在创建数据集时均隶属于爱丁堡大学)
资助欧洲研究委员会(Lapata;奖励编号681760),欧盟Horizon 2020 SUMMA项目(Narayan, Cohen;授予协议688139)和华为技术(Cohen)。
谁将数据集添加到GEM?原始数据卡由Laura Perez-Beltrachini撰写,数据加载器由Yacine Jernite撰写。Sebastian Gehrmann将数据卡迁移到了新的格式并进行了扩展。v2的数据加载器由Abinaya Mahendiran迁移。
文档/摘要格式是摘要数据集的标准格式。
标签是如何选择的?标签是源文章的第一句话。
示例实例{ 'document': 'The researchers have sequenced the genome of a strain of bacterium that causes the virulent infection.\nA survey in 2007 showed that bleeding canker had spread rapidly, with almost half of the two million horse chestnuts displaying symptoms of the disease.\nThe findings have been published in the journal PLoS One.\nA visible symptom of the disease is a lesion on the bark, which oozes a resin on to the trunk or sometimes the branches.\nThe bark underneath the canker is killed, and if cankers manage to go all the way around the trunk then the horse chestnut (Aesculus hippocastanum) will die because it cuts off the food supply. [...]', 'target': "A team of UK scientists hopes to shed light on the mysteries of bleeding canker, a disease that is threatening the nation's horse chestnut trees.", }数据拆分
Section | Number of Documents |
---|---|
Training | 204,045 |
Validation | 11,332 |
Testing | 11,334 |
Total | 226k |
Section | number of words | number of sentences |
---|---|---|
Documents | 431.07 | 19.77 |
Summary | 23.26 | 1.00 |
使用URL中的标识符随机将数据集拆分为训练集(90%,204,045)、验证集(5%,11,332)和测试集(5%,11,334)。
可比较的数据集往往非常抽取式,而这对于单句摘要不起作用。因此,数据集策划者创建了这个数据集作为评估真正抽象模型的方式。
交流目标与GEM中的交流目标相同:模型应该用一句话概括新闻文章。
来自不同来源否
发现
在哪里发现的?单个网站
语言制作者数据收集于2010年至2017年的文章。无其他信息。
涵盖的主题收集的文章包括以下主题:新闻、政治、体育、天气、商业、技术、科学、健康、家庭、教育、娱乐和艺术
数据集策划者还使用LDA来了解这个问题,并发现以下是与每个主题相关的前几个关键字:
未验证
数据预处理文本从网页的HTML中提取出来。没有进行进一步处理。
是否过滤了数据?未过滤
无
注释服务?无
无
使用数据的理由数据的版权许可允许将其重新用于此目的。
是/很可能
PII的类别通用PII
有PII的识别吗?无识别
无
无
否
不确定
语言制作者是否代表了该语言?数据的语言和内容侧重于英国的新闻和语言,因此不代表全球说话者的世界。该数据集存在BBC的现有选择偏见。