数据集:

GEM/xsum

语言:

en

计算机处理:

unknown

语言创建人:

unknown

批注创建人:

none

源数据集:

original
英文

GEM/xsum数据集卡

主要数据卡链接

您可以在 GEM Website 找到主要数据卡。

数据集摘要

XSum是一个英语新闻摘要数据集,任务是根据其余的内容预测一篇文章的第一句话。

可以通过以下方式加载数据集:

import datasets
data = datasets.load_dataset('GEM/xsum')

数据加载器可以在 here 找到。

网站

n/a

论文

ACL Anthology

作者

Shashi Narayan, Shay B. Cohen, Mirella Lapata(三位作者在创建数据集时均隶属于爱丁堡大学)

数据集概述

如何找到数据及其文档

下载

Github

论文

ACL Anthology

BibTex
@InProceedings{xsum-emnlp,
  author =      "Shashi Narayan and Shay B. Cohen and Mirella Lapata",
  title =       "Don't Give Me the Details, Just the Summary! {T}opic-Aware Convolutional Neural Networks for Extreme Summarization",
  booktitle =   "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ",
  year =        "2018",
  address =     "Brussels, Belgium",
}
联系人姓名

Shashi Narayan

联系人邮箱

shashinarayan@google.com

有排行榜吗?

语言和预期使用

多语言?

涵盖的方言

由于数据集的来源是BBC文章,语言属于新闻记者所写的英国英语的一种变体。

涵盖的语言

英语

谁的语言?

专业新闻记者

许可证

cc-by-sa-4.0:知识共享署名-相同方式共享国际许可证

预期使用

该数据集用于极端形式的抽象概括任务,即用一句话对文档进行概括。其目的是创建一个简短的、一句话的新闻摘要,回答问题“文章是关于什么的?”

主要任务

概括

交流目标

在给定的新闻文章中,生成对文章内容的一个句子概括。

学分

创建组织类型

学术机构

创建组织

爱丁堡大学

数据集创建者

Shashi Narayan, Shay B. Cohen, Mirella Lapata(三位作者在创建数据集时均隶属于爱丁堡大学)

资助

欧洲研究委员会(Lapata;奖励编号681760),欧盟Horizon 2020 SUMMA项目(Narayan, Cohen;授予协议688139)和华为技术(Cohen)。

谁将数据集添加到GEM?

原始数据卡由Laura Perez-Beltrachini撰写,数据加载器由Yacine Jernite撰写。Sebastian Gehrmann将数据卡迁移到了新的格式并进行了扩展。v2的数据加载器由Abinaya Mahendiran迁移。

数据集结构

数据字段
  • 文档:输入新闻文章。
  • 摘要:文章的一句话摘要。
  • ID:文章的BBC ID。
结构原因

文档/摘要格式是摘要数据集的标准格式。

标签是如何选择的?

标签是源文章的第一句话。

示例实例
{
  'document': 'The researchers have sequenced the genome of a strain of bacterium that causes the virulent infection.\nA survey in 2007 showed that bleeding canker had spread rapidly, with almost half of the two million horse chestnuts displaying symptoms of the disease.\nThe findings have been published in the journal PLoS One.\nA visible symptom of the disease is a lesion on the bark, which oozes a resin on to the trunk or sometimes the branches.\nThe bark underneath the canker is killed, and if cankers manage to go all the way around the trunk then the horse chestnut (Aesculus hippocastanum) will die because it cuts off the food supply. [...]',
  'target': "A team of UK scientists hopes to shed light on the mysteries of bleeding canker, a disease that is threatening the nation's horse chestnut trees.",
}
数据拆分
Section Number of Documents
Training 204,045
Validation 11,332
Testing 11,334
Total 226k
Section number of words number of sentences
Documents 431.07 19.77
Summary 23.26 1.00
拆分标准

使用URL中的标识符随机将数据集拆分为训练集(90%,204,045)、验证集(5%,11,332)和测试集(5%,11,334)。

数据集策划

原始策划

原始策划理由

可比较的数据集往往非常抽取式,而这对于单句摘要不起作用。因此,数据集策划者创建了这个数据集作为评估真正抽象模型的方式。

交流目标

与GEM中的交流目标相同:模型应该用一句话概括新闻文章。

来自不同来源

语言数据

如何获得语言数据?

发现

在哪里发现的?

单个网站

语言制作者

数据收集于2010年至2017年的文章。无其他信息。

涵盖的主题

收集的文章包括以下主题:新闻、政治、体育、天气、商业、技术、科学、健康、家庭、教育、娱乐和艺术

数据集策划者还使用LDA来了解这个问题,并发现以下是与每个主题相关的前几个关键字:

  • T1: charge, court, murder, police, arrest, guilty, sentence, boy, bail, space, crown, trial
  • T2: church, abuse, bishop, child, catholic, gay, pope, school, christian, priest, cardinal
  • T3: council, people, government, local, housing, home, house, property, city, plan, authority
  • T4: clinton, party, trump, climate, poll, vote, plaid, election, debate, change, candidate, campaign
  • T5: country, growth, report, business, export, fall, bank, security, economy, rise, global, inflation
  • T6: hospital, patient, trust, nhs, people, care, health, service, staff, report, review, system, child
数据验证

未验证

数据预处理

文本从网页的HTML中提取出来。没有进行进一步处理。

是否过滤了数据?

未过滤

结构化注释

附加注释?

注释服务?

同意

有任何同意政策吗?

使用数据的理由

数据的版权许可允许将其重新用于此目的。

私人识别信息(PII)

包含PII吗?

是/很可能

PII的类别

通用PII

有PII的识别吗?

无识别

维护

有维护计划吗?

更广泛的社会背景

数据集的社会影响的先前工作

基于数据的模型的使用情况

对弱势社区的影响

是否满足弱势社区的需求?

偏见讨论

是否有记录的社会偏见?

不确定

语言制作者是否代表了该语言?

数据的语言和内容侧重于英国的新闻和语言,因此不代表全球说话者的世界。该数据集存在BBC的现有选择偏见。