数据集:

xsum

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:1808.08745
英文

"xsum" 数据集卡

数据集摘要

极限摘要(XSum)数据集。

有三个特征:

  • document: 输入的新闻文章。
  • summary: 文章的一句总结。
  • id: 文章的BBC ID。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

default
  • 下载的数据集文件大小: 257.30 MB
  • 生成的数据集大小: 532.26 MB
  • 使用的总磁盘空间: 789.56 MB

'验证'的一个示例如下。

{
    "document": "some-body",
    "id": "29750031",
    "summary": "some-sentence"
}

数据字段

所有拆分之间的数据字段是相同的。

default
  • document : 一个 string 特征。
  • summary : 一个 string 特征。
  • id : 一个 string 特征。

数据拆分

name train validation test
default 204045 11332 11334

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和标准化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{Narayan2018DontGM,
  title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
  author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
  journal={ArXiv},
  year={2018},
  volume={abs/1808.08745}
}

贡献

感谢 @thomwolf @lewtun @mariamabarham @jbragg @lhoestq @patrickvonplaten 添加了这个数据集。