数据集:

yhavinga/xsum_dutch

英文

"xsum_dutch" ???? 数据集的数据卡

数据集描述

Xsum Dutch ???? 数据集是一个从英文翻译成荷兰语的数据集。

此数据集目前(2022年8月)有一个配置,即将默认配置 xsum 翻译为荷兰语,并转换为 yhavinga/t5-base-36L-ccmatrix-multi

数据集摘要

极端摘要(XSum)数据集。

有三个特征:

  • document:输入新闻文章。
  • summary:文章的一句摘要。
  • id:文章的BBC ID。

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

默认
  • 下载的数据集文件大小:245.38 MB
  • 生成的数据集大小:507.60 MB
  • 使用的总磁盘空间:752.98 MB

'验证'的示例如下所示。

{
    "document": "some-body",
    "id": "29750031",
    "summary": "some-sentence"
}

数据字段

数据字段在所有拆分之间相同。

默认
  • document:字符串特征。
  • summary:字符串特征。
  • id:字符串特征。

数据拆分

name train validation test
default 204045 11332 11334

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

More Information Needed

谁是源语言的生产者?

More Information Needed

注释

注释过程

More Information Needed

谁是注释者?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{Narayan2018DontGM,
  title={Don't Give Me the Details, Just the Summary! Topic-Aware Convolutional Neural Networks for Extreme Summarization},
  author={Shashi Narayan and Shay B. Cohen and Mirella Lapata},
  journal={ArXiv},
  year={2018},
  volume={abs/1808.08745}
}

贡献

感谢 @thomwolf @lewtun @mariamabarham @jbragg @lhoestq @patrickvonplaten 添加了该数据集的英文版本。该数据集是在Google通过 TPU Research Cloud 慷慨提供的Cloud TPU计算上进行的翻译。