数据集:

gigaword

语言:

en

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

预印本库:

arxiv:1509.00685

许可:

mit
英文

Gigaword数据集卡片

数据集摘要

来自Gigaword的文章对的新闻标题生成数据集,包含约400万篇文章。使用由 https://github.com/microsoft/unilm/ 提供的'org_data',该数据集与 https://github.com/harvardnlp/sent-summary 相同但格式更好。

支持的任务和排行榜

  • 摘要生成:可以将此数据集用于摘要生成,给定一篇文章,目标是预测其摘要。使用 ROUGE 度量评估模型性能。此任务的排行榜可在 here 上找到。

语言

英语。

数据集结构

数据实例

'train'的一个示例如下所示。

{
  'document': "australia 's current account deficit shrunk by a record #.## billion dollars -lrb- #.## billion us -rrb- in the june quarter due to soaring commodity prices , figures released monday showed .", 
  'summary': 'australian current account deficit narrows sharply'
}

数据字段

所有拆分的数据字段相同。

  • 文档:字符串特征。
  • 摘要:字符串特征。

数据拆分

name train validation test
default 3803957 189651 1951

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

来自论文:

对于我们的训练集,我们将每篇文章的标题与其第一句话配对以创建输入摘要对。虽然理论上可以训练任意一对,但Gigaword包含许多虚假的标题-文章对。因此,我们使用以下启发式过滤器对训练进行修剪:(1)标题中没有非停用词的吗?(2)标题中包含署名或其他冗余的编辑标记吗?(3)标题中是否有问号或冒号?应用这些过滤器后,训练集大约包含J = 400万个标题-文章对。我们使用PTB标记化进行最小预处理,将所有数字字符替换为#,将出现次数少于5次的单词类型替换为UNK。我们还删除了DUC评估时期的所有文章。发行。完整输入训练词汇包括1.19亿个单词标记和11万个独特的单词类型,平均句子长度为31.3个单词。标题词汇包括3100万个标记和6.9万个单词类型,标题的平均长度为8.3个单词(注意,这显著短于DUC摘要)。标题和输入之间平均有4.6个重叠的单词类型;但在输入的前75个字符中只有2.6个。

源语言制造商是谁?

来自论文:

对于两个任务的训练数据,我们使用了注释的Gigaword数据集(Graff等,2003;Napoles等,2012),该数据集使用了Stanford CoreNLP工具(Manning等,2014)进行预处理。

注释

注释过程

注释继承自标注的Gigaword数据集。

来自论文的其他信息:

我们的模型仅使用标注进行分词和句子分隔,但一些基线模型还使用了解析和标记。

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{graff2003english,
  title={English gigaword},
  author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki},
  journal={Linguistic Data Consortium, Philadelphia},
  volume={4},
  number={1},
  pages={34},
  year={2003}
}

@article{Rush_2015,
   title={A Neural Attention Model for Abstractive Sentence Summarization},
   url={http://dx.doi.org/10.18653/v1/D15-1044},
   DOI={10.18653/v1/d15-1044},
   journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing},
   publisher={Association for Computational Linguistics},
   author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason},
   year={2015}
}

贡献

感谢 @lewtun @lhoestq @thomwolf 添加了此数据集。