数据集:

gigaword

任务:

摘要生成

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

extended|gigaword_2003

预印本库:

arxiv:1509.00685

其他:

headline-generation

许可:

mit

数据集介绍文件清单

英文

Gigaword数据集卡片

数据集摘要

来自Gigaword的文章对的新闻标题生成数据集，包含约400万篇文章。使用由 https://github.com/microsoft/unilm/ 提供的'org_data'，该数据集与 https://github.com/harvardnlp/sent-summary 相同但格式更好。

支持的任务和排行榜

摘要生成：可以将此数据集用于摘要生成，给定一篇文章，目标是预测其摘要。使用 ROUGE 度量评估模型性能。此任务的排行榜可在 here 上找到。

语言

英语。

数据集结构

数据实例

'train'的一个示例如下所示。

{
  'document': "australia 's current account deficit shrunk by a record #.## billion dollars -lrb- #.## billion us -rrb- in the june quarter due to soaring commodity prices , figures released monday showed .", 
  'summary': 'australian current account deficit narrows sharply'
}

数据字段

所有拆分的数据字段相同。

文档：字符串特征。
摘要：字符串特征。

数据拆分

name	train	validation	test
default	3803957	189651	1951

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和规范化

来自论文：

对于我们的训练集，我们将每篇文章的标题与其第一句话配对以创建输入摘要对。虽然理论上可以训练任意一对，但Gigaword包含许多虚假的标题-文章对。因此，我们使用以下启发式过滤器对训练进行修剪：（1）标题中没有非停用词的吗？（2）标题中包含署名或其他冗余的编辑标记吗？（3）标题中是否有问号或冒号？应用这些过滤器后，训练集大约包含J = 400万个标题-文章对。我们使用PTB标记化进行最小预处理，将所有数字字符替换为#，将出现次数少于5次的单词类型替换为UNK。我们还删除了DUC评估时期的所有文章。发行。完整输入训练词汇包括1.19亿个单词标记和11万个独特的单词类型，平均句子长度为31.3个单词。标题词汇包括3100万个标记和6.9万个单词类型，标题的平均长度为8.3个单词（注意，这显著短于DUC摘要）。标题和输入之间平均有4.6个重叠的单词类型；但在输入的前75个字符中只有2.6个。

源语言制造商是谁？

来自论文：

对于两个任务的训练数据，我们使用了注释的Gigaword数据集（Graff等，2003；Napoles等，2012），该数据集使用了Stanford CoreNLP工具（Manning等，2014）进行预处理。

注释

注释过程

注释继承自标注的Gigaword数据集。

来自论文的其他信息：

我们的模型仅使用标注进行分词和句子分隔，但一些基线模型还使用了解析和标记。

注释者是谁？

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

其他信息

数据集策划者

More Information Needed

许可信息

More Information Needed

引用信息

@article{graff2003english,
  title={English gigaword},
  author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki},
  journal={Linguistic Data Consortium, Philadelphia},
  volume={4},
  number={1},
  pages={34},
  year={2003}
}

@article{Rush_2015,
   title={A Neural Attention Model for Abstractive Sentence Summarization},
   url={http://dx.doi.org/10.18653/v1/D15-1044},
   DOI={10.18653/v1/d15-1044},
   journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing},
   publisher={Association for Computational Linguistics},
   author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason},
   year={2015}
}

贡献

感谢 @lewtun ， @lhoestq ， @thomwolf 添加了此数据集。

作者:

佚名

数据集大小:

15.46 KB

Gigaword数据集卡片

数据集摘要

支持的任务和排行榜

语言

数据集结构

数据实例

数据字段

数据拆分

数据集创建

策划理由

源数据

注释

个人和敏感信息

使用数据的注意事项

数据集的社会影响

偏见讨论

其他已知限制

其他信息

数据集策划者

许可信息

引用信息

贡献