数据集:
gigaword
任务:
摘要生成语言:
en计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
extended|gigaword_2003预印本库:
arxiv:1509.00685许可:
mit来自Gigaword的文章对的新闻标题生成数据集,包含约400万篇文章。使用由 https://github.com/microsoft/unilm/ 提供的'org_data',该数据集与 https://github.com/harvardnlp/sent-summary 相同但格式更好。
英语。
'train'的一个示例如下所示。
{ 'document': "australia 's current account deficit shrunk by a record #.## billion dollars -lrb- #.## billion us -rrb- in the june quarter due to soaring commodity prices , figures released monday showed .", 'summary': 'australian current account deficit narrows sharply' }
所有拆分的数据字段相同。
name | train | validation | test |
---|---|---|---|
default | 3803957 | 189651 | 1951 |
来自论文:
对于我们的训练集,我们将每篇文章的标题与其第一句话配对以创建输入摘要对。虽然理论上可以训练任意一对,但Gigaword包含许多虚假的标题-文章对。因此,我们使用以下启发式过滤器对训练进行修剪:(1)标题中没有非停用词的吗?(2)标题中包含署名或其他冗余的编辑标记吗?(3)标题中是否有问号或冒号?应用这些过滤器后,训练集大约包含J = 400万个标题-文章对。我们使用PTB标记化进行最小预处理,将所有数字字符替换为#,将出现次数少于5次的单词类型替换为UNK。我们还删除了DUC评估时期的所有文章。发行。完整输入训练词汇包括1.19亿个单词标记和11万个独特的单词类型,平均句子长度为31.3个单词。标题词汇包括3100万个标记和6.9万个单词类型,标题的平均长度为8.3个单词(注意,这显著短于DUC摘要)。标题和输入之间平均有4.6个重叠的单词类型;但在输入的前75个字符中只有2.6个。
源语言制造商是谁?来自论文:
对于两个任务的训练数据,我们使用了注释的Gigaword数据集(Graff等,2003;Napoles等,2012),该数据集使用了Stanford CoreNLP工具(Manning等,2014)进行预处理。
注释继承自标注的Gigaword数据集。
来自论文的其他信息:
我们的模型仅使用标注进行分词和句子分隔,但一些基线模型还使用了解析和标记。
注释者是谁?@article{graff2003english, title={English gigaword}, author={Graff, David and Kong, Junbo and Chen, Ke and Maeda, Kazuaki}, journal={Linguistic Data Consortium, Philadelphia}, volume={4}, number={1}, pages={34}, year={2003} } @article{Rush_2015, title={A Neural Attention Model for Abstractive Sentence Summarization}, url={http://dx.doi.org/10.18653/v1/D15-1044}, DOI={10.18653/v1/d15-1044}, journal={Proceedings of the 2015 Conference on Empirical Methods in Natural Language Processing}, publisher={Association for Computational Linguistics}, author={Rush, Alexander M. and Chopra, Sumit and Weston, Jason}, year={2015} }