数据集:

knkarthick/xsum

英文

SAMSum Corpus 数据集卡片

数据集描述

链接

数据集概述

该存储库包含我们在 EMNLP 2018 论文中使用的数据和代码。

语言

英语

数据集结构

数据实例

XSum 数据集由226711个对话组成,分为训练集、测试集和验证集。训练集中的第一个实例是:{'dialogue': 'Newton Stewart是受灾最严重的地区之一,其全部损失仍在评估中。\n修复工作正在Hawick进行,Peeblesshire的许多道路因积水严重受损。\n由于Lamington天桥出现损毁,西海岸主线上的列车面临中断。\n克里河(River Cree)泛滥进入该镇后,许多企业和住户在Newton Stewart受到洪水影响。\n尼克拉·斯特金(Nicola Sturgeon)首席部长访问了该地区以检查损失。\n洪水打破了一堵护坡墙,洪水泛滥到了主要的购物大道Victoria Street上的许多商业物业中。\nJeanette Tate拥有受到严重影响的Cinnamon咖啡馆,她表示一旦发生洪水,多机构的响应无可挑剔。\n然而,她说在确保护坡墙不会崩溃之前,可以进行更多的预防性工作。\n她说:“这很困难,但我确实认为杜姆弗里斯和尼思的宣传太多 - 我完全理解这一点 - 但这几乎像是我们被忽视或遗忘了。”\n她说:“这可能不是真的,但也许是我在过去几天的角度。\n当警报和警报警示发出时,为什么你们没有准备好多帮助我们一点?”\n与此同时,由于持续的降雨,边境地区仍然处于洪水预警状态。\nPeebles受到严重影响,引发呼吁在该地区引入更多防御措施。\n苏格兰边境议会在其网站上列出了受影响最严重的道路,并敦促驾驶员不要忽视封闭标志。\n工党副首席苏格兰领袖亚历克斯·罗利(Alex Rowley)周一到访Hawick,亲眼目睹了情况。\n他说,确保洪水防护计划正确非常重要,但他支持加速进程的呼吁。\n他说:“我对造成的损失感到非常吃惊。”\n“显然,对于被迫离开家园的人和企业的影响是令人心碎的。”\n他说,重要的是“立即采取措施”以保护最脆弱的地区,并确定洪水防治计划的明确时间表。\n您是否受到苏格兰邓弗里斯和加洛韦和边境洪水的影响?向我们讲述您对该情况的经历以及如何处理。 请发送电子邮件至selkirk.news@bbc.co.uk或dumfries@bbc.co.uk。', 'summary': '由“Frank风暴”引起的洪水导致苏格兰边境和邓弗里斯与加洛韦持续进行清理工作。', 'id': '35232142'}

数据字段

  • 对话:对话的文本。
  • 摘要:对话的一行人工撰写的摘要。
  • id:唯一的文件标识符。

数据拆分

  • 训练集:204045
  • 验证集:11332
  • 测试集:11334

数据集创建

筛选原因

源语言生成者是谁?

语言学家

标注者是谁?

语言专家

标注过程

许可信息

非商业许可证:MIT

引用信息

@InProceedings{xsum-emnlp,
  author =      "Shashi Narayan and Shay B. Cohen and Mirella Lapata",
  title =       "Don't Give Me the Details, Just the Summary! {T}opic-Aware Convolutional Neural Networks for Extreme Summarization",
  booktitle =   "Proceedings of the 2018 Conference on Empirical Methods in Natural Language Processing ",
  year =        "2018",
  address =     "Brussels, Belgium",

贡献

感谢 @Edinburgh NLP 添加此数据集。