数据集:
knkarthick/samsum
许可:
cc-by-nc-nd-4.0预印本库:
arxiv:1911.12237源数据集:
original批注创建人:
expert-generated语言创建人:
expert-generated大小:
10K<n<100K计算机处理:
monolingual语言:
en任务:
摘要生成SAMSum数据集包含大约16k个带有摘要的对话。对话是由精通英语的语言学家创建和书写的。要求语言学家创建类似于他们日常书写的对话,反映出他们真实生活中对话主题的比例。风格和表达方式是多样化的-对话可以是非正式的、半正式的或正式的,可能包含俚语、表情符号和打字错误。然后,对对话进行了摘要注释。假设摘要应该是对第三人称中人们在对话中讨论的内容的简洁概述。SAMSum数据集由三星波兰研发中心准备,并以研究目的分发(非商业许可证:CC BY-NC-ND 4.0)。
英语
SAMSum数据集由16369个对话组成,根据对话中话语的数量均匀分为4组:3-6、7-12、13-18和19-30。每个话语都包含讲话者的姓名。大多数对话由两个对话者之间的对话组成(约占所有对话的75%),其余的是三个或更多人之间的对话。训练集中的第一个实例:{'id': '13818513', 'summary': 'Amanda baked cookies and will bring Jerry some tomorrow.', 'dialogue': "Amanda: I baked cookies. Do you want some?\r\nJerry: Sure!\r\nAmanda: I'll bring you tomorrow :-)"}
在论文中:首先,我们审查了以下类别的数据集:聊天机器人对话、短信语料库、IRC/聊天数据、电影对话、推特、评论数据(由对评论的回复形成的对话)、会议记录、书面讨论、电话对话和日常通信数据。不幸的是,它们在某些方面与通常在即时通讯应用中书写的对话有所不同,例如它们过于技术化(IRC数据)、过长(评论数据、会议记录)、缺乏上下文(电影对话)或者更多地是口语类型,如加油站助理和购买汽油的客户之间的对话。因此,我们决定通过构建这样的对话来创建一个聊天对话数据集,这些对话将代表即时通讯应用的风格。
语言学家
语言专家
在论文中:每个对话都是由一个人创建的。在收集到所有对话后,我们请语言专家对其进行摘要注释,假设摘要应该(1)相对较短,(2)提取重要信息,(3)包含对话者姓名,(4)用第三人称书写。每个对话只包含一个参考摘要。
非商业许可证:CC BY-NC-ND 4.0
@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }