数据集:
samsum
任务:
摘要生成语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1911.12237许可:
cc-by-nc-nd-4.0SAMSum数据集包含大约16,000个带有摘要的类似于即时通讯的对话。对话由能够流利使用英语的语言学家创建和书写。要求语言学家创建类似于他们日常写作的对话,反映他们实际即时通讯对话中各个主题的比例。风格和语言使用上多样化 - 对话可以是非正式的、半正式的或正式的,可能包含俚语、表情符号和拼写错误。然后,对话被用摘要进行注释。假设摘要应该是对话中人们谈论的内容的简明扼要的第三人称概述。SAMSum数据集由三星R&D Institute Poland准备,并且以研究目的分发(非商业许可:CC BY-NC-ND 4.0)。
[需要更多信息]
英语
创建的数据集由16,369个对话组成,根据对话中的话语数量均匀分布在4个组中:3-6、7-12、13-18和19-30。每个话语中都包含说话者的名称。大多数对话都是两个互讲者之间的对话(约占所有对话的75%),其余的对话是三个或更多人之间的对话
训练集中的第一个实例:{'id': '13818513', 'summary': 'Amanda baked cookies and will bring Jerry some tomorrow.', 'dialogue': "Amanda: I baked cookies. Do you want some?\r\nJerry: Sure!\r\nAmanda: I'll bring you tomorrow :-)"}
在论文中:
在第一种方法中,我们回顾了以下类别的数据集:聊天机器人对话、短信语料库、IRC/聊天数据、电影对话、推文、评论数据(由对评论的回复形成的对话)、会议记录、书面讨论、电话对话和日常交流数据。不幸的是,它们在某些方面与在即时通讯应用程序中经常书写的对话不同,例如它们太技术化(IRC数据)、太长(评论数据、会议记录)、缺乏上下文(电影对话)或它们更多是口语类型,如加油站助理与购买汽油的客户之间的对话。因此,我们决定通过构建典型地代表即时通讯应用程序风格的对话来创建聊天对话数据集。
在论文中:
我们要求语言学家创建类似于他们日常写作的对话,反映他们实际即时通讯对话中各个主题的比例。其中包括聊天、朋友间闲聊、安排会议、讨论政治、与同事商量大学作业等。因此,该数据集不包含任何敏感数据或其他语料库的片段。
谁是源语言的产生者?语言学家
在论文中:
每个对话都是由一个人创建的。在收集所有对话后,我们请语言专家用摘要对其进行注释,假设摘要应该(1)相对简短,(2)提取重要信息片段,(3)包含对话者的姓名,(4)用第三人称写成。每个对话只包含一个参考摘要。
谁是标注者?语言专家
无,参见上述:“开始数据收集和规范化”
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
非商业许可:CC BY-NC-ND 4.0
@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }
感谢 @cccntu 添加此数据集。