数据集:
NavidVafaei/rottentomato01
任务:
语言:
计算机处理:
monolingual大小:
10K<n<100K语言创建人:
expert-generated批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1911.12237许可:
SAMSum 数据集包含大约16k个带有摘要的类似于即时通讯的对话。对话是由精通英语的语言学家创建和记录的。要求语言学家创建与他们日常使用的对话类似的对话,反映他们真实生活中即时通讯对话的主题比例。对话的风格和注册是多样化的 - 对话可以是非正式的、半正式的或正式的,它们可能包含俚语、表情符号和拼写错误。然后,对话被用摘要进行注释。摘要假设应该是对话中人们讨论的内容的简洁概述,以第三人称进行叙述。SAMSum 数据集由三星R&D Institute Poland准备,用于研究目的(非商业许可:CC BY-NC-ND 4.0)。
[需要更多信息]
英语
创建的数据集由16369个对话组成,根据对话中话语的数量均匀分为4组:3-6,7-12,13-18和19-30。每个话语都包含说话者的姓名。大多数对话由两个对话者之间的对话组成(约占所有对话的75%),其余对话是三个或更多人之间的对话
训练集中的第一个实例:{'id': '13818513', 'summary': 'Amanda baked cookies and will bring Jerry some tomorrow.', 'dialogue': "Amanda: I baked cookies. Do you want some?\r\nJerry: Sure!\r\nAmanda: I'll bring you tomorrow :-)"}
在论文中:
在第一种方法中,我们回顾了以下类别的数据集:聊天机器人对话、短信语料库、IRC/聊天数据、电影对话、推文、评论数据(由对评论的回复形成的对话)、会议记录、书面讨论、电话对话和日常沟通数据。不幸的是,它们在某些方面与通常在即时通讯应用程序中编写的对话不同,例如它们过于技术性(IRC数据)、过于冗长(评论数据、会议记录)、缺乏上下文(电影对话)或更多地是口头类型,比如一个加油站助理和购买汽油的客户之间的对话。因此,我们决定通过构建这样的对话来创建一个聊天对话数据集,以示例化即时通讯应用程序的风格。
在论文中:
我们要求语言学家创建与他们日常书写的对话相似的对话,反映他们真实生活中即时通讯对话的主题比例。这包括闲聊、八卦朋友、安排会议、讨论政治、与同事商量大学作业等。因此,此数据集不包含任何敏感数据或其他语料库的片段。
谁是源语言的制作者?语言学家
在论文中:
每个对话都是由一个人创建的。收集所有对话后,我们请语言专家用摘要进行注释,假设摘要应(1)较短,(2)提取重要信息,(3)包含对话者的姓名,(4)用第三人称写成。每个对话只包含一个参考摘要。
谁是注释者?语言专家
没有,参见上述:初始数据收集和规范化
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
非商业许可:CC BY-NC-ND 4.0
@inproceedings{gliwa-etal-2019-samsum, title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization", author = "Gliwa, Bogdan and Mochol, Iwona and Biesek, Maciej and Wawer, Aleksander", booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization", month = nov, year = "2019", address = "Hong Kong, China", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/D19-5409", doi = "10.18653/v1/D19-5409", pages = "70--79" }
感谢 @cccntu 添加此数据集。