数据集:

knkarthick/samsum

预印本库:

arxiv:1911.12237

源数据集:

original

批注创建人:

expert-generated

语言创建人:

expert-generated

大小:

10K<n<100K

计算机处理:

monolingual

语言:

en
英文

SAMSum语料库数据卡

数据集描述

链接

数据集摘要

SAMSum数据集包含大约16k个带有摘要的对话。对话是由精通英语的语言学家创建和书写的。要求语言学家创建类似于他们日常书写的对话,反映出他们真实生活中对话主题的比例。风格和表达方式是多样化的-对话可以是非正式的、半正式的或正式的,可能包含俚语、表情符号和打字错误。然后,对对话进行了摘要注释。假设摘要应该是对第三人称中人们在对话中讨论的内容的简洁概述。SAMSum数据集由三星波兰研发中心准备,并以研究目的分发(非商业许可证:CC BY-NC-ND 4.0)。

语言

英语

数据集结构

数据实例

SAMSum数据集由16369个对话组成,根据对话中话语的数量均匀分为4组:3-6、7-12、13-18和19-30。每个话语都包含讲话者的姓名。大多数对话由两个对话者之间的对话组成(约占所有对话的75%),其余的是三个或更多人之间的对话。训练集中的第一个实例:{'id': '13818513', 'summary': 'Amanda baked cookies and will bring Jerry some tomorrow.', 'dialogue': "Amanda: I baked cookies. Do you want some?\r\nJerry: Sure!\r\nAmanda: I'll bring you tomorrow :-)"}

数据字段

  • 对话: 对话的文本。
  • 摘要: 对话的人工书写摘要。
  • id: 唯一的文件id。

数据拆分

  • 训练集: 14732
  • 验证集: 818
  • 测试集: 819

数据集创建

策划理由

在论文中:首先,我们审查了以下类别的数据集:聊天机器人对话、短信语料库、IRC/聊天数据、电影对话、推特、评论数据(由对评论的回复形成的对话)、会议记录、书面讨论、电话对话和日常通信数据。不幸的是,它们在某些方面与通常在即时通讯应用中书写的对话有所不同,例如它们过于技术化(IRC数据)、过长(评论数据、会议记录)、缺乏上下文(电影对话)或者更多地是口语类型,如加油站助理和购买汽油的客户之间的对话。因此,我们决定通过构建这样的对话来创建一个聊天对话数据集,这些对话将代表即时通讯应用的风格。

源语言制作者是谁?

语言学家

注释者是谁?

语言专家

注释过程

在论文中:每个对话都是由一个人创建的。在收集到所有对话后,我们请语言专家对其进行摘要注释,假设摘要应该(1)相对较短,(2)提取重要信息,(3)包含对话者姓名,(4)用第三人称书写。每个对话只包含一个参考摘要。

许可信息

非商业许可证:CC BY-NC-ND 4.0

引用信息

@inproceedings{gliwa-etal-2019-samsum,
    title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization",
    author = "Gliwa, Bogdan  and
      Mochol, Iwona  and
      Biesek, Maciej  and
      Wawer, Aleksander",
    booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D19-5409",
    doi = "10.18653/v1/D19-5409",
    pages = "70--79"
}

贡献