数据集:

samsum

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1911.12237
英文

SAMSum数据集数据卡

数据集摘要

SAMSum数据集包含大约16,000个带有摘要的类似于即时通讯的对话。对话由能够流利使用英语的语言学家创建和书写。要求语言学家创建类似于他们日常写作的对话,反映他们实际即时通讯对话中各个主题的比例。风格和语言使用上多样化 - 对话可以是非正式的、半正式的或正式的,可能包含俚语、表情符号和拼写错误。然后,对话被用摘要进行注释。假设摘要应该是对话中人们谈论的内容的简明扼要的第三人称概述。SAMSum数据集由三星R&D Institute Poland准备,并且以研究目的分发(非商业许可:CC BY-NC-ND 4.0)。

支持的任务和排行榜

[需要更多信息]

语言

英语

数据集结构

数据实例

创建的数据集由16,369个对话组成,根据对话中的话语数量均匀分布在4个组中:3-6、7-12、13-18和19-30。每个话语中都包含说话者的名称。大多数对话都是两个互讲者之间的对话(约占所有对话的75%),其余的对话是三个或更多人之间的对话

训练集中的第一个实例:{'id': '13818513', 'summary': 'Amanda baked cookies and will bring Jerry some tomorrow.', 'dialogue': "Amanda: I baked cookies. Do you want some?\r\nJerry: Sure!\r\nAmanda: I'll bring you tomorrow :-)"}

数据字段

  • 对话:对话的文本。
  • 摘要:对话的人工编写摘要。
  • id:示例的唯一标识符。

数据拆分

  • 训练集:14732个
  • 验证集:818个
  • 测试集:819个

数据集创建

策划理由

在论文中:

在第一种方法中,我们回顾了以下类别的数据集:聊天机器人对话、短信语料库、IRC/聊天数据、电影对话、推文、评论数据(由对评论的回复形成的对话)、会议记录、书面讨论、电话对话和日常交流数据。不幸的是,它们在某些方面与在即时通讯应用程序中经常书写的对话不同,例如它们太技术化(IRC数据)、太长(评论数据、会议记录)、缺乏上下文(电影对话)或它们更多是口语类型,如加油站助理与购买汽油的客户之间的对话。因此,我们决定通过构建典型地代表即时通讯应用程序风格的对话来创建聊天对话数据集。

源数据

开始数据收集和规范化

在论文中:

我们要求语言学家创建类似于他们日常写作的对话,反映他们实际即时通讯对话中各个主题的比例。其中包括聊天、朋友间闲聊、安排会议、讨论政治、与同事商量大学作业等。因此,该数据集不包含任何敏感数据或其他语料库的片段。

谁是源语言的产生者?

语言学家

注释

标注过程

在论文中:

每个对话都是由一个人创建的。在收集所有对话后,我们请语言专家用摘要对其进行注释,假设摘要应该(1)相对简短,(2)提取重要信息片段,(3)包含对话者的姓名,(4)用第三人称写成。每个对话只包含一个参考摘要。

谁是标注者?

语言专家

个人和敏感信息

无,参见上述:“开始数据收集和规范化”

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

非商业许可:CC BY-NC-ND 4.0

引用信息

@inproceedings{gliwa-etal-2019-samsum,
    title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization",
    author = "Gliwa, Bogdan  and
      Mochol, Iwona  and
      Biesek, Maciej  and
      Wawer, Aleksander",
    booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D19-5409",
    doi = "10.18653/v1/D19-5409",
    pages = "70--79"
}

贡献

感谢 @cccntu 添加此数据集。