数据集:

knkarthick/samsum

其他:

conversations-summarization

许可:

cc-by-nc-nd-4.0

预印本库:

arxiv:1911.12237

源数据集:

original

批注创建人:

expert-generated

语言创建人:

expert-generated

大小:

10K<n<100K

计算机处理:

monolingual

语言:

任务:

摘要生成

数据集介绍文件清单

英文

SAMSum语料库数据卡

数据集描述

链接

主页: h https://arxiv.org/abs/1911.12237v2
代码库: https://arxiv.org/abs/1911.12237v2
论文: https://arxiv.org/abs/1911.12237v2
联系人: https://huggingface.co/knkarthick

数据集摘要

SAMSum数据集包含大约16k个带有摘要的对话。对话是由精通英语的语言学家创建和书写的。要求语言学家创建类似于他们日常书写的对话，反映出他们真实生活中对话主题的比例。风格和表达方式是多样化的-对话可以是非正式的、半正式的或正式的，可能包含俚语、表情符号和打字错误。然后，对对话进行了摘要注释。假设摘要应该是对第三人称中人们在对话中讨论的内容的简洁概述。SAMSum数据集由三星波兰研发中心准备，并以研究目的分发（非商业许可证：CC BY-NC-ND 4.0）。

语言

英语

数据集结构

数据实例

SAMSum数据集由16369个对话组成，根据对话中话语的数量均匀分为4组：3-6、7-12、13-18和19-30。每个话语都包含讲话者的姓名。大多数对话由两个对话者之间的对话组成（约占所有对话的75%），其余的是三个或更多人之间的对话。训练集中的第一个实例：{'id': '13818513', 'summary': 'Amanda baked cookies and will bring Jerry some tomorrow.', 'dialogue': "Amanda: I baked cookies. Do you want some?\r\nJerry: Sure!\r\nAmanda: I'll bring you tomorrow :-)"}

数据字段

对话: 对话的文本。
摘要: 对话的人工书写摘要。
id: 唯一的文件id。

数据拆分

训练集: 14732
验证集: 818
测试集: 819

数据集创建

策划理由

在论文中:首先，我们审查了以下类别的数据集:聊天机器人对话、短信语料库、IRC/聊天数据、电影对话、推特、评论数据（由对评论的回复形成的对话）、会议记录、书面讨论、电话对话和日常通信数据。不幸的是，它们在某些方面与通常在即时通讯应用中书写的对话有所不同，例如它们过于技术化（IRC数据）、过长（评论数据、会议记录）、缺乏上下文（电影对话）或者更多地是口语类型，如加油站助理和购买汽油的客户之间的对话。因此，我们决定通过构建这样的对话来创建一个聊天对话数据集，这些对话将代表即时通讯应用的风格。

源语言制作者是谁？

语言学家

注释者是谁？

语言专家

注释过程

在论文中:每个对话都是由一个人创建的。在收集到所有对话后，我们请语言专家对其进行摘要注释，假设摘要应该（1）相对较短，（2）提取重要信息，（3）包含对话者姓名，（4）用第三人称书写。每个对话只包含一个参考摘要。

许可信息

非商业许可证：CC BY-NC-ND 4.0

引用信息

@inproceedings{gliwa-etal-2019-samsum,
    title = "{SAMS}um Corpus: A Human-annotated Dialogue Dataset for Abstractive Summarization",
    author = "Gliwa, Bogdan  and
      Mochol, Iwona  and
      Biesek, Maciej  and
      Wawer, Aleksander",
    booktitle = "Proceedings of the 2nd Workshop on New Frontiers in Summarization",
    month = nov,
    year = "2019",
    address = "Hong Kong, China",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/D19-5409",
    doi = "10.18653/v1/D19-5409",
    pages = "70--79"
}

贡献

作者:

knkarthick

数据集大小:

9.81 MB