数据集:

d0rj/dialogsum-ru

任务:

摘要生成

文生文

文本生成

语言:

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

translated

批注创建人:

expert-generated

源数据集:

knkarthick/dialogsum

其他:

conversations-summarization dialogue-summarization

许可:

mit

数据集介绍文件清单

英文

DIALOGSum 语料库数据卡

数据集描述

链接

主页: https://aclanthology.org/2021.findings-acl.449
仓库: https://github.com/cylnlp/dialogsum
论文: https://aclanthology.org/2021.findings-acl.449

数据集简介

DialogSum 是一个大规模的对话摘要数据集，包括13,460个对话（加上100个保留数据用于主题生成），并附带手动标记的摘要和主题。

语言

俄语（通过 Google 翻译从英语翻译而来）。

数据集结构

数据字段

对话: 对话的文本。
摘要: 人工撰写的对话摘要。
主题: 人工撰写的对话主题/一句简介。
id: 唯一的文件 id。

数据拆分

训练集: 12460
验证集: 500
测试集: 1500
保留集: 100 [仅包含3个特征: id, 对话, 主题]

数据集创建

策划理由

在论文中: 我们从三个公开的对话语料库（Dailydialog (Li et al., 2017), DREAM (Sun et al., 2019) 和 MuTual (Cui et al., 2019)）以及一个英语口语练习网站收集了 DialogSum 的对话数据。这些数据集包含了各种日常生活话题的面对面口语对话，包括学校教育、工作、医疗、购物、休闲和旅行。大多数对话发生在朋友、同事之间，以及服务提供商与客户之间。

与之前的数据集相比，DialogSum 的对话具有以下独特的特点:

在丰富的真实生活场景中，包括更多多样化的任务导向场景；具有清晰的沟通模式和目的，对于作为摘要来源非常有价值；对话长度合理，符合自动摘要的目的。

我们要求标注员根据以下准则对每个对话进行摘要:

传达最重要的信息；简洁明了；保留对话中的重要命名实体；从观察者的角度进行书写；使用正式语言。

源语言制作方是谁？

语言学家

标注员是谁？

语言专家

许可信息

MIT 许可证

引用信息

@inproceedings{chen-etal-2021-dialogsum,
    title = "{D}ialog{S}um: {A} Real-Life Scenario Dialogue Summarization Dataset",
    author = "Chen, Yulong  and
      Liu, Yang  and
      Chen, Liang  and
      Zhang, Yue",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.449",
    doi = "10.18653/v1/2021.findings-acl.449",
    pages = "5062--5074",

贡献

感谢 @cylnlp 添加了该数据集。

作者:

d0rj

数据集大小:

9.68 MB