数据集:

d0rj/dialogsum-ru

英文

DIALOGSum 语料库数据卡

数据集描述

链接

数据集简介

DialogSum 是一个大规模的对话摘要数据集,包括13,460个对话(加上100个保留数据用于主题生成),并附带手动标记的摘要和主题。

语言

俄语(通过 Google 翻译从英语翻译而来)。

数据集结构

数据字段

  • 对话: 对话的文本。
  • 摘要: 人工撰写的对话摘要。
  • 主题: 人工撰写的对话主题/一句简介。
  • id: 唯一的文件 id。

数据拆分

  • 训练集: 12460
  • 验证集: 500
  • 测试集: 1500
  • 保留集: 100 [仅包含3个特征: id, 对话, 主题]

数据集创建

策划理由

在论文中: 我们从三个公开的对话语料库(Dailydialog (Li et al., 2017), DREAM (Sun et al., 2019) 和 MuTual (Cui et al., 2019))以及一个英语口语练习网站收集了 DialogSum 的对话数据。这些数据集包含了各种日常生活话题的面对面口语对话,包括学校教育、工作、医疗、购物、休闲和旅行。大多数对话发生在朋友、同事之间,以及服务提供商与客户之间。

与之前的数据集相比,DialogSum 的对话具有以下独特的特点:

在丰富的真实生活场景中,包括更多多样化的任务导向场景;具有清晰的沟通模式和目的,对于作为摘要来源非常有价值;对话长度合理,符合自动摘要的目的。

我们要求标注员根据以下准则对每个对话进行摘要:

传达最重要的信息;简洁明了;保留对话中的重要命名实体;从观察者的角度进行书写;使用正式语言。

源语言制作方是谁?

语言学家

标注员是谁?

语言专家

许可信息

MIT 许可证

引用信息

@inproceedings{chen-etal-2021-dialogsum,
    title = "{D}ialog{S}um: {A} Real-Life Scenario Dialogue Summarization Dataset",
    author = "Chen, Yulong  and
      Liu, Yang  and
      Chen, Liang  and
      Zhang, Yue",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.449",
    doi = "10.18653/v1/2021.findings-acl.449",
    pages = "5062--5074",

贡献

感谢 @cylnlp 添加了该数据集。