数据集:
d0rj/dialogsum-ru
语言:
ru计算机处理:
monolingual大小:
10K<n<100K语言创建人:
translated批注创建人:
expert-generated源数据集:
knkarthick/dialogsum许可:
mitDialogSum 是一个大规模的对话摘要数据集,包括13,460个对话(加上100个保留数据用于主题生成),并附带手动标记的摘要和主题。
俄语(通过 Google 翻译从英语翻译而来)。
在论文中: 我们从三个公开的对话语料库(Dailydialog (Li et al., 2017), DREAM (Sun et al., 2019) 和 MuTual (Cui et al., 2019))以及一个英语口语练习网站收集了 DialogSum 的对话数据。这些数据集包含了各种日常生活话题的面对面口语对话,包括学校教育、工作、医疗、购物、休闲和旅行。大多数对话发生在朋友、同事之间,以及服务提供商与客户之间。
与之前的数据集相比,DialogSum 的对话具有以下独特的特点:
在丰富的真实生活场景中,包括更多多样化的任务导向场景;具有清晰的沟通模式和目的,对于作为摘要来源非常有价值;对话长度合理,符合自动摘要的目的。
我们要求标注员根据以下准则对每个对话进行摘要:
传达最重要的信息;简洁明了;保留对话中的重要命名实体;从观察者的角度进行书写;使用正式语言。
语言学家
语言专家
MIT 许可证
@inproceedings{chen-etal-2021-dialogsum, title = "{D}ialog{S}um: {A} Real-Life Scenario Dialogue Summarization Dataset", author = "Chen, Yulong and Liu, Yang and Chen, Liang and Zhang, Yue", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.449", doi = "10.18653/v1/2021.findings-acl.449", pages = "5062--5074",
感谢 @cylnlp 添加了该数据集。