数据集:

knkarthick/highlightsum

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

expert-generated

批注创建人:

expert-generated

源数据集:

original

许可:

mit
英文

HighlightSum语料库数据集卡 [单个数据集,包含AMI、SamSUM和DialogSUM用于文本的简要摘要]

数据集描述

链接

数据集摘要

HighlightSum是来自AMI、SamSUM和DialogSUM的大规模对话摘要数据集,包含31,108个对话和相应的手动标记摘要。

语言

英语

数据集结构

数据实例

HighlightSum是一个大规模对话摘要数据集,包含31,108个对话,分为训练集、测试集和验证集。

训练集中的第一个实例:{'id': 'train_0', 'summary': "Smith先生正在接受检查,Hawkins医生建议他每年检查一次。Hawkins将提供一些关于课程和药物的信息,帮助Smith先生戒烟。", 'dialogue': "#Person1#: 嗨,Smith先生。我是Hawkins医生。您今天为什么来这里?\n#Person2#: 我觉得进行一次检查是个好主意。\n#Person1#: 是的,您已经有5年没有进行检查了。您应该每年都要检查一次。\n#Person2#: 我知道。我想只要没有问题,为什么去看医生呢?\n#Person1#: 嗯,避免严重疾病的最好方法就是早发现。所以为了自己的健康,尽量每年至少来一次。\n#Person2#: 好的。\n#Person1#: 让我看看。您的眼睛和耳朵看起来都很好。请深吸一口气。Smith先生,您抽烟吗?\n#Person2#: 是的。\n#Person1#: 您知道,吸烟是肺癌和心脏病的主要原因。您真的应该戒烟。\n#Person2#: 我已经尝试了很多次,但是我似乎无法戒掉这个习惯。\n#Person1#: 嗯,我们有一些课程和一些药物可能会有所帮助。在您离开之前,我会给您更多的信息。\n#Person2#: 好的,谢谢医生。"}

数据字段

  • 对话:对话的文本。
  • 摘要:人工编写的对话摘要。
  • id:示例的唯一文件id。

数据拆分

  • 训练集:27401
  • 验证集:1360
  • 测试集:2347

数据集创建

策展理由

收集自AMI、SamSUM和DialogSUM数据集。

源语言制作者是谁?

语言学家

标注者是谁?

语言专家

许可信息

非商业许可:MIT

引用信息

有关鸣谢和引用,请参阅上述链接。