数据集:

kd_conv

语言:

zh

计算机处理:

monolingual

大小:

1K<n<10K

语言创建人:

crowdsourced

源数据集:

original

许可:

apache-2.0
英文

KdConv 数据集卡片

数据集摘要

KdConv 是一个中文多领域的知识驱动对话数据集,将多轮对话中的主题与知识图谱联系起来。KdConv 包含来自三个领域(电影、音乐和旅行)的4.5K个对话和86K个话语,平均轮次为19.0。这些对话包含了关于相关主题的深入讨论和自然过渡,在探索迁移学习和领域适应性方面也可以使用该语料库。

支持的任务和排行榜

该数据集可用于涉及多轮对话和知识库构建的对话模型任务。

语言

该数据集仅包含中文。

数据集结构

数据实例

每个数据实例是两个人之间的多轮对话,其中包含对话时使用的注释的知识库数据,例如:

{
  "messages": [
    {
      "message": "对《我喜欢上你时的内心活动》这首歌有了解吗?"
    },
    {
      "attrs": [
        {
          "attrname": "Information",
          "attrvalue": "《我喜欢上你时的内心活动》是由韩寒填词,陈光荣作曲,陈绮贞演唱的歌曲,作为电影《喜欢你》的主题曲于2017年4月10日首发。2018年,该曲先后提名第37届香港电影金像奖最佳原创电影歌曲奖、第7届阿比鹿音乐奖流行单曲奖。",
          "name": "我喜欢上你时的内心活动"
        }
      ],
      "message": "有些了解,是电影《喜欢你》的主题曲。"
    },
    ...
    {
      "attrs": [
        {
          "attrname": "代表作品",
          "attrvalue": "旅行的意义",
          "name": "陈绮贞"
        },
        {
          "attrname": "代表作品",
          "attrvalue": "时间的歌",
          "name": "陈绮贞"
        }
      ],
      "message": "我还知道《旅行的意义》与《时间的歌》,都算是她的代表作。"
    },
    {
      "message": "好,有时间我找出来听听。"
    }
  ],
  "name": "我喜欢上你时的内心活动"
}

对应的知识库条目是一个字典,其中包含知识库三元组的列表(头实体、关系、尾实体),例如:

"忽然之间": [
  [
    "忽然之间",
    "Information",
    "《忽然之间》是歌手 莫文蔚演唱的歌曲,由 周耀辉, 李卓雄填词, 林健华谱曲,收录在莫文蔚1999年发行专辑《 就是莫文蔚》里。"
  ],
  [
    "忽然之间",
    "谱曲",
    "林健华"
  ]
  ...
]

数据字段

对话数据字段:

  • name: 对话的起始主题(实体)
  • domain: 该样本所属的领域。在{travel, film, music}中的一个分类值
  • messages: 对话中所有轮次的列表。对于每一轮次:
    • message: 话语
    • attrs: 话语所涉及的知识图谱三元组列表。对于每个三元组:
      • name: 头实体
      • attrname: 关系
      • attrvalue: 尾实体

知识库数据字段:

  • head_entity: 头实体
  • kb_triplets: 对应的三元组列表
  • domain: 该样本所属的领域。在{travel, film, music}中的一个分类值

数据划分

对话数据集分为训练集、验证集和测试集,大小如下:

train validation test
travel 1200 1200 1200
film 1200 150 150
music 1200 150 150
all 3600 450 450

知识库数据集只有训练集,大小如下:

train
travel 1154
film 8090
music 4441
all 13685

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集创建者

[需要更多信息]

许可信息

Apache 许可证 2.0

引用信息

@inproceedings{zhou-etal-2020-kdconv,
    title = "{K}d{C}onv: A {C}hinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation",
    author = "Zhou, Hao  and
      Zheng, Chujie  and
      Huang, Kaili  and
      Huang, Minlie  and
      Zhu, Xiaoyan",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.635",
    doi = "10.18653/v1/2020.acl-main.635",
    pages = "7098--7108",
}

贡献者

感谢 @pacman100 添加了这个数据集。