数据集:
kd_conv
子任务:
dialogue-modeling语言:
zh计算机处理:
monolingual大小:
1K<n<10K语言创建人:
crowdsourced源数据集:
original许可:
apache-2.0KdConv 是一个中文多领域的知识驱动对话数据集,将多轮对话中的主题与知识图谱联系起来。KdConv 包含来自三个领域(电影、音乐和旅行)的4.5K个对话和86K个话语,平均轮次为19.0。这些对话包含了关于相关主题的深入讨论和自然过渡,在探索迁移学习和领域适应性方面也可以使用该语料库。
该数据集可用于涉及多轮对话和知识库构建的对话模型任务。
该数据集仅包含中文。
每个数据实例是两个人之间的多轮对话,其中包含对话时使用的注释的知识库数据,例如:
{ "messages": [ { "message": "对《我喜欢上你时的内心活动》这首歌有了解吗?" }, { "attrs": [ { "attrname": "Information", "attrvalue": "《我喜欢上你时的内心活动》是由韩寒填词,陈光荣作曲,陈绮贞演唱的歌曲,作为电影《喜欢你》的主题曲于2017年4月10日首发。2018年,该曲先后提名第37届香港电影金像奖最佳原创电影歌曲奖、第7届阿比鹿音乐奖流行单曲奖。", "name": "我喜欢上你时的内心活动" } ], "message": "有些了解,是电影《喜欢你》的主题曲。" }, ... { "attrs": [ { "attrname": "代表作品", "attrvalue": "旅行的意义", "name": "陈绮贞" }, { "attrname": "代表作品", "attrvalue": "时间的歌", "name": "陈绮贞" } ], "message": "我还知道《旅行的意义》与《时间的歌》,都算是她的代表作。" }, { "message": "好,有时间我找出来听听。" } ], "name": "我喜欢上你时的内心活动" }
对应的知识库条目是一个字典,其中包含知识库三元组的列表(头实体、关系、尾实体),例如:
"忽然之间": [ [ "忽然之间", "Information", "《忽然之间》是歌手 莫文蔚演唱的歌曲,由 周耀辉, 李卓雄填词, 林健华谱曲,收录在莫文蔚1999年发行专辑《 就是莫文蔚》里。" ], [ "忽然之间", "谱曲", "林健华" ] ... ]
对话数据字段:
知识库数据字段:
对话数据集分为训练集、验证集和测试集,大小如下:
train | validation | test | |
---|---|---|---|
travel | 1200 | 1200 | 1200 |
film | 1200 | 150 | 150 |
music | 1200 | 150 | 150 |
all | 3600 | 450 | 450 |
知识库数据集只有训练集,大小如下:
train | |
---|---|
travel | 1154 |
film | 8090 |
music | 4441 |
all | 13685 |
[需要更多信息]
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是注释者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
Apache 许可证 2.0
@inproceedings{zhou-etal-2020-kdconv, title = "{K}d{C}onv: A {C}hinese Multi-domain Dialogue Dataset Towards Multi-turn Knowledge-driven Conversation", author = "Zhou, Hao and Zheng, Chujie and Huang, Kaili and Huang, Minlie and Zhu, Xiaoyan", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.635", doi = "10.18653/v1/2020.acl-main.635", pages = "7098--7108", }
感谢 @pacman100 添加了这个数据集。