数据集:
daily_dialog
任务:
文本分类语言:
en计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
expert-generated源数据集:
original许可:
cc-by-nc-sa-4.0我们开发了一个高质量的多轮对话数据集,DailyDialog,它在几个方面非常引人入胜。该数据集的语言是人工编写的,噪音较小。数据集中的对话反映了我们日常的交流方式,并涵盖了关于日常生活的各种主题。我们还手动为开发的数据集添加了交流意图和情感信息。然后,我们评估了在DailyDialog数据集上的现有方法,并希望它对对话系统研究领域有所裨益。
“验证”示例如下所示。
This example was too long and was cropped: { "act": [2, 1, 1, 1, 1, 2, 3, 2, 3, 4], "dialog": "[\"Good afternoon . This is Michelle Li speaking , calling on behalf of IBA . Is Mr Meng available at all ? \", \" This is Mr Meng ...", "emotion": [0, 0, 0, 0, 0, 0, 0, 0, 0, 0] }
所有拆分的数据字段相同。
默认name | train | validation | test |
---|---|---|---|
default | 11118 | 1000 | 1000 |
仅供研究目的提供数据集。有关详细信息,请查看数据集许可证。
DailyDialog数据集的许可证为 CC BY-NC-SA 4.0 。
@InProceedings{li2017dailydialog, author = {Li, Yanran and Su, Hui and Shen, Xiaoyu and Li, Wenjie and Cao, Ziqiang and Niu, Shuzi}, title = {DailyDialog: A Manually Labelled Multi-turn Dialogue Dataset}, booktitle = {Proceedings of The 8th International Joint Conference on Natural Language Processing (IJCNLP 2017)}, year = {2017} }