数据集:

silver/personal_dialog

任务:

对话

子任务:

dialogue-generation

语言:

计算机处理:

monolingual

大小:

10M<n<100M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:1901.09672

许可:

other

数据集介绍文件清单

英文

个人对话数据集卡片

数据集摘要

个人对话数据集是一个大规模的多轮中文对话数据集，涵盖了大量说话者的各种特征。我们发布了约500万个经过精心筛选的对话。PersonalDialog中的每个话语都与具有性别、地点、兴趣标签等特征的发言者相关联。

支持的任务和榜单

对话生成：可以使用数据集训练模型生成对话响应。
响应检索：可以使用数据集训练重新排序模型，实现基于检索的对话模型。

语言

PersonalDialog数据集为中文。

PersonalDialog中的对话是中文的。

数据集结构

数据示例

train集：

{
  "dialog": ["那么 晚", "加班 了 刚 到 家 呀 ！", "吃饭 了 么", "吃 过 了 ！"], 
  "profile": [
    { 
      "tag": ["间歇性神经病", "爱笑的疯子", "他们说我犀利", "爱做梦", "自由", "旅游", "学生", "双子座", "好性格"], 
      "loc": "福建 厦门", "gender": "male"
    }, {
      "tag": ["设计师", "健康养生", "热爱生活", "善良", "宅", "音樂", "时尚"], 
      "loc": "山东 济南", "gender": "male"
      }
  ], 
  "uid": [0, 1, 0, 1],
}

dev和test集：

{
  "dialog": ["没 人性 啊 ！", "可以 来 组织 啊", "来 上海 陪姐 打 ？"], 
  "profile": [
    {"tag": [""], "loc": "上海 浦东新区", "gender": "female"}, 
    {"tag": ["嘉庚", "keele", "leicester", "UK", "泉州五中"], "loc": "福建 泉州", "gender": "male"},
  ], 
  "uid": [0, 1, 0],
  "responder_profile": {"tag": ["嘉庚", "keele", "leicester", "UK", "泉州五中"], "loc": "福建 泉州", "gender": "male"}, 
  "golden_response": "吴经理 派车来 小 泉州 接 么 ？", 
  "is_biased": true,
}

数据字段

dialog（字符串列表）：由对话组成的话语列表。
profile（字典列表）：与每个发言者关联的个人资料列表。
tag（字符串列表）：与每个发言者关联的标签列表。
loc（字符串）：每个发言者的地点。
gender（字符串）：每个发言者的性别。
uid（整数列表）：对话中每个话语的发言者id。
responder_profile（字典）：回答者的个人资料（仅在dev和test集中可用）。
golden_response（字符串）：回答者的回复（仅在dev和test集中可用）。
id_biased（布尔值）：对话是否确保与个人相关（仅在dev和test集中可用）。

数据拆分

train	valid	test
5,438,165	10,521	10,523

数据集创建

策划原因

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者？

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

other-weibo

该数据集是从微博收集的。使用该数据集请参考所需的 detailed policy 。请将此数据集的使用限制在非商业用途上。

引用信息

@article{zheng2019personalized,
  title   = {Personalized dialogue generation with diversified traits},
  author  = {Zheng, Yinhe and Chen, Guanyi and Huang, Minlie and Liu, Song and Zhu, Xuan},
  journal = {arXiv preprint arXiv:1901.09672},
  year    = {2019}
}

@inproceedings{zheng2020pre,
  title     = {A pre-training based personalized dialogue generation model with persona-sparse data},
  author    = {Zheng, Yinhe and Zhang, Rongsheng and Huang, Minlie and Mao, Xiaoxi},
  booktitle = {Proceedings of the AAAI Conference on Artificial Intelligence},
  volume    = {34},
  number    = {05},
  pages     = {9693--9700},
  year      = {2020}
}

贡献者

感谢 Yinhe Zheng 添加了这个数据集。

作者:

silver

数据集大小:

535.96 MB