PEC 数据集是从 Reddit 上的两个子论坛 happy 和 offmychest 收集的一个开放领域的英语对话数据集。PEC 包含大约 35 万组以个人为基础的共情对话。 每个话语都与说话人相关联,并且每个说话人都有多个人格句子。 PEC 中的对话比日常对话更具共情性。 happy 领域中的对话大多数是积极的,而 offmychest 领域中的对话大多数是消极的。
英语
典型的数据示例包括一个上下文话语列表、一个上下文说话者列表、对上下文的回复、回复的说话者以及回复说话者的人格。
PEC 的一个例子如下:
{'context': ['found out this morning i got a job promotion ! ! !'], 'context_speakers': ['HeWentToJared91'], 'personas': [ "i ca n't stand working in the ugli .", 'i ’ve always liked my eyes except for the fact that they ca n’t shoot lasers', 'i feel really bad about myself as a person right now , and i could really use a hand .', 'i drank a coffee , and it just made me feel even more exhausted .', 'i want a natsuki t shirt', "i 've dealt with depression in the past .", 'i love red dead 2'], 'response': "you look like a nice person ! we 're proud of you , and i bet you earned that promotion !", 'response_speaker': 'tylock'}
数据被分成每个领域的训练、验证和测试集。请注意,all 领域是 happy 和 offmychest 领域的拼接。
domain | train | validation | test |
---|---|---|---|
happy | 157195 | 19829 | 22730 |
offmychest | 123968 | 16004 | 15324 |
all | 281163 | 35833 | 38054 |
PEC 的构建旨在为机器提供学习基于个人化的共情回应的实验平台。在我们的实证分析中,我们发现不同的人格具有不同的共情回应风格。该数据集还可以用于研究人类对话中人格和共情之间的关系。根据我们的人工评估,happy 和 offmychest 子论坛上的对话比日常对话更具共情性。
该数据是通过 1 2 3 2 3 2 1 通过 Google BigQuery 获得的。
有哪些源语言生产者?源语言生产者是 1 2 3 3 3 2 1 和 1 2 3 4 3 2 1 子论坛的用户,时间跨度从 2012 年到 2020 年。数据来源中没有提供进一步的人口统计信息。
该数据集不包含任何其他注释。
注释者是谁?[需要更多信息]
该数据集包括 happy 和 offmychest 子论坛用户的说话者 ID。
该数据集的目的是帮助开发更加个性化和共情的对话系统,这是实现真正类似人类的对话代理的重要里程碑。
[需要更多信息]
数据集中的一小部分存在性别歧视、仇恨和骚扰等问题。人格句子存在噪声。
该数据集最初由中培祥、张宸、王浩、刘勇和苗春燕共同在南洋理工大学和阿里巴巴集团创建。
数据集的许可状态取决于 Pushshift.io 数据的法律状态,该状态尚不清楚。
@inproceedings{zhong-etal-2020-towards, title = "Towards Persona-Based Empathetic Conversational Models", author = "Zhong, Peixiang and Zhang, Chen and Wang, Hao and Liu, Yong and Miao, Chunyan", booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)", year = "2020", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.emnlp-main.531", pages = "6556--6566" }
感谢 @zhongpeixiang 添加了这个数据集。