数据集:

pec

许可:

gpl-3.0

源数据集:

original

批注创建人:

found

语言创建人:

found

大小:

100K<n<1M

计算机处理:

monolingual

语言:

en
英文

PEC 数据集卡片

数据集摘要

PEC 数据集是从 Reddit 上的两个子论坛 happy 和 offmychest 收集的一个开放领域的英语对话数据集。PEC 包含大约 35 万组以个人为基础的共情对话。 每个话语都与说话人相关联,并且每个说话人都有多个人格句子。 PEC 中的对话比日常对话更具共情性。 happy 领域中的对话大多数是积极的,而 offmychest 领域中的对话大多数是消极的。

支持的任务和排行榜

  • 对话建模,话语检索:此数据集可用于训练生成式或基于检索的对话模型。

语言

英语

数据集结构

数据实例

典型的数据示例包括一个上下文话语列表、一个上下文说话者列表、对上下文的回复、回复的说话者以及回复说话者的人格。

PEC 的一个例子如下:

{'context': ['found out this morning i got a job promotion ! ! !'],
 'context_speakers': ['HeWentToJared91'],
 'personas': [
  "i ca n't stand working in the ugli .",
  'i ’ve always liked my eyes except for the fact that they ca n’t shoot lasers',
  'i feel really bad about myself as a person right now , and i could really use a hand .',
  'i drank a coffee , and it just made me feel even more exhausted .',
  'i want a natsuki t shirt',
  "i 've dealt with depression in the past .",
  'i love red dead 2'],
 'response': "you look like a nice person ! we 're proud of you , and i bet you earned that promotion !",
 'response_speaker': 'tylock'}

数据字段

  • 上下文:字符串列表,每个字符串表示一个上下文话语。
  • 上下文说话者:字符串列表,每个字符串表示一个说话者。
  • 回复:表示对上下文的回复的字符串。
  • 回复说话者:表示回复的说话者的字符串。
  • 人格:字符串列表,每个字符串表示回复说话者的人格句子。

数据拆分

数据被分成每个领域的训练、验证和测试集。请注意,all 领域是 happy 和 offmychest 领域的拼接。

domain train validation test
happy 157195 19829 22730
offmychest 123968 16004 15324
all 281163 35833 38054

数据集创建

策划原理

PEC 的构建旨在为机器提供学习基于个人化的共情回应的实验平台。在我们的实证分析中,我们发现不同的人格具有不同的共情回应风格。该数据集还可以用于研究人类对话中人格和共情之间的关系。根据我们的人工评估,happy 和 offmychest 子论坛上的对话比日常对话更具共情性。

源数据

初始数据收集和规范化

该数据是通过 1 2 3 2 3 2 1 通过 Google BigQuery 获得的。

有哪些源语言生产者?

源语言生产者是 1 2 3 3 3 2 1 和 1 2 3 4 3 2 1 子论坛的用户,时间跨度从 2012 年到 2020 年。数据来源中没有提供进一步的人口统计信息。

注释

注释过程

该数据集不包含任何其他注释。

注释者是谁?

[需要更多信息]

个人和敏感信息

该数据集包括 happy 和 offmychest 子论坛用户的说话者 ID。

使用数据的注意事项

数据集的社会影响

该数据集的目的是帮助开发更加个性化和共情的对话系统,这是实现真正类似人类的对话代理的重要里程碑。

偏见讨论

[需要更多信息]

其他已知限制

数据集中的一小部分存在性别歧视、仇恨和骚扰等问题。人格句子存在噪声。

更多信息

数据集策划者

该数据集最初由中培祥、张宸、王浩、刘勇和苗春燕共同在南洋理工大学和阿里巴巴集团创建。

许可信息

数据集的许可状态取决于 Pushshift.io 数据的法律状态,该状态尚不清楚。

引用信息

@inproceedings{zhong-etal-2020-towards,
    title = "Towards Persona-Based Empathetic Conversational Models",
    author = "Zhong, Peixiang  and
      Zhang, Chen  and
      Wang, Hao  and
      Liu, Yong  and
      Miao, Chunyan",
    booktitle = "Proceedings of the 2020 Conference on Empirical Methods in Natural Language Processing (EMNLP)",
    year = "2020",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.emnlp-main.531",
    pages = "6556--6566"
}

贡献

感谢 @zhongpeixiang 添加了这个数据集。