数据集:

go_emotions

英文

GoEmotions 数据集卡片

数据集简介

GoEmotions 数据集包含58k个经过精心筛选的 Reddit 评论,标记了27种情感类别和“中性”类别。原始数据和较小的简化版数据集(包含预定义的训练/验证/测试集划分)都已包含在内。

支持的任务和排名

该数据集用于多类别、多标签情感分类任务。

语言

数据以英语为主。

数据集结构

数据实例

每个实例是一条 Reddit 评论,附带一个相应的ID和一个或多个情感标注(或中性)。

数据字段

简化配置包括:

  • text: Reddit 评论
  • labels: 情感标注
  • comment_id: 评论的唯一标识符(可用于在原始数据集中查找条目)

除上述字段外,原始数据还包括:

  • author: 评论作者的 Reddit 用户名
  • subreddit: 评论所属的子论坛
  • link_id: 评论的链接 ID
  • parent_id: 评论的父级 ID
  • created_utc: 评论的时间戳
  • rater_id: 注释者的唯一 ID
  • example_very_unclear: 注释者是否将示例标记为非常不清楚或难以标注的(在这种情况下,他们没有选择任何情感标签)

在原始数据中,标签以自己的列形式列出,而不是像简化数据中的标签 ID 列表。

数据集拆分

简化数据包括一组训练/验证/测试划分,分别包含43,410、5,426和5,427个示例。

数据集创建

选择理由

从论文摘要中可得:

理解语言中表达的情感具有广泛的应用,从构建富有同理心的聊天机器人到检测有害的在线行为。通过使用大规模数据集,细粒度的情感分类学可以得到提高,并适用于多个下游任务。

数据来源

初始数据收集和归一化

数据通过论文3.1节中讨论的各种自动化方法从 Reddit 评论中收集而来。

谁是源语言的产生者?

说英语的 Reddit 用户。

注释

注释过程

更多信息待确认。

谁是注释者?

注释是由印度的3名说英语的众包工作者完成的。

个人和敏感信息

该数据集包括发布每个评论的 Reddit 用户的原始用户名。尽管 Reddit 用户名通常与个人现实身份无关,但并非总是如此。因此,在某些情况下,有可能发现创建此内容的个人身份。

使用数据的注意事项

数据的社会影响

情感检测是一个值得关注的问题,可以潜在地带来一些改进,如更好的人机交互。然而,情感检测算法(特别是在计算机视觉领域)有时被滥用于对人类监控和评估应用中作出错误推断,如招聘决策、保险定价和学生专注度(参见 this article )。

偏见讨论

从作者的 GitHub 页面可得:

数据中的潜在偏见包括:Reddit 和用户群体的固有偏见、用于数据过滤的冒犯性/粗俗词汇表、评估冒犯身份标签时的固有或无意识偏见,注释者均为印度的以英语为母语的人。所有这些因素都可能影响训练模型的标注、精确度和召回。使用此数据集的任何人都应该了解数据集的这些限制。

其他已知限制

更多信息待确认。

其他信息

数据集维护者

亚马逊 Alexa、谷歌研究和斯坦福大学的研究人员。详情请参阅 author list

许可信息

托管此数据集的 GitHub 存储库链接: Apache License 2.0

引用信息

@inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020}}

贡献者

感谢 @joeddav 添加此数据集。