数据集:

Djacon/ru_goemotions

英文

GoEmotions 数据集卡片

数据集摘要

RuGoEmotions 数据集包含了34k条Reddit评论,并标注了9个情感类别(快乐、兴趣、惊讶、悲伤、愤怒、厌恶、恐惧、内疚和中性)。该数据集已经包含了预定义的训练集/验证集/测试集划分。

支持的任务和排行榜

该数据集用于多类别、多标签情感分类任务。

语言

数据使用俄文。

数据集结构

数据实例

每个实例是一个Reddit评论,并带有一个或多个情感标注(或中性)。

数据字段

数据包含以下配置:

  • text:Reddit评论
  • labels:情感标注

数据划分

简化版数据集包含了一组训练集/验证集/测试集划分,分别包含26.9k、3.29k和3.37k个示例。

数据集创建

策划理由

来自论文摘要:

理解语言中表达的情感具有广泛的应用,从构建共情聊天机器人到检测有害的在线行为。在这个领域取得进展可以借助大规模的数据集,具有细粒度的分类,适应多个下游任务。

数据来源

初始数据收集和标准化

数据是通过论文3.1部分讨论的各种自动化方法从Reddit评论中收集的。

资源语言产生者是谁?

使用英语的Reddit用户。

注释

注释者是谁?

注释由印度的3名使用英语的众包工作者完成。

个人和敏感信息

该数据集包括发布每条评论的Reddit用户的原始用户名。虽然Reddit用户名通常与真实身份无关,但并非总是如此。因此,在某些情况下,可能有可能发现创建此内容的个人的身份。

使用数据的注意事项

数据的社会影响

情感检测是一个有价值的问题,可以潜在地带来改进,比如更好的人机交互。然而,情感检测算法(特别是在计算机视觉领域)在某些情况下被滥用,用于对人类监控和评估应用进行错误推断,比如招聘决策、保险定价和学生注意力(见 this article )。

偏见讨论

从作者的 GitHub 页面上可以看到:

数据中存在的潜在偏见包括:Reddit中固有的偏见和用户基数偏见,用于数据过滤的冒犯/粗俗词汇列表,对冒犯性身份标签的评估中存在的固有或无意识偏见,注释者均为来自印度的以英语为母语的人。所有这些因素很可能影响训练模型的标记、精度和召回率。使用该数据集的人应该注意到这些数据集的限制。

其他已知限制

[需要更多信息]

额外信息

数据集策划

亚马逊 Alexa、谷歌研究和斯坦福大学的研究人员。参见 author list

许可信息

托管此数据集的 GitHub 仓库有一个 Apache License 2.0

引用信息

@inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020}}

贡献

感谢 @joeddav 添加了这个数据集。