数据集:
Djacon/ru_goemotions
RuGoEmotions 数据集包含了34k条Reddit评论,并标注了9个情感类别(快乐、兴趣、惊讶、悲伤、愤怒、厌恶、恐惧、内疚和中性)。该数据集已经包含了预定义的训练集/验证集/测试集划分。
该数据集用于多类别、多标签情感分类任务。
数据使用俄文。
每个实例是一个Reddit评论,并带有一个或多个情感标注(或中性)。
数据包含以下配置:
简化版数据集包含了一组训练集/验证集/测试集划分,分别包含26.9k、3.29k和3.37k个示例。
来自论文摘要:
理解语言中表达的情感具有广泛的应用,从构建共情聊天机器人到检测有害的在线行为。在这个领域取得进展可以借助大规模的数据集,具有细粒度的分类,适应多个下游任务。
数据是通过论文3.1部分讨论的各种自动化方法从Reddit评论中收集的。
资源语言产生者是谁?使用英语的Reddit用户。
注释由印度的3名使用英语的众包工作者完成。
该数据集包括发布每条评论的Reddit用户的原始用户名。虽然Reddit用户名通常与真实身份无关,但并非总是如此。因此,在某些情况下,可能有可能发现创建此内容的个人的身份。
情感检测是一个有价值的问题,可以潜在地带来改进,比如更好的人机交互。然而,情感检测算法(特别是在计算机视觉领域)在某些情况下被滥用,用于对人类监控和评估应用进行错误推断,比如招聘决策、保险定价和学生注意力(见 this article )。
从作者的 GitHub 页面上可以看到:
数据中存在的潜在偏见包括:Reddit中固有的偏见和用户基数偏见,用于数据过滤的冒犯/粗俗词汇列表,对冒犯性身份标签的评估中存在的固有或无意识偏见,注释者均为来自印度的以英语为母语的人。所有这些因素很可能影响训练模型的标记、精度和召回率。使用该数据集的人应该注意到这些数据集的限制。
[需要更多信息]
亚马逊 Alexa、谷歌研究和斯坦福大学的研究人员。参见 author list 。
托管此数据集的 GitHub 仓库有一个 Apache License 2.0 。
@inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020}}
感谢 @joeddav 添加了这个数据集。