数据集:

Djacon/ru_goemotions

任务:

文本分类

子任务:

multi-class-classification multi-label-classification

语言:

计算机处理:

monolingual

预印本库:

arxiv:2005.00547

其他:

emotion

许可:

mit

数据集介绍文件清单

英文

GoEmotions 数据集卡片

数据集摘要

RuGoEmotions 数据集包含了34k条Reddit评论，并标注了9个情感类别（快乐、兴趣、惊讶、悲伤、愤怒、厌恶、恐惧、内疚和中性）。该数据集已经包含了预定义的训练集/验证集/测试集划分。

支持的任务和排行榜

该数据集用于多类别、多标签情感分类任务。

语言

数据使用俄文。

数据集结构

数据实例

每个实例是一个Reddit评论，并带有一个或多个情感标注（或中性）。

数据字段

数据包含以下配置:

text：Reddit评论
labels：情感标注

数据划分

简化版数据集包含了一组训练集/验证集/测试集划分，分别包含26.9k、3.29k和3.37k个示例。

数据集创建

策划理由

来自论文摘要：

理解语言中表达的情感具有广泛的应用，从构建共情聊天机器人到检测有害的在线行为。在这个领域取得进展可以借助大规模的数据集，具有细粒度的分类，适应多个下游任务。

数据来源

初始数据收集和标准化

数据是通过论文3.1部分讨论的各种自动化方法从Reddit评论中收集的。

资源语言产生者是谁？

使用英语的Reddit用户。

注释

注释者是谁？

注释由印度的3名使用英语的众包工作者完成。

个人和敏感信息

该数据集包括发布每条评论的Reddit用户的原始用户名。虽然Reddit用户名通常与真实身份无关，但并非总是如此。因此，在某些情况下，可能有可能发现创建此内容的个人的身份。

使用数据的注意事项

数据的社会影响

情感检测是一个有价值的问题，可以潜在地带来改进，比如更好的人机交互。然而，情感检测算法（特别是在计算机视觉领域）在某些情况下被滥用，用于对人类监控和评估应用进行错误推断，比如招聘决策、保险定价和学生注意力（见 this article ）。

偏见讨论

从作者的 GitHub 页面上可以看到：

数据中存在的潜在偏见包括：Reddit中固有的偏见和用户基数偏见，用于数据过滤的冒犯/粗俗词汇列表，对冒犯性身份标签的评估中存在的固有或无意识偏见，注释者均为来自印度的以英语为母语的人。所有这些因素很可能影响训练模型的标记、精度和召回率。使用该数据集的人应该注意到这些数据集的限制。

其他已知限制

[需要更多信息]

额外信息

数据集策划

亚马逊 Alexa、谷歌研究和斯坦福大学的研究人员。参见 author list 。

许可信息

托管此数据集的 GitHub 仓库有一个 Apache License 2.0 。

引用信息

@inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020}}

贡献

感谢 @joeddav 添加了这个数据集。

作者:

Djacon

数据集大小:

4.37 MB