数据集:
go_emotions
任务:
文本分类语言:
en计算机处理:
monolingual语言创建人:
found批注创建人:
crowdsourced源数据集:
original预印本库:
arxiv:2005.00547其他:
emotion许可:
apache-2.0GoEmotions 数据集包含58k个经过精心筛选的 Reddit 评论,标记了27种情感类别和“中性”类别。原始数据和较小的简化版数据集(包含预定义的训练/验证/测试集划分)都已包含在内。
该数据集用于多类别、多标签情感分类任务。
数据以英语为主。
每个实例是一条 Reddit 评论,附带一个相应的ID和一个或多个情感标注(或中性)。
简化配置包括:
除上述字段外,原始数据还包括:
在原始数据中,标签以自己的列形式列出,而不是像简化数据中的标签 ID 列表。
简化数据包括一组训练/验证/测试划分,分别包含43,410、5,426和5,427个示例。
从论文摘要中可得:
理解语言中表达的情感具有广泛的应用,从构建富有同理心的聊天机器人到检测有害的在线行为。通过使用大规模数据集,细粒度的情感分类学可以得到提高,并适用于多个下游任务。
数据通过论文3.1节中讨论的各种自动化方法从 Reddit 评论中收集而来。
谁是源语言的产生者?说英语的 Reddit 用户。
更多信息待确认。
谁是注释者?注释是由印度的3名说英语的众包工作者完成的。
该数据集包括发布每个评论的 Reddit 用户的原始用户名。尽管 Reddit 用户名通常与个人现实身份无关,但并非总是如此。因此,在某些情况下,有可能发现创建此内容的个人身份。
情感检测是一个值得关注的问题,可以潜在地带来一些改进,如更好的人机交互。然而,情感检测算法(特别是在计算机视觉领域)有时被滥用于对人类监控和评估应用中作出错误推断,如招聘决策、保险定价和学生专注度(参见 this article )。
从作者的 GitHub 页面可得:
数据中的潜在偏见包括:Reddit 和用户群体的固有偏见、用于数据过滤的冒犯性/粗俗词汇表、评估冒犯身份标签时的固有或无意识偏见,注释者均为印度的以英语为母语的人。所有这些因素都可能影响训练模型的标注、精确度和召回。使用此数据集的任何人都应该了解数据集的这些限制。
更多信息待确认。
亚马逊 Alexa、谷歌研究和斯坦福大学的研究人员。详情请参阅 author list 。
托管此数据集的 GitHub 存储库链接: Apache License 2.0 。
@inproceedings{demszky2020goemotions, author = {Demszky, Dorottya and Movshovitz-Attias, Dana and Ko, Jeongwoo and Cowen, Alan and Nemade, Gaurav and Ravi, Sujith}, booktitle = {58th Annual Meeting of the Association for Computational Linguistics (ACL)}, title = {{GoEmotions: A Dataset of Fine-Grained Emotions}}, year = {2020}}
感谢 @joeddav 添加此数据集。