数据集:
sem_eval_2018_task_1
任务:
文本分类计算机处理:
multilingual大小:
1K<n<10K语言创建人:
found批注创建人:
crowdsourced源数据集:
original许可:
license:unknown任务:我们提供了一系列任务,其中系统需要自动从推文中确定推特用户的情感(E)强度和情感极性(又称为情感V)强度。我们还为推文提供了一个多标签情感分类任务。对于每个任务,我们提供了英语、阿拉伯语和西班牙语推文的独立训练和测试数据集。下面对每个任务进行了描述:
EI-reg(情感强度回归任务):给定一个推文和一个情感E,确定最能代表推特用户心理状态的E的强度 - 介于0(最低E)和1(最高E)之间的实值分数。为愤怒、恐惧、喜悦和悲伤提供了单独的数据集。
EI-oc(情感强度有序分类任务):给定一个推文和一个情感E,将推文分类到最能代表推特用户心理状态的E强度的四个有序类别之一。为愤怒、恐惧、喜悦和悲伤提供了单独的数据集。
V-reg(情感强度回归任务):给定一个推文,确定最能代表推特用户心理状态的情感或情感极性(V)的强度 - 介于0(最消极)和1(最积极)之间的实值分数。
V-oc(情感分析有序分类任务):给定一个推文,将其分类到七个有序类别之一,对应于最能代表推特用户心理状态的各种积极和消极情感强度。
E-c(情感分类任务):给定一个推文,将其分类为“中性或无情感”或者是最能代表推特用户心理状态的十一种给定情感中的一个或多个。这里,E代表情感,EI代表情感强度,V代表情感极性或情感强度,reg代表回归,oc代表有序分类,c代表分类。
这些任务涵盖了各种情感和情感分析任务。您可以自由参与任意数量的任务和任何数据集。
目前,仅在Hugging Face数据集中心提供了子任务5(E-c)。
英语、阿拉伯语和西班牙语
subtask5.english的示例配置如下:
{'ID': '2017-En-21441', 'Tweet': "“Worry is a down payment on a problem you may never have'. \xa0Joyce Meyer. #motivation #leadership #worry", 'anger': False, 'anticipation': True, 'disgust': False, 'fear': False, 'joy': False, 'love': False, 'optimism': True, 'pessimism': False, 'sadness': False, 'surprise': False, 'trust': True}
对于任何子任务5的配置:
请注意,测试集没有标签,因此所有标签都设置为False。
train | validation | test | |
---|---|---|---|
English | 6,838 | 886 | 3,259 |
Arabic | 2,278 | 585 | 1,518 |
Spanish | 3,561 | 679 | 2,854 |
推文
初始数据收集和规范化,源语言制作者是谁?推特用户。
我们逐个向注释者展示推文,并询问哪个选项最能描述推特用户的情感状态:–愤怒(还包括烦恼、愤怒)–预期(还包括兴趣、警觉)–厌恶(还包括不感兴趣、不喜欢、厌恶)–恐惧(还包括忧虑、焦虑、恐怖)–喜悦(还包括平静、狂喜)–爱(还包括喜爱)–乐观(还包括希望、信心)–悲观(还包括愤世嫉俗、不自信)–悲伤(还包括思考、悲伤)–惊讶(还包括分心、惊讶)–信任(还包括接纳、喜欢、钦佩)–中性或无情感事先提供了适当回应的示例推文。在Figure Eight任务设置中,我们指定每个推文需要七个人的注释。然而,由于金标推文的安排方式,它们被多于七个人注释。注释的中位数数量仍然是七个。总共有303人对每个推文进行了10到4,670条注释。共获得了174,356个响应。
Mohammad,S.,Bravo-Marquez,F.,Salameh,M.,& Kiritchenko,S.(2018)。SemEval-2018任务1:推文中的情感。第12届国际语义评估研讨会论文集,1–17。
谁是注释者?Figure Eight上的众包工作者。
Saif M. Mohammad,Felipe Bravo-Marquez,Mohammad Salameh和Svetlana Kiritchenko
请参阅官方文档 Terms and Conditions
@InProceedings{SemEval2018Task1,author = {Mohammad,Saif M. and Bravo-Marquez,Felipe and Salameh,Mohammad and Kiritchenko,Svetlana},title = {SemEval-2018 {T}ask 1:{A}ffect in Tweets},booktitle = {Proceedings of International Workshop on Semantic Evaluation(SemEval-2018)},address = {New Orleans,LA,USA},year = {2018}}
感谢 @maxpel 添加此数据集。