数据集:

sem_eval_2018_task_1

计算机处理:

multilingual

大小:

1K<n<10K

语言创建人:

found

批注创建人:

crowdsourced

源数据集:

original
英文

SemEval-2018任务1:推文中的情感 数据集卡片

数据集概述

任务:我们提供了一系列任务,其中系统需要自动从推文中确定推特用户的情感(E)强度和情感极性(又称为情感V)强度。我们还为推文提供了一个多标签情感分类任务。对于每个任务,我们提供了英语、阿拉伯语和西班牙语推文的独立训练和测试数据集。下面对每个任务进行了描述:

  • EI-reg(情感强度回归任务):给定一个推文和一个情感E,确定最能代表推特用户心理状态的E的强度 - 介于0(最低E)和1(最高E)之间的实值分数。为愤怒、恐惧、喜悦和悲伤提供了单独的数据集。

  • EI-oc(情感强度有序分类任务):给定一个推文和一个情感E,将推文分类到最能代表推特用户心理状态的E强度的四个有序类别之一。为愤怒、恐惧、喜悦和悲伤提供了单独的数据集。

  • V-reg(情感强度回归任务):给定一个推文,确定最能代表推特用户心理状态的情感或情感极性(V)的强度 - 介于0(最消极)和1(最积极)之间的实值分数。

  • V-oc(情感分析有序分类任务):给定一个推文,将其分类到七个有序类别之一,对应于最能代表推特用户心理状态的各种积极和消极情感强度。

  • E-c(情感分类任务):给定一个推文,将其分类为“中性或无情感”或者是最能代表推特用户心理状态的十一种给定情感中的一个或多个。这里,E代表情感,EI代表情感强度,V代表情感极性或情感强度,reg代表回归,oc代表有序分类,c代表分类。

  • 这些任务涵盖了各种情感和情感分析任务。您可以自由参与任意数量的任务和任何数据集。

    目前,仅在Hugging Face数据集中心提供了子任务5(E-c)。

    支持的任务和排行榜

    语言

    英语、阿拉伯语和西班牙语

    数据集结构

    数据实例

    subtask5.english的示例配置如下:

    {'ID': '2017-En-21441',
     'Tweet': "“Worry is a down payment on a problem you may never have'. \xa0Joyce Meyer.  #motivation #leadership #worry",
     'anger': False,
     'anticipation': True,
     'disgust': False,
     'fear': False,
     'joy': False,
     'love': False,
     'optimism': True,
     'pessimism': False,
     'sadness': False,
     'surprise': False,
     'trust': True}
    

    数据字段

    对于任何子任务5的配置:

    • ID:推文的字符串ID
    • Tweet:推文的文本内容
    • anger:布尔型,如果愤怒代表推特用户的心理状态,则为True
    • anticipation:布尔型,如果预期代表推特用户的心理状态,则为True
    • disgust:布尔型,如果厌恶代表推特用户的心理状态,则为True
    • fear:布尔型,如果恐惧代表推特用户的心理状态,则为True
    • joy:布尔型,如果喜悦代表推特用户的心理状态,则为True
    • love:布尔型,如果爱表示推特用户的心理状态,则为True
    • optimism:布尔型,如果乐观表示推特用户的心理状态,则为True
    • pessimism:布尔型,如果悲观表示推特用户的心理状态,则为True
    • sadness:布尔型,如果悲伤代表推特用户的心理状态,则为True
    • surprise:布尔型,如果惊讶代表推特用户的心理状态,则为True
    • trust:布尔型,如果信任代表推特用户的心理状态,则为True

    请注意,测试集没有标签,因此所有标签都设置为False。

    数据拆分

    train validation test
    English 6,838 886 3,259
    Arabic 2,278 585 1,518
    Spanish 3,561 679 2,854

    数据集创建

    策划理由

    源数据

    推文

    初始数据收集和规范化,源语言制作者是谁?

    推特用户。

    注释

    注释过程

    我们逐个向注释者展示推文,并询问哪个选项最能描述推特用户的情感状态:–愤怒(还包括烦恼、愤怒)–预期(还包括兴趣、警觉)–厌恶(还包括不感兴趣、不喜欢、厌恶)–恐惧(还包括忧虑、焦虑、恐怖)–喜悦(还包括平静、狂喜)–爱(还包括喜爱)–乐观(还包括希望、信心)–悲观(还包括愤世嫉俗、不自信)–悲伤(还包括思考、悲伤)–惊讶(还包括分心、惊讶)–信任(还包括接纳、喜欢、钦佩)–中性或无情感事先提供了适当回应的示例推文。在Figure Eight任务设置中,我们指定每个推文需要七个人的注释。然而,由于金标推文的安排方式,它们被多于七个人注释。注释的中位数数量仍然是七个。总共有303人对每个推文进行了10到4,670条注释。共获得了174,356个响应。

    Mohammad,S.,Bravo-Marquez,F.,Salameh,M.,& Kiritchenko,S.(2018)。SemEval-2018任务1:推文中的情感。第12届国际语义评估研讨会论文集,1–17。

    谁是注释者?

    Figure Eight上的众包工作者。

    个人和敏感信息

    使用数据的考虑事项

    数据集的社会影响

    偏见讨论

    其他已知限制

    附加信息

    数据集创建者

    Saif M. Mohammad,Felipe Bravo-Marquez,Mohammad Salameh和Svetlana Kiritchenko

    许可信息

    请参阅官方文档 Terms and Conditions

    引用信息

    @InProceedings{SemEval2018Task1,author = {Mohammad,Saif M. and Bravo-Marquez,Felipe and Salameh,Mohammad and Kiritchenko,Svetlana},title = {SemEval-2018 {T}ask 1:{A}ffect in Tweets},booktitle = {Proceedings of International Workshop on Semantic Evaluation(SemEval-2018)},address = {New Orleans,LA,USA},year = {2018}}

    贡献

    感谢 @maxpel 添加此数据集。