数据集:
xed_en_fi
任务:
文本分类计算机处理:
multilingual语言创建人:
found批注创建人:
expert-generated预印本库:
arxiv:2011.01612许可:
cc-by-4.0这是XED数据集。该数据集由OPUS中的情感标注电影字幕组成。我们使用Plutchik的8种核心情感进行标注。数据是多标签的。原始注释主要来源于英语和芬兰语。对于英语数据,我们使用斯坦福NER(命名实体识别)(Finkel等,2005)将姓名和地点替换为标记:[PERSON]和[LOCATION]。对于芬兰语数据,我们使用Turku NER语料库(Luoma等,2020)替换姓名和地点。
情感分类、多标签分类、多标签分类、意图分类
英语、芬兰语
{ "sentence": "A confession that you hired [PERSON] ... and are responsible for my father's murder." "labels": [1, 6] # anger, sadness }
数字表示情感按字母顺序递增:anger:1, anticipation:2, disgust:3, fear:4, joy:5, sadness:6, surprise:7, trust:8,如果适用,则为neutral:0。
对于英语:唯一数据点数量:17528('en_annotated'配置)+ 9675('en_neutral'配置)情感数量:8(+ neutral)
对于芬兰语:唯一数据点数量:14449('fi_annotated'配置)+ 10794('fi_neutral'配置)情感数量:8(+ neutral)
[需要更多信息]
[需要更多信息]
源语言制片人是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
许可证:Creative Commons Attribution 4.0 International License(CC-BY)
@inproceedings{ohman2020xed, title={XED: A Multilingual Dataset for Sentiment Analysis and Emotion Detection}, author={{"O}hman, Emily and P{`a}mies, Marc and Kajava, Kaisla and Tiedemann, J{"o}rg}, booktitle={The 28th International Conference on Computational Linguistics (COLING 2020)}, year={2020}}
感谢 @lhoestq , @harshalmittal4 添加此数据集。