英文

xed_english_finnish 数据集卡片

数据集摘要

这是XED数据集。该数据集由OPUS中的情感标注电影字幕组成。我们使用Plutchik的8种核心情感进行标注。数据是多标签的。原始注释主要来源于英语和芬兰语。对于英语数据,我们使用斯坦福NER(命名实体识别)(Finkel等,2005)将姓名和地点替换为标记:[PERSON]和[LOCATION]。对于芬兰语数据,我们使用Turku NER语料库(Luoma等,2020)替换姓名和地点。

支持的任务和领域

情感分类、多标签分类、多标签分类、意图分类

语言

英语、芬兰语

数据集结构

数据实例

{ "sentence": "A confession that you hired [PERSON] ... and are responsible for my father's murder."
   "labels": [1, 6]  # anger, sadness
}

数据字段

  • 句子:数据集中的一行
  • 标签:对应情感的整数标签

数字表示情感按字母顺序递增:anger:1, anticipation:2, disgust:3, fear:4, joy:5, sadness:6, surprise:7, trust:8,如果适用,则为neutral:0。

数据拆分

对于英语:唯一数据点数量:17528('en_annotated'配置)+ 9675('en_neutral'配置)情感数量:8(+ neutral)

对于芬兰语:唯一数据点数量:14449('fi_annotated'配置)+ 10794('fi_neutral'配置)情感数量:8(+ neutral)

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言制片人是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

许可证:Creative Commons Attribution 4.0 International License(CC-BY)

引用信息

@inproceedings{ohman2020xed, title={XED: A Multilingual Dataset for Sentiment Analysis and Emotion Detection}, author={{"O}hman, Emily and P{`a}mies, Marc and Kajava, Kaisla and Tiedemann, J{"o}rg}, booktitle={The 28th International Conference on Computational Linguistics (COLING 2020)}, year={2020}}

贡献者

感谢 @lhoestq @harshalmittal4 添加此数据集。