数据集:

xed_en_fi

任务:

文本分类

子任务:

intent-classification multi-class-classification multi-label-classification

语言:

计算机处理:

multilingual

大小:

10K<n<100K 1K<n<10K

语言创建人:

found

批注创建人:

expert-generated

源数据集:

extended|other-OpenSubtitles2016

预印本库:

arxiv:2011.01612

许可:

cc-by-4.0

数据集介绍文件清单

英文

xed_english_finnish 数据集卡片

数据集摘要

这是XED数据集。该数据集由OPUS中的情感标注电影字幕组成。我们使用Plutchik的8种核心情感进行标注。数据是多标签的。原始注释主要来源于英语和芬兰语。对于英语数据，我们使用斯坦福NER（命名实体识别）（Finkel等，2005）将姓名和地点替换为标记：[PERSON]和[LOCATION]。对于芬兰语数据，我们使用Turku NER语料库（Luoma等，2020）替换姓名和地点。

支持的任务和领域

情感分类、多标签分类、多标签分类、意图分类

语言

英语、芬兰语

数据集结构

数据实例

{ "sentence": "A confession that you hired [PERSON] ... and are responsible for my father's murder."
   "labels": [1, 6]  # anger, sadness
}

数据字段

句子：数据集中的一行
标签：对应情感的整数标签

数字表示情感按字母顺序递增：anger:1, anticipation:2, disgust:3, fear:4, joy:5, sadness:6, surprise:7, trust:8，如果适用，则为neutral:0。

数据拆分

对于英语：唯一数据点数量：17528（'en_annotated'配置）+ 9675（'en_neutral'配置）情感数量：8（+ neutral）

对于芬兰语：唯一数据点数量：14449（'fi_annotated'配置）+ 10794（'fi_neutral'配置）情感数量：8（+ neutral）

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言制片人是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

许可证：Creative Commons Attribution 4.0 International License（CC-BY）

引用信息

@inproceedings{ohman2020xed, title={XED: A Multilingual Dataset for Sentiment Analysis and Emotion Detection}, author={{"O}hman, Emily and P{`a}mies, Marc and Kajava, Kaisla and Tiedemann, J{"o}rg}, booktitle={The 28th International Conference on Computational Linguistics (COLING 2020)}, year={2020}}

贡献者

感谢 @lhoestq ， @harshalmittal4 添加此数据集。

作者:

佚名

数据集大小:

23.01 KB