数据集:

cedr

英文

[CEDR] 数据集卡片

数据集概要

Corpus for Emotions Detecting in Russian-language text sentences of different social sources (CEDR) 数据集包含9410个来自不同社交来源的评论,标记有5种情绪类别(喜悦、悲伤、惊讶、恐惧和愤怒)。

以下是两个数据集配置:

  • "main" - 包含 "text", "labels" 和 "source" 特征;
  • "enriched" - 包括所有 "main" 特征和 "sentences".

数据集带有预定义的训练/测试划分。

支持的任务和排行榜

此数据集用于多标签情绪分类。

语言

数据为俄语。

数据集结构

数据实例

每个实例是一句俄语文本句子,来自多个来源,带有一个或多个情绪标注(或没有情绪标注)。

下面是数据集中的一个示例:

{
  'text': 'Забавно как люди в возрасте удивляются входящим звонкам на мобильник)',
  'labels': [0],
  'source': 'twitter',
  'sentences': [
    [
      {'forma': 'Забавно', 'lemma': 'Забавно'},
      {'forma': 'как', 'lemma': 'как'},
      {'forma': 'люди', 'lemma': 'человек'},
      {'forma': 'в', 'lemma': 'в'},
      {'forma': 'возрасте', 'lemma': 'возраст'},
      {'forma': 'удивляются', 'lemma': 'удивляться'},
      {'forma': 'входящим', 'lemma': 'входить'},
      {'forma': 'звонкам', 'lemma': 'звонок'},
      {'forma': 'на', 'lemma': 'на'},
      {'forma': 'мобильник', 'lemma': 'мобильник'},
      {'forma': ')', 'lemma': ')'}
    ]
  ]
}

情绪标签代码: {0: "喜悦", 1: "悲伤", 2: "惊讶", 3: "恐惧", 4: "愤怒"}

数据字段

主要配置包括:

  • text: 句子的文本;
  • labels: 情绪标注;
  • source: 对应来源的标签名

除以上内容外,原始数据还包括:

  • sentences: 经过分词和词形归一化的文本 udpipe
    • 'forma': 单词的原始形式;
    • 'lemma': 单词的词元形式

数据划分

数据集包含一组训练/测试划分,分别为7528和1882个示例。

数据集创建

数据整理原因

形成的示例数据集由来自多个来源(博客、微博、新闻)的俄语句子组成,可用于创建分析各种文本类型的方法。基于应用众包服务的创建数据集的方法可以用于扩展示例数量,提高监督分类器的准确性。

数据来源

初始数据收集和归一化

数据来自多个来源:Live Journal社交网络的帖子,Lenta.ru在线新闻机构的文本,以及Twitter微博帖子。

只选择那些包含字典中的标记词的句子。作者通过从字典的不同类别中选择单词来手动形成每种情绪的标记词列表。

共从LiveJournal帖子中选择了3069个句子,Lenta.Ru中选择了2851个句子,Twitter中选择了3490个句子。选择后,将句子提供给标记人员进行标注。

谁是源语言的生产者?

说俄语的LiveJournal和Twitter用户,以及lenta.ru网站上新闻文章的作者。

注释

注释过程

使用 a crowdsourcing platform 将句子用情绪标签进行标注。

标注者的任务是:“作者在句子中表达了哪些情绪?”标注者可以任意添加以下情绪标签:"喜悦"、"悲伤"、"愤怒"、"恐惧"和"惊讶"。

如果标注者对于控制句子的准确率(包括试验运行)低于70%,或者过去六个控制样本中的准确率低于66%,则标注者将被解雇。

句子被分成任务并分配给标注者,以确保每个句子至少被标注三次。如果超过一半的标注者给出了特定情绪的标签,那么该情绪标签将被分配给该句子。

谁是标注者?

只有那些平台内评分排名前30%的表现最佳、会说俄语且年满18岁的用户被允许参与标注过程。此外,在平台用户能够成为标注者之前,他们必须完成一个培训任务,然后按照作者们自己进行标注的注释的80%以上一致性标记25个试验样本。

个人和敏感信息

句子的文本可能包含不雅言论。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

AI技术实验室的研究人员在 "库尔恰托夫研究所" (NRC)开发了该数据集。详见作者 list .

许可信息

托管该数据集的GitHub仓库采用Apache License 2.0许可。

引用信息

如果我们的结果对您的工作有所帮助,请随时引用我们的出版物。这是数据集的更新版本,其收集和准备过程在这里描述:

@article{sboev2021data,
  title={Data-Driven Model for Emotion Detection in Russian Texts},
  author={Sboev, Alexander and Naumov, Aleksandr and Rybka, Roman},
  journal={Procedia Computer Science},
  volume={190},
  pages={637--642},
  year={2021},
  publisher={Elsevier}
}

贡献

感谢 @naumov-al 提供此数据集。