数据集:

cjvt/sentinews

英文

SentiNews 数据集卡片

数据集概述

SentiNews 是一个斯洛文尼亚情感分类数据集,由 2 到 6 个标注者手动注释的新闻文章组成。它分为三个层次进行注释:

  • 文档级别(配置 document_level,10,427 个文档)
  • 段落级别(配置 paragraph_level,89,999 个段落)
  • 句子级别(配置 sentence_level,168,899 个句子)

支持的任务和排行榜

情感分类,三个类别(消极,中性,积极)。

语言

斯洛文尼亚语。

数据集结构

数据实例

句子级别配置的示例实例:

{
  'nid': 2, 
  'content': 'Vilo Prešeren je na dražbi ministrstva za obrambo kupilo nepremičninsko podjetje Condor Real s sedežem v Lescah.', 
  'sentiment': 'neutral', 
  'pid': 1, 
  'sid': 1
}

数据字段

所有三个配置的数据字段都相似,唯一的区别在于 ID。

  • nid:包含新闻文章(文档)的唯一 ID 的 uint16。
  • content:包含新闻文章内容的字符串。
  • sentiment:实例的情感。
  • pid:包含当前新闻文章内段落的连续编号的 uint8,不唯一(在 paragraph_level 和 sentence_level 的配置中存在)。
  • sid:包含当前段落内句子的连续编号的 uint8,不唯一(在 sentence_level 的配置中存在)。

其他信息

数据集创建者

Jože Bučar,Martin Žnidaršič,Janez Povh。

许可信息

CC BY-SA 4.0

引用信息

@article{buvcar2018annotated, 
  title={Annotated news corpora and a lexicon for sentiment analysis in Slovene}, 
  author={Bu{\v{c}}ar, Jo{\v{z}}e and {\v{Z}}nidar{\v{s}}i{\v{c}}, Martin and Povh, Janez}, 
  journal={Language Resources and Evaluation}, 
  volume={52}, 
  number={3}, 
  pages={895--919}, 
  year={2018}, 
  publisher={Springer}
}

贡献者

感谢 @matejklemen 添加了该数据集。