ReLi-SA 数据集卡片

数据集概要

ReLi 是由 Cláudia Freitas 在 PUC-Rio 的“基于主动学习的语义标注器”项目框架内创建的数据集。该数据集包含了1,600条书评，手动标注了对所评书籍的意见及其情感极性。数据集中包含了关于七位作者的著作的巴西葡萄牙语书评：Stephenie Meyer、Thalita Rebouças、Sidney Sheldon、Jorge Amado、George Orwell、José Saramago 和 J.D. Salinger。这些书评所使用的语言从非常非正式，包含俚语、缩写词、新词和表情符号，到更正式的评论，使用更复杂的词汇。

ReLi-SA 是原始 ReLi 数据集在情感分析任务上的改编。我们根据各个标记的情感标注为每个句子分配情感极性。

支持的任务和排行榜

情感分析：可以使用该数据集训练情感分析模型，将句子中表达的情感分类为正面、负面、中性或混合。该任务的成功通常通过达到较高的 F1 score 评估。

语言

该数据集使用的是巴西葡萄牙语。

数据集结构

数据实例

{
  'source': 'ReLi-Orwell.txt',
  'title': 'False',
  'book': '1984',
  'review_id': '0',
  'score': 5.0,
  'sentence_id': 102583,
  'unique_review_id': 'ReLi-Orwell_1984_0',
  'sentence': ' Um ótimo livro , além de ser um ótimo alerta para uma potencial distopia , em contraponto a utopia tão sonhada por os homens de o medievo e início de a modernidade .',
  'label': 'positive'
}

数据字段

source：评论的来源文件。
title：一个布尔字段，指示句子是否为评论标题（True）或否（False）。
book：评论所涉及的书籍。
review_id：源文件中的评论ID。
score：评论对书籍的评分。
sentence_id：句子的顺序ID（可用于对评论中的句子进行排序）。
unique_review_id：句子所属评论的唯一ID。
sentence：标签指示情感的句子。
label：情感标签，可以是正面、中性、负面或混合（如果句子中同时出现正面和负面情感极性的标记）。

数据拆分

数据集分为三个拆分：

train	validation	test
Instances	7,875	1,348	3,288

这些拆分经过精心设计，以避免同一位作者的评论出现在多个拆分中。

附加信息

引用信息

如果您在工作中使用了该数据集，请引用以下出版物：

@incollection{freitas2014sparkling,
  title={Sparkling Vampire... lol! Annotating Opinions in a Book Review Corpus},
  author={Freitas, Cl{\'a}udia and Motta, Eduardo and Milidi{\'u}, Ruy Luiz and C{\'e}sar, Juliana},
  booktitle={New Language Technologies and Linguistic Research: A Two-Way Road},
  editor={Alu{\'\i}sio, Sandra and Tagnin, Stella E. O.},
  year={2014},
  publisher={Cambridge Scholars Publishing},
  pages={128--146}
}

贡献

感谢 @ruanchaves 添加了该数据集。

作者:

ruanchaves

数据集大小:

8.33 KB