数据集:

ruanchaves/reli-sa

英文

ReLi-SA 数据集卡片

数据集概要

ReLi 是由 Cláudia Freitas 在 PUC-Rio 的“基于主动学习的语义标注器”项目框架内创建的数据集。该数据集包含了1,600条书评,手动标注了对所评书籍的意见及其情感极性。数据集中包含了关于七位作者的著作的巴西葡萄牙语书评:Stephenie Meyer、Thalita Rebouças、Sidney Sheldon、Jorge Amado、George Orwell、José Saramago 和 J.D. Salinger。这些书评所使用的语言从非常非正式,包含俚语、缩写词、新词和表情符号,到更正式的评论,使用更复杂的词汇。

ReLi-SA 是原始 ReLi 数据集在情感分析任务上的改编。我们根据各个标记的情感标注为每个句子分配情感极性。

支持的任务和排行榜

  • 情感分析:可以使用该数据集训练情感分析模型,将句子中表达的情感分类为正面、负面、中性或混合。该任务的成功通常通过达到较高的 F1 score 评估。

语言

该数据集使用的是巴西葡萄牙语。

数据集结构

数据实例

{
  'source': 'ReLi-Orwell.txt',
  'title': 'False',
  'book': '1984',
  'review_id': '0',
  'score': 5.0,
  'sentence_id': 102583,
  'unique_review_id': 'ReLi-Orwell_1984_0',
  'sentence': ' Um ótimo livro , além de ser um ótimo alerta para uma potencial distopia , em contraponto a utopia tão sonhada por os homens de o medievo e início de a modernidade .',
  'label': 'positive'
}

数据字段

  • source:评论的来源文件。
  • title:一个布尔字段,指示句子是否为评论标题(True)或否(False)。
  • book:评论所涉及的书籍。
  • review_id:源文件中的评论ID。
  • score:评论对书籍的评分。
  • sentence_id:句子的顺序ID(可用于对评论中的句子进行排序)。
  • unique_review_id:句子所属评论的唯一ID。
  • sentence:标签指示情感的句子。
  • label:情感标签,可以是正面、中性、负面或混合(如果句子中同时出现正面和负面情感极性的标记)。

数据拆分

数据集分为三个拆分:

train validation test
Instances 7,875 1,348 3,288

这些拆分经过精心设计,以避免同一位作者的评论出现在多个拆分中。

附加信息

引用信息

如果您在工作中使用了该数据集,请引用以下出版物:

@incollection{freitas2014sparkling,
  title={Sparkling Vampire... lol! Annotating Opinions in a Book Review Corpus},
  author={Freitas, Cl{\'a}udia and Motta, Eduardo and Milidi{\'u}, Ruy Luiz and C{\'e}sar, Juliana},
  booktitle={New Language Technologies and Linguistic Research: A Two-Way Road},
  editor={Alu{\'\i}sio, Sandra and Tagnin, Stella E. O.},
  year={2014},
  publisher={Cambridge Scholars Publishing},
  pages={128--146}
}

贡献

感谢 @ruanchaves 添加了该数据集。