数据集:
ruanchaves/reli-sa
ReLi 是由 Cláudia Freitas 在 PUC-Rio 的“基于主动学习的语义标注器”项目框架内创建的数据集。该数据集包含了1,600条书评,手动标注了对所评书籍的意见及其情感极性。数据集中包含了关于七位作者的著作的巴西葡萄牙语书评:Stephenie Meyer、Thalita Rebouças、Sidney Sheldon、Jorge Amado、George Orwell、José Saramago 和 J.D. Salinger。这些书评所使用的语言从非常非正式,包含俚语、缩写词、新词和表情符号,到更正式的评论,使用更复杂的词汇。
ReLi-SA 是原始 ReLi 数据集在情感分析任务上的改编。我们根据各个标记的情感标注为每个句子分配情感极性。
该数据集使用的是巴西葡萄牙语。
{ 'source': 'ReLi-Orwell.txt', 'title': 'False', 'book': '1984', 'review_id': '0', 'score': 5.0, 'sentence_id': 102583, 'unique_review_id': 'ReLi-Orwell_1984_0', 'sentence': ' Um ótimo livro , além de ser um ótimo alerta para uma potencial distopia , em contraponto a utopia tão sonhada por os homens de o medievo e início de a modernidade .', 'label': 'positive' }
数据集分为三个拆分:
train | validation | test | |
---|---|---|---|
Instances | 7,875 | 1,348 | 3,288 |
这些拆分经过精心设计,以避免同一位作者的评论出现在多个拆分中。
如果您在工作中使用了该数据集,请引用以下出版物:
@incollection{freitas2014sparkling, title={Sparkling Vampire... lol! Annotating Opinions in a Book Review Corpus}, author={Freitas, Cl{\'a}udia and Motta, Eduardo and Milidi{\'u}, Ruy Luiz and C{\'e}sar, Juliana}, booktitle={New Language Technologies and Linguistic Research: A Two-Way Road}, editor={Alu{\'\i}sio, Sandra and Tagnin, Stella E. O.}, year={2014}, publisher={Cambridge Scholars Publishing}, pages={128--146} }
感谢 @ruanchaves 添加了该数据集。