数据集:
cjvt/sentinews
SentiNews 是一个斯洛文尼亚情感分类数据集,由 2 到 6 个标注者手动注释的新闻文章组成。它分为三个层次进行注释:
情感分类,三个类别(消极,中性,积极)。
斯洛文尼亚语。
句子级别配置的示例实例:
{ 'nid': 2, 'content': 'Vilo Prešeren je na dražbi ministrstva za obrambo kupilo nepremičninsko podjetje Condor Real s sedežem v Lescah.', 'sentiment': 'neutral', 'pid': 1, 'sid': 1 }
所有三个配置的数据字段都相似,唯一的区别在于 ID。
Jože Bučar,Martin Žnidaršič,Janez Povh。
CC BY-SA 4.0
@article{buvcar2018annotated, title={Annotated news corpora and a lexicon for sentiment analysis in Slovene}, author={Bu{\v{c}}ar, Jo{\v{z}}e and {\v{Z}}nidar{\v{s}}i{\v{c}}, Martin and Povh, Janez}, journal={Language Resources and Evaluation}, volume={52}, number={3}, pages={895--919}, year={2018}, publisher={Springer} }
感谢 @matejklemen 添加了该数据集。