数据集:

ro_sent

语言:

ro

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original

预印本库:

arxiv:2009.08712
英文

RoSent数据集卡片

数据集概述

这个数据集是一个罗马尼亚情感分析数据集。它以作者在其示例中使用的处理形式存在,基于原始数据,原始数据包含罗马尼亚语的产品和电影评论。

支持的任务和排行榜

[需要更多信息]

语言

这个数据集是用罗马尼亚语编写的。

数据集结构

数据实例

训练集中的一个实例:

{'id': '0', 'label': 1, 'original_id': '0', 'sentence': 'acest document mi-a deschis cu adevarat ochii la ceea ce oamenii din afara statelor unite s-au gandit la atacurile din 11 septembrie. acest film a fost construit in mod expert si prezinta acest dezastru ca fiind mai mult decat un atac asupra pamantului american. urmarile acestui dezastru sunt previzionate din multe tari si perspective diferite. cred ca acest film ar trebui sa fie mai bine distribuit pentru acest punct. de asemenea, el ajuta in procesul de vindecare sa vada in cele din urma altceva decat stirile despre atacurile teroriste. si unele dintre piese sunt de fapt amuzante, dar nu abuziv asa. acest film a fost extrem de recomandat pentru mine, si am trecut pe acelasi sentiment.'}

数据字段

  • original_id: 包含来自文件的原始id的字符串特征。
  • id: 字符串特征。
  • sentence: 字符串特征。
  • label: 分类标签,可能的值包括负面(0)和正面(1)。

数据拆分

这个数据集有两个拆分:训练集包含17941个示例,测试集包含11005个示例。

数据集创建

策展理由

[需要更多信息]

源数据

数据收集和规范化

源数据集位于 this GitHub repository ,并基于产品和电影评论。原始来源未知。

源语言制作人是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

Stefan Daniel Dumitrescu,Andrei-Marious Avram,Sampo Pyysalo, @katakonst

许可信息

[需要更多信息]

引用信息

@article{dumitrescu2020birth,
  title={The birth of Romanian BERT},
  author={Dumitrescu, Stefan Daniel and Avram, Andrei-Marius and Pyysalo, Sampo},
  journal={arXiv preprint arXiv:2009.08712},
  year={2020}
}

贡献者

感谢 @gchhablani @iliemihai 添加了这个数据集。