数据集:

allegro_reviews

语言:

pl

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

[数据集名称] 数据集卡片

数据集概述

Allegro评论是一个情感分析数据集,包含11,588个产品评论,以及从Allegro.pl(一个流行的电子商务市场)中提取的波兰语评论。每个评论至少有50个字,并且有一个从一(负面评价)到五(正面评价)的评分。

我们建议使用提供的训练/开发/测试划分。测试集评论的评分是隐藏的。您可以使用klejbenchmark.com上的在线评估工具评估您的模型。

支持的任务和排行榜

产品评论情感分析。 https://klejbenchmark.com/leaderboard/

语言

波兰语

数据集结构

数据实例

两个包含两列(文本,评分)的tsv文件(训练集,开发集),以及一个只包含一列(文本)的测试集。

数据字段

  • 文本:至少50个字的产品评论
  • 评分:一到五的产品评分

数据划分

数据划分为训练集、开发集和测试集。

数据集创建

策划原理

此数据集是为改进波兰语言处理而设定的九个评估任务之一。

源数据

初始数据收集与规范化

Allegro评论是来自流行的电子商务市场(Allegro.pl)的产品评论集合。

源语言产生者是谁?

电子商务市场的客户。

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

Allegro机器学习研究团队 klejbenchmark@allegro.pl

许可信息

数据集根据CC BY-SA 4.0许可

引用信息

@inproceedings{rybak-etal-2020-klej, title = "{KLEJ}: Comprehensive Benchmark for Polish Language Understanding", author = "Rybak, Piotr and Mroczkowski, Robert and Tracz, Janusz and Gawlik, Ireneusz", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = " https://www.aclweb.org/anthology/2020.acl-main.111" , pages = "1191--1201",}

贡献

感谢 @abecadel 添加此数据集。