数据集:
fewshot-goes-multilingual/cs_mall-product-reviews
许可:
cc-by-nc-sa-3.0源数据集:
original批注创建人:
found语言创建人:
found大小:
10K<n<100K计算机处理:
monolingual语言:
cs任务:
文本分类该数据集包含来自捷克电子商务网站<mall.cz>的用户评论。每个评论包含文本、情感(积极/消极/中性)以及使用 lingua-py 进行自动检测的语言(主要是捷克语,偶尔是斯洛伐克语)。该数据集总共有30,000条评论,数据平衡。
训练集包含8000条积极评论,8000条中性评论和8000条消极评论。验证集和测试集中,每个类别各有1000条积极评论、1000条中性评论和1000条消极评论。
每个样本包含:
该数据是对 Mall CZ corpus 进行处理和适应得到的。适应后,数据平衡,并添加了自动检测的语言信息。