数据集:

fewshot-goes-multilingual/cs_mall-product-reviews

源数据集:

original

批注创建人:

found

语言创建人:

found

大小:

10K<n<100K

计算机处理:

monolingual

语言:

cs
英文

Mall.cz产品评论数据集卡(捷克语)

数据集描述

该数据集包含来自捷克电子商务网站<mall.cz>的用户评论。每个评论包含文本、情感(积极/消极/中性)以及使用 lingua-py 进行自动检测的语言(主要是捷克语,偶尔是斯洛伐克语)。该数据集总共有30,000条评论,数据平衡。

训练集包含8000条积极评论,8000条中性评论和8000条消极评论。验证集和测试集中,每个类别各有1000条积极评论、1000条中性评论和1000条消极评论。

数据集特点

每个样本包含:

  • review_id:评论的唯一字符串标识符。
  • rating_str:评分的字符串表示 - "pozitivní"(积极)/ "neutrální"(中性)/ "negativní"(消极)。
  • rating_int:评分的整数表示(1=积极,0=中性,-1=消极)。
  • comment_language:评论的语言(主要是"cs",偶尔是"sk")。
  • comment:评论的字符串。

数据集来源

该数据是对 Mall CZ corpus 进行处理和适应得到的。适应后,数据平衡,并添加了自动检测的语言信息。