数据集:
swedish_reviews
任务:
文本分类语言:
sv计算机处理:
monolingual大小:
100K<n<1M语言创建人:
found批注创建人:
found源数据集:
original许可:
license:unknown该数据集是从瑞典的各个网站上爬取的评论数据。数据集包括103,482个样本,分为训练集、验证集和测试集。这是全数据集的一个样本,这个样本是根据较小的类别(负面)进行平衡的。原始数据倾向于正面样本,比例为95/5。
该数据集可用于评估瑞典文本的情感分类。
数据集中的文本为瑞典语。
一个样本的样子是这样的:
{ 'text': 'Jag tycker huggingface är ett grymt project!', 'label': 1, }
数据集被拆分为训练集、验证集和测试集。最终拆分的大小如下:
Train | Valid | Test |
---|---|---|
62089 | 20696 | 20697 |
[需要更多信息]
来自瑞典各个产品评论的网站。
初始数据收集和归一化——谁是源语言的制作人?
瑞典语
[需要更多信息]
注释过程——基于用户对产品的评价,自动进行注释,评分范围为1-5,其中1-2被视为负面,4-5被视为正面,3通常被视为更加中立。
注释者是谁?
使用产品的用户。
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
该语料库由@timpal0l爬取。
仅限用于研究。
目前还没有相关论文。
感谢 @timpal0l 提供此数据集。