数据集:

swedish_reviews

任务:

文本分类

子任务:

sentiment-classification

语言:

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original

许可:

license:unknown

数据集介绍文件清单

英文

瑞典评论数据集概述

数据集摘要

该数据集是从瑞典的各个网站上爬取的评论数据。数据集包括103,482个样本，分为训练集、验证集和测试集。这是全数据集的一个样本，这个样本是根据较小的类别（负面）进行平衡的。原始数据倾向于正面样本，比例为95/5。

支持的任务和排行榜

该数据集可用于评估瑞典文本的情感分类。

语言

数据集中的文本为瑞典语。

数据集结构

数据实例

一个样本的样子是这样的:

{
 'text': 'Jag tycker huggingface är ett grymt project!',
 'label': 1,
}

数据字段

text：包含情感表达的文本。
label：一个表示标签的整数，0表示负面，1表示正面。

数据拆分

数据集被拆分为训练集、验证集和测试集。最终拆分的大小如下:

Train	Valid	Test
62089	20696	20697

数据集创建

策划理由

[需要更多信息]

源数据

来自瑞典各个产品评论的网站。

初始数据收集和归一化——谁是源语言的制作人？

瑞典语

注释

[需要更多信息]

注释过程——基于用户对产品的评价，自动进行注释，评分范围为1-5，其中1-2被视为负面，4-5被视为正面，3通常被视为更加中立。

注释者是谁？

使用产品的用户。

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

[需要更多信息]

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

[需要更多信息]

数据集策划者

该语料库由@timpal0l爬取。

许可信息

仅限用于研究。

引用信息

目前还没有相关论文。

贡献

感谢 @timpal0l 提供此数据集。

作者:

佚名

数据集大小:

9.51 KB