数据集:

swedish_reviews

语言:

sv

计算机处理:

monolingual

大小:

100K<n<1M

语言创建人:

found

批注创建人:

found

源数据集:

original
英文

瑞典评论数据集概述

数据集摘要

该数据集是从瑞典的各个网站上爬取的评论数据。数据集包括103,482个样本,分为训练集、验证集和测试集。这是全数据集的一个样本,这个样本是根据较小的类别(负面)进行平衡的。原始数据倾向于正面样本,比例为95/5。

支持的任务和排行榜

该数据集可用于评估瑞典文本的情感分类。

语言

数据集中的文本为瑞典语。

数据集结构

数据实例

一个样本的样子是这样的:

{
 'text': 'Jag tycker huggingface är ett grymt project!',
 'label': 1,
}

数据字段

  • text:包含情感表达的文本。
  • label:一个表示标签的整数,0表示负面,1表示正面。

数据拆分

数据集被拆分为训练集、验证集和测试集。最终拆分的大小如下:

Train Valid Test
62089 20696 20697

数据集创建

策划理由

[需要更多信息]

源数据

来自瑞典各个产品评论的网站。

初始数据收集和归一化——谁是源语言的制作人?

瑞典语

注释

[需要更多信息]

注释过程——基于用户对产品的评价,自动进行注释,评分范围为1-5,其中1-2被视为负面,4-5被视为正面,3通常被视为更加中立。

注释者是谁?

使用产品的用户。

个人和敏感信息

[需要更多信息]

使用数据时的注意事项

[需要更多信息]

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

[需要更多信息]

数据集策划者

该语料库由@timpal0l爬取。

许可信息

仅限用于研究。

引用信息

目前还没有相关论文。

贡献

感谢 @timpal0l 提供此数据集。