数据集:

alexandrainst/scandi-reddit

英文

ScandiReddit数据集卡片

数据集概要

ScandiReddit是一个经过过滤和后处理的语料库,包含了 Reddit 条评论。

从2005年12月到2022年10月的所有Reddit评论都经过了 PushShift 下载,然后根据FastText语言检测模型进行了过滤。任何被分类为丹麦语( da )、挪威语( no )、瑞典语( sv )或冰岛语( is )且置信度分数超过70%的评论都被保留下来。

然后对结果进行了去重处理,删除了大约438,000个评论。删除了5,000个由Reddit机器人编写的评论,以及大约189,000个属于不当子版块(色情和涉毒)的评论。

最后,我们从结果语料库中删除了大约40,000个近似重复的评论,这里的近似重复意味着这些评论有超过80%的五词组在另一条评论中也存在。

支持的任务和排行榜

该数据集的目标任务是训练语言模型。目前还没有排行榜。

语言

数据集提供的语言有丹麦语( da )、瑞典语( sv )、挪威语( no )和冰岛语( is )。

数据集结构

数据实例

  • 下载的数据集文件大小: 2341 MB
  • 生成的数据集大小: 3594 MB
  • 使用的总磁盘空间: 5935 MB

数据集中的一条示例如下所示。

{
    'doc': 'Bergen er ødelagt. Det er ikke moro mer.',
    'subreddit': 'Norway',
    'language': 'da',
    'language_confidence': 0.7472341656684875
}

数据字段

所有拆分的数据字段相同。

  • doc: 一个string类型的特征。
  • subreddit: 一个string类型的特征。
  • language: 一个string类型的特征。
  • language_confidence: 一个float64类型的特征。

语言分布

name count
sv 6,967,420
da 4,965,195
no 1,340,470
is 206,689
total 13,479,774

前50个子版块分布

name count
sweden 4,881,483
Denmark 3,579,178
norge 1,281,655
svenskpolitik 771,960
InfluencergossipDK 649,910
swedishproblems 339,683
Iceland 183,488
dkfinance 113,860
unket 81,077
DanishEnts 69,055
dankmark 62,928
swedents 58,576
scandinavia 57,136
Allsvenskan 56,006
Gothenburg 54,395
stockholm 51,016
ISKbets 47,944
Sverige 39,552
SWARJE 34,691
GossipDK 29,332
NorskFotball 28,571
Superligaen 23,641
Aarhus 22,516
Svenska 20,561
newsdk 19,893
AskReddit 16,672
copenhagen 16,668
okpolarncp 16,583
SwedditUniversalis 15,990
Sveriges_politik 15,058
intresseklubben 13,246
Aktiemarknaden 13,202
soccer 12,637
teenagers 10,845
Norway 10,680
europe 10,247
Matinbum 9,792
oslo 9,650
iksdagen 9,232
Asksweddit 8,851
Forsvaret 8,641
Sverigesforsvarsmakt 8,469
memes 8,299
Danish 8,268
DANMAG 8,214
PewdiepieSubmissions 7,800
sweddpolitik 7,646
pinsamt 7,318
arbetarrorelsen 7,317
Ishockey 6,824

数据集创建

策划理由

斯堪的纳维亚语言没有太多的开源社交媒体数据集。

数据来源

原始的Reddit数据是通过 PushShift 收集的。

附加信息

数据集策划者

来自 The Alexandra Institute Dan Saattrup Nielsen 策划了此数据集。

许可信息

该数据集的许可协议是 CC BY 4.0 license