数据集:
alexandrainst/scandi-reddit
ScandiReddit是一个经过过滤和后处理的语料库,包含了 Reddit 条评论。
从2005年12月到2022年10月的所有Reddit评论都经过了 PushShift 下载,然后根据FastText语言检测模型进行了过滤。任何被分类为丹麦语( da )、挪威语( no )、瑞典语( sv )或冰岛语( is )且置信度分数超过70%的评论都被保留下来。
然后对结果进行了去重处理,删除了大约438,000个评论。删除了5,000个由Reddit机器人编写的评论,以及大约189,000个属于不当子版块(色情和涉毒)的评论。
最后,我们从结果语料库中删除了大约40,000个近似重复的评论,这里的近似重复意味着这些评论有超过80%的五词组在另一条评论中也存在。
该数据集的目标任务是训练语言模型。目前还没有排行榜。
数据集提供的语言有丹麦语( da )、瑞典语( sv )、挪威语( no )和冰岛语( is )。
数据集中的一条示例如下所示。
{ 'doc': 'Bergen er ødelagt. Det er ikke moro mer.', 'subreddit': 'Norway', 'language': 'da', 'language_confidence': 0.7472341656684875 }
所有拆分的数据字段相同。
name | count |
---|---|
sv | 6,967,420 |
da | 4,965,195 |
no | 1,340,470 |
is | 206,689 |
total | 13,479,774 |
name | count |
---|---|
sweden | 4,881,483 |
Denmark | 3,579,178 |
norge | 1,281,655 |
svenskpolitik | 771,960 |
InfluencergossipDK | 649,910 |
swedishproblems | 339,683 |
Iceland | 183,488 |
dkfinance | 113,860 |
unket | 81,077 |
DanishEnts | 69,055 |
dankmark | 62,928 |
swedents | 58,576 |
scandinavia | 57,136 |
Allsvenskan | 56,006 |
Gothenburg | 54,395 |
stockholm | 51,016 |
ISKbets | 47,944 |
Sverige | 39,552 |
SWARJE | 34,691 |
GossipDK | 29,332 |
NorskFotball | 28,571 |
Superligaen | 23,641 |
Aarhus | 22,516 |
Svenska | 20,561 |
newsdk | 19,893 |
AskReddit | 16,672 |
copenhagen | 16,668 |
okpolarncp | 16,583 |
SwedditUniversalis | 15,990 |
Sveriges_politik | 15,058 |
intresseklubben | 13,246 |
Aktiemarknaden | 13,202 |
soccer | 12,637 |
teenagers | 10,845 |
Norway | 10,680 |
europe | 10,247 |
Matinbum | 9,792 |
oslo | 9,650 |
iksdagen | 9,232 |
Asksweddit | 8,851 |
Forsvaret | 8,641 |
Sverigesforsvarsmakt | 8,469 |
memes | 8,299 |
Danish | 8,268 |
DANMAG | 8,214 |
PewdiepieSubmissions | 7,800 |
sweddpolitik | 7,646 |
pinsamt | 7,318 |
arbetarrorelsen | 7,317 |
Ishockey | 6,824 |
斯堪的纳维亚语言没有太多的开源社交媒体数据集。
原始的Reddit数据是通过 PushShift 收集的。
来自 The Alexandra Institute 的 Dan Saattrup Nielsen 策划了此数据集。
该数据集的许可协议是 CC BY 4.0 license 。