数据集:

joelito/EU_Wikipedias

计算机处理:

multilingual

大小:

10M<n<100M

语言创建人:

found

批注创建人:

other

源数据集:

original

许可:

cc-by-4.0
英文

EUWikipedias数据集卡:欧盟语言维基百科数据集

数据集摘要

包含清理后的所有语言维基百科文章的维基百科数据集。数据集是基于维基百科转储( https://dumps.wikimedia.org/ )构建的,每种语言有一个拆分。每个示例包含清理后的一个完整维基百科文章的内容,清除了markdown和不需要的部分(引用等)。

支持的任务和排行榜

该数据集支持填充掩码的任务。

语言

支持以下语言:bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv

数据集结构

数据集的格式如下:{日期}/{语言}_{分片}.jsonl.xz目前只支持日期'20221120'。

使用数据集的方式如下:

from datasets import load_dataset

dataset = load_dataset('joelito/EU_Wikipedias', date="20221120", language="de", split='train', streaming=True)

数据实例

文件格式为jsonl.xz,只有一个拆分(train)。

Source Size (MB) Words Documents Words/Document
20221120.all 86034 9506846949 26481379 359
20221120.bg 1261 88138772 285876 308
20221120.cs 1904 189580185 513851 368
20221120.da 679 74546410 286864 259
20221120.de 11761 1191919523 2740891 434
20221120.el 1531 103504078 215046 481
20221120.en 26685 3192209334 6575634 485
20221120.es 6636 801322400 1583597 506
20221120.et 538 48618507 231609 209
20221120.fi 1391 115779646 542134 213
20221120.fr 9703 1140823165 2472002 461
20221120.ga 72 8025297 57808 138
20221120.hr 555 58853753 198746 296
20221120.hu 1855 167732810 515777 325
20221120.it 5999 687745355 1782242 385
20221120.lt 409 37572513 203233 184
20221120.lv 269 25091547 116740 214
20221120.mt 29 2867779 5030 570
20221120.nl 3208 355031186 2107071 168
20221120.pl 3608 349900622 1543442 226
20221120.pt 3315 389786026 1095808 355
20221120.ro 1017 111455336 434935 256
20221120.sk 506 49612232 238439 208
20221120.sl 543 58858041 178472 329
20221120.sv 2560 257872432 2556132 100

数据字段

[需要更多信息]

数据拆分

[需要更多信息]

数据集创建

此数据集是通过使用 olm/wikipedia 下载欧盟24种语言的维基百科创建的。有关数据集创建的更多信息,请参考prepare_wikipedias.py

策划理由

[需要更多信息]

源数据

初始数据收集和标准化

[需要更多信息]

源语言制作者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

TODO add citation

贡献者

感谢 @JoelNiklaus 添加了此数据集。