数据集:
joelito/EU_Wikipedias
包含清理后的所有语言维基百科文章的维基百科数据集。数据集是基于维基百科转储( https://dumps.wikimedia.org/ )构建的,每种语言有一个拆分。每个示例包含清理后的一个完整维基百科文章的内容,清除了markdown和不需要的部分(引用等)。
该数据集支持填充掩码的任务。
支持以下语言:bg、cs、da、de、el、en、es、et、fi、fr、ga、hr、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv
数据集的格式如下:{日期}/{语言}_{分片}.jsonl.xz目前只支持日期'20221120'。
使用数据集的方式如下:
from datasets import load_dataset dataset = load_dataset('joelito/EU_Wikipedias', date="20221120", language="de", split='train', streaming=True)
文件格式为jsonl.xz,只有一个拆分(train)。
Source | Size (MB) | Words | Documents | Words/Document |
---|---|---|---|---|
20221120.all | 86034 | 9506846949 | 26481379 | 359 |
20221120.bg | 1261 | 88138772 | 285876 | 308 |
20221120.cs | 1904 | 189580185 | 513851 | 368 |
20221120.da | 679 | 74546410 | 286864 | 259 |
20221120.de | 11761 | 1191919523 | 2740891 | 434 |
20221120.el | 1531 | 103504078 | 215046 | 481 |
20221120.en | 26685 | 3192209334 | 6575634 | 485 |
20221120.es | 6636 | 801322400 | 1583597 | 506 |
20221120.et | 538 | 48618507 | 231609 | 209 |
20221120.fi | 1391 | 115779646 | 542134 | 213 |
20221120.fr | 9703 | 1140823165 | 2472002 | 461 |
20221120.ga | 72 | 8025297 | 57808 | 138 |
20221120.hr | 555 | 58853753 | 198746 | 296 |
20221120.hu | 1855 | 167732810 | 515777 | 325 |
20221120.it | 5999 | 687745355 | 1782242 | 385 |
20221120.lt | 409 | 37572513 | 203233 | 184 |
20221120.lv | 269 | 25091547 | 116740 | 214 |
20221120.mt | 29 | 2867779 | 5030 | 570 |
20221120.nl | 3208 | 355031186 | 2107071 | 168 |
20221120.pl | 3608 | 349900622 | 1543442 | 226 |
20221120.pt | 3315 | 389786026 | 1095808 | 355 |
20221120.ro | 1017 | 111455336 | 434935 | 256 |
20221120.sk | 506 | 49612232 | 238439 | 208 |
20221120.sl | 543 | 58858041 | 178472 | 329 |
20221120.sv | 2560 | 257872432 | 2556132 | 100 |
[需要更多信息]
[需要更多信息]
此数据集是通过使用 olm/wikipedia 下载欧盟24种语言的维基百科创建的。有关数据集创建的更多信息,请参考prepare_wikipedias.py
[需要更多信息]
[需要更多信息]
源语言制作者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
TODO add citation
感谢 @JoelNiklaus 添加了此数据集。