数据集:
joelito/mc4_legal
该数据集包含来自MC4的大型文本资源(总计约133GB),经过过滤后可用于预训练语言模型。
使用数据集的方式如下:
from datasets import load_dataset dataset = load_dataset("joelito/mc4_legal", "de", split='train', streaming=True)
该数据集支持遮蔽语言建模的任务。
支持以下语言:bg、cs、da、de、el、en、es、et、fi、fr、ga、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv
文件格式为jsonl.xz,有一个可用的数据集划分("train")。
Source | Size (MB) | Words | Documents | Words/Document |
---|---|---|---|---|
all | 448980 | 28599300521 | 9873288 | 2896 |
bg | 57 | 2390349 | 379 | 6306 |
cs | 31005 | 1840827375 | 677796 | 2715 |
da | 162 | 10466716 | 3231 | 3239 |
de | 105739 | 6184578784 | 3164461 | 1954 |
el | 30 | 1155977 | 307 | 3765 |
en | 13734 | 966539309 | 359283 | 2690 |
es | 132053 | 9058939804 | 2281888 | 3969 |
et | 2059 | 110198368 | 49987 | 2204 |
fi | 1270 | 62799074 | 44875 | 1399 |
fr | 30878 | 2117306229 | 598983 | 3534 |
ga | 1 | 32772 | 8 | 4096 |
hu | 4677 | 244911748 | 58857 | 4161 |
it | 46957 | 3053920779 | 990823 | 3082 |
lt | 156 | 9142223 | 1529 | 5979 |
lv | 1 | 58702 | 16 | 3668 |
mt | 65 | 3479869 | 731 | 4760 |
nl | 326 | 21962633 | 6875 | 3194 |
pl | 37950 | 2235839721 | 827641 | 2701 |
pt | 20120 | 1338147828 | 382173 | 3501 |
ro | 8816 | 551372510 | 136513 | 4038 |
sk | 5850 | 349265172 | 130701 | 2672 |
sl | 1742 | 107493024 | 32574 | 3299 |
sv | 5332 | 328471555 | 123657 | 2656 |
[需要更多信息]
[需要更多信息]
通过过滤MC4以获得法律数据创建了该数据集。我们使用了指示法律引用的术语来获取文本。请注意,该数据集可能存在噪音,并且质量未知。
[需要更多信息]
[需要更多信息]
源语言生成者是谁?[需要更多信息]
[需要更多信息]
注释者是谁?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
感谢 @JoelNiklaus 添加了该数据集。