数据集:

joelito/mc4_legal

任务:

填充掩码

语言:

计算机处理:

multilingual

大小:

10M<n<100M

语言创建人:

found

批注创建人:

other

源数据集:

original

许可:

cc-by-4.0

数据集介绍文件清单

英文

MC4_Legal数据集卡片：欧洲语言法律部分的MC4语料库

数据集概要

该数据集包含来自MC4的大型文本资源（总计约133GB），经过过滤后可用于预训练语言模型。

使用数据集的方式如下：

from datasets import load_dataset
dataset = load_dataset("joelito/mc4_legal", "de", split='train', streaming=True)

支持的任务和排行榜

该数据集支持遮蔽语言建模的任务。

语言

支持以下语言：bg、cs、da、de、el、en、es、et、fi、fr、ga、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv

数据集结构

数据实例

文件格式为jsonl.xz，有一个可用的数据集划分（"train"）。

Source	Size (MB)	Words	Documents	Words/Document
all	448980	28599300521	9873288	2896
bg	57	2390349	379	6306
cs	31005	1840827375	677796	2715
da	162	10466716	3231	3239
de	105739	6184578784	3164461	1954
el	30	1155977	307	3765
en	13734	966539309	359283	2690
es	132053	9058939804	2281888	3969
et	2059	110198368	49987	2204
fi	1270	62799074	44875	1399
fr	30878	2117306229	598983	3534
ga	1	32772	8	4096
hu	4677	244911748	58857	4161
it	46957	3053920779	990823	3082
lt	156	9142223	1529	5979
lv	1	58702	16	3668
mt	65	3479869	731	4760
nl	326	21962633	6875	3194
pl	37950	2235839721	827641	2701
pt	20120	1338147828	382173	3501
ro	8816	551372510	136513	4038
sk	5850	349265172	130701	2672
sl	1742	107493024	32574	3299
sv	5332	328471555	123657	2656

数据字段

[需要更多信息]

数据划分

[需要更多信息]

数据集创建

通过过滤MC4以获得法律数据创建了该数据集。我们使用了指示法律引用的术语来获取文本。请注意，该数据集可能存在噪音，并且质量未知。

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生成者是谁？

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁？

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 @JoelNiklaus 添加了该数据集。

作者:

joelito

数据集大小:

26.33 GB