数据集:

joelito/mc4_legal

计算机处理:

multilingual

大小:

10M<n<100M

语言创建人:

found

批注创建人:

other

源数据集:

original

许可:

cc-by-4.0
英文

MC4_Legal数据集卡片:欧洲语言法律部分的MC4语料库

数据集概要

该数据集包含来自MC4的大型文本资源(总计约133GB),经过过滤后可用于预训练语言模型。

使用数据集的方式如下:

from datasets import load_dataset
dataset = load_dataset("joelito/mc4_legal", "de", split='train', streaming=True)

支持的任务和排行榜

该数据集支持遮蔽语言建模的任务。

语言

支持以下语言:bg、cs、da、de、el、en、es、et、fi、fr、ga、hu、it、lt、lv、mt、nl、pl、pt、ro、sk、sl、sv

数据集结构

数据实例

文件格式为jsonl.xz,有一个可用的数据集划分("train")。

Source Size (MB) Words Documents Words/Document
all 448980 28599300521 9873288 2896
bg 57 2390349 379 6306
cs 31005 1840827375 677796 2715
da 162 10466716 3231 3239
de 105739 6184578784 3164461 1954
el 30 1155977 307 3765
en 13734 966539309 359283 2690
es 132053 9058939804 2281888 3969
et 2059 110198368 49987 2204
fi 1270 62799074 44875 1399
fr 30878 2117306229 598983 3534
ga 1 32772 8 4096
hu 4677 244911748 58857 4161
it 46957 3053920779 990823 3082
lt 156 9142223 1529 5979
lv 1 58702 16 3668
mt 65 3479869 731 4760
nl 326 21962633 6875 3194
pl 37950 2235839721 827641 2701
pt 20120 1338147828 382173 3501
ro 8816 551372510 136513 4038
sk 5850 349265172 130701 2672
sl 1742 107493024 32574 3299
sv 5332 328471555 123657 2656

数据字段

[需要更多信息]

数据划分

[需要更多信息]

数据集创建

通过过滤MC4以获得法律数据创建了该数据集。我们使用了指示法律引用的术语来获取文本。请注意,该数据集可能存在噪音,并且质量未知。

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

源语言生成者是谁?

[需要更多信息]

注释

注释过程

[需要更多信息]

注释者是谁?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

[需要更多信息]

贡献

感谢 @JoelNiklaus 添加了该数据集。