数据集:

yhavinga/mc4_nl_cleaned

语言:

nl en

计算机处理:

monolingual en-nl

语言创建人:

found

批注创建人:

no-annotation

源数据集:

extended

预印本库:

arxiv:1910.10683

许可:

odc-by
英文

清洁的荷兰mC4数据集数据卡

数据集概述

C4多语言数据集(mC4)的荷兰部分经过清洁并保留了151GB的数据(原始数据集大小为277GB)。尽管这个数据集是单语言的,但可以下载en-nl交互数据,详情请参见下方的数据集配置部分。该数据集基于 Common Crawl dataset 。原始版本由 AllenAI 准备,存储在地址 https://huggingface.co/datasets/allenai/c4 处。

预处理

荷兰语部分的mC4数据集经过类似英语清洁C4版本的处理方式进行了清洁。详情请参见 GitLab

总结起来,预处理过程包括:

  • 删除包含 Dutch and English List of Dirty Naught Obscene and Otherwise Bad Words 中的部分词汇的文档。

  • 删除包含以下内容的句子:

    • 少于3个单词。

    • 一个长度超过250个字符的单词。

    • 结束符与句末标点不匹配。

    • 与JavaScript代码相关的字符串(例如 { ),lorem ipsum,荷兰语或英语的策略信息。

  • 删除文档(在句子过滤后):

    • 包含少于5个句子。

    • 包含少于500个字符或多于50,000个字符。

    • 未能通过LangDetect软件包被识别为荷兰语。

在Google Cloud上通过96个CPU核心在TPUv3上使用并行处理对所有原始mC4荷兰分片(~220Mb train的1024个,~24Mb validation的4个)进行完整清洁的过程大约需要10小时,因为句子分词和语言检测步骤耗时较长。在该过程之后,压缩后的.json.gz文件总大小减少了约一半。

数据集结构

数据实例

数据集中的一个例子:

{
  'timestamp': '2019-02-22T15:37:25Z',
  'url': 'https://ondernemingen.bnpparibasfortis.be/nl/artikel?n=vijf-gouden-tips-voor-succesvol-zaken-doen-met-japan',
  'text': 'Japanse bedrijven zijn niet alleen hondstrouw aan hun leveranciers , ze betalen ook nog eens erg stipt. Alleen is het niet zo makkelijk er een voet tussen de deur te krijgen. Met de volgende tips hebt u alvast een streepje voor.\nIn Japan draait alles om vertrouwen. Neem voldoende tijd om een relatie op te bouwen.Aarzel niet om tijdig een lokale vertrouwenspersoon in te schakelen.\nJapan is een erg competitieve markt.Kwaliteit en prijs zijn erg belangrijk, u zult dus het beste van uzelf moeten geven. Gelukkig is de beloning groot. Japanse zakenlui zijn loyaal en betalen stipt!\nJapanners houden er eigenzinnige eisen op na. Kom dus niet aanzetten met uw standaardproducten voor de Europese markt. Zo moet een producent van diepvriesfrieten bijvoorbeeld perfect identieke frietjes kunnen leveren in mini- verpakkingen. Het goede nieuws is dat Japanners voor kwaliteit graag diep in hun buidel tasten.\nEn u dacht dat Europa lijdt aan reglementitis? Japanners kennen er ook wat van. Tal van voorschriften zeggen wat je wel en niet mag doen. Gelukkig zijn de regels helder geformuleerd.\nHet gebruik van het Engels is niet echt ingeburgerd in Japan. Betrek een tolk bij uw onderhandelingen en zorg voor correcte vertalingen van handleidingen of softwareprogramma’s.'
}

数据字段

数据包含以下字段:

  • url:字符串形式的来源URL
  • text:字符串形式的文本内容
  • timestamp:字符串形式的提取时间戳

数据配置

为了构建mC4,原始作者使用 CLD3 识别了100多种语言。对于荷兰语,整个爬取文本语料库被分为1032个jsonl文件,其中1024个用于训练,采用命名样式c4-nl-cleaned.tfrecord-0XXXX-of-01024.json.gz,4个用于验证,采用命名样式c4-nl-cleaned.tfrecord-0000X-of-00004.json.gz。完整的预处理文件集需要大约208GB的磁盘空间通过Git LFS下载。

为了在不同存储容量下提供方便,提供了以下增量配置:(注意:磁盘上的文件是压缩的)

config train size (docs, words, download + preproc disk space) validation size
micro 125k docs, 23M words (<1GB) 16k docs
tiny 6M docs, 2B words (6 GB + 15 GB) 16k docs
small 15M docs, 6B words (14 GB + 36 GB) 16k docs
medium 31M docs, 12B words (28 GB + 72 GB) 32k docs
large 47M docs, 19B words (42 GB + 108 GB) 48k docs
full 64M docs, 25B words (58 GB + 148 GB) 64k docs

对于以上每个配置,还存在一个名为<name>_en_nl的配置,可以将来自清洁的en变体C4的nl和en示例交错。

您可以像这样加载任何配置:

from datasets import load_dataset

datasets = load_dataset('yhavinga/mc4_nl_cleaned', 'tiny', streaming=True)
print(datasets)

这将打印:

DatasetDict({
    train: Dataset({
        features: ['text', 'timestamp', 'url'],
        num_rows: 6303893
    })
    validation: Dataset({
        features: ['text', 'timestamp', 'url'],
        num_rows: 16189
    })
})

由于配置非常庞大,您可能希望使用从—数据集v1.9.0开始提供的流式模式遍历它们:

from datasets import load_dataset

mc4_nl_full_stream = load_dataset('yhavinga/mc4_nl_cleaned', "full", split='train', streaming=True)
print(next(iter(mc4_nl_full_stream))) # Prints the example presented above

数据集创建

有关选择来源和创建mC4过程中的抓取过程的更多考虑,请参阅原始论文。

使用数据的注意事项

数据集的社会影响

这是目前荷兰语可用的最大的已清洁语料库,超过151GB(压缩后为58GB),估计包含超过230亿个词汇。另一个可用的最大数据集是 OSCAR ,对于其去重变体,大小只有39GB,并且包含了粗俗语言。利用足够的计算资源对该语料库进行训练语言模型,研究人员可以达到英语的性能水平,这对于开发荷兰语的商业语言技术应用具有重要影响。

偏差讨论

尽管进行了清洁程序以除去粗俗和亵渎性语言,但必须考虑到在这个抓取语料库中训练的模型将不可避免地反映互联网博客文章和评论中存在的偏见。因此,该语料库在研究数据偏见及其如何限制其影响的背景下尤其引人关注。

附加信息

许可信息

AllenAI根据ODC-BY的条款发布此数据集。使用该数据集时,您也受制于数据集中包含的内容的Common Crawl使用条款。

引用信息

@article{2019t5,
    author = {Colin Raffel and Noam Shazeer and Adam Roberts and Katherine Lee and Sharan Narang and Michael Matena and Yanqi Zhou and Wei Li and Peter J. Liu},
    title = {Exploring the Limits of Transfer Learning with a Unified Text-to-Text Transformer},
    journal = {arXiv e-prints},
    year = {2019},
    archivePrefix = {arXiv},
    eprint = {1910.10683},
}

贡献

感谢gabriele.sarti996@gmail.com、 @dirkgr @lhoestq 提供的示例cleaned_it_mc4,展示了如何将数据集上传到Huggingface hub。