数据集:

gsarti/clean_mc4_it

语言:

it

计算机处理:

monolingual

语言创建人:

found

批注创建人:

no-annotation

源数据集:

extended

许可:

odc-by
英文

Clean Italian mC4 数据集卡片 ??

数据集概要

这是多语言巨型重清版本 Common Crawl 网页抓取语料库 (mC4) 中意大利语部分的彻底清理版本。基于 Common Crawl dataset 进行了清理。原始版本由 AllenAI 准备,托管在地址 https://huggingface.co/datasets/allenai/c4 ,随后由 Gabriele Sarti 进行预处理,遵循所有数据集分片的标准流程。

预处理

数据集的预处理遵循 Yeb Havinga 在训练模型 t5-base-dutch (用于清理的荷兰语分片)时使用的过程。原始代码已被改为适用于意大利语,并可在 GitLab 上找到。简而言之,预处理过程包括:

  • 删除包含以下选定字词的文档 Italian and English List of Dirty Naught Obscene and Otherwise Bad Words

  • 删除包含以下内容的句子:

    • 少于 3 个词。

    • 一个长度超过 1000 个字符的单词。

    • 未与句子结束标点符号匹配的结束符号。

    • 与 JavaScript 代码相关的字符串(例如 { ),Lorem Ipsum,意大利语或英语的政策信息。

  • 删除文档(经过句子过滤):

    • 包含少于5个句子。

    • 包含少于500或多于50,000个字符。

    • 未被 LangDetect 包识别为主要为意大利语的。

通过 Google Cloud 上的 TPUv3 上的 96 个 CPU 核心使用并行处理来完成所有原始意大利语分片的完整清理(约 1024 个 ~ 220MB 的训练集,8 个 ~ 24MB 的验证集),由于句子标记和语言检测等繁重步骤,此过程大约需要10小时。压缩后的 .json.gz 文件的总大小在此过程后减少了约一半。

数据集结构

数据实例

数据集中的示例:

{
  'timestamp': '2020-02-22T22:24:31Z', 
  'url': 'https://altreconomia.it/una-rotonda-sul-pane/', 
  'text': 'Per raggiungere il campo attraversiamo la striscia d’asfalto che porta verso la provinciale numero 13. Mettiamo a rischio la nostra incolumità in un territorio di auto e camion. Sullo sfondo, i profili della Grigna e del Resegone. Più vicini, quelli del solito ipermercato di provincia, e delle villette a schiera che avanzano tra le coltivazioni. È lo sprawling, l’avanzata del cemento.\\nDa questo lato dalla strada, invece, è ancora regno contadino. Almeno per ora. Torniamo a Caponago (Mb), Brianza pura, dove ha avuto i natali il progetto “Spiga e madia”. Ne parlammo su Ae nel gennaio 2009: in un territorio “spaesato”, il Comitato “verso il Distretto di economia solidale della Brianza” (Desbri) e la “Retina” dei gruppi di acquisto locali danno vita a un progetto di produzione di frumento, molitura, panificazione e distribuzione in un raggio di 20 chilometri. Si comincia da zero, nel 2007, senza alcun di finanziamento, quando una famiglia del [...]. Il giochino vale almeno 3 miliardi di euro all’anno. La misura, introdotta in via straordinaria con la finanziaria 2005, è stata prorogata anche con l’ultimo decreto “milleproroghe”.'
}

数据字段

数据包含以下字段:

  • url : 源的 URL,string 类型
  • text : 文本内容,string 类型
  • timestamp : 提取的时间戳,string 类型

数据拆分

为了构建 mC4,原始作者使用 CLD3 识别超过 100 种语言。对于意大利语,整个爬取文本的语料库被分成了 1032 个 jsonl 文件,1024 个用于训练,采用命名样式 c4-it.tfrecord-0XXXX-of-01024.json.gz ,8 个用于验证,采用命名样式 c4-it-validation.tfrecord-0000X-of-00008.json.gz 。完整的预处理文件集约需占用215GB的磁盘空间,可以通过 Git LFS 进行下载。

为了在不同存储容量下的方便使用,可使用以下增量拆分(大小为估计值):重要:GB 中的大小表示的是:

split train size (docs, words, download + preproc disk space) validation size
tiny 10M docs, 4B words (9 GB + 27 GB) 12k docs
small 20M docs, 8B words (18 GB + 54 GB) 24k docs
medium 50M docs, 20B words (47 GB + 135 GB) 48k docs
large 75M docs, 30B words (71 GB + 203 GB) 72k docs
full 103M docs, 41B words (109 GB + 279 GB) 96k docs

您可以像这样加载任何子集:

from datasets import load_dataset

mc4_it_tiny = load_dataset("gsarti/clean_mc4_it", "tiny")

由于拆分文件相当大,您可能希望使用从 ? Datasets v1.9.0 开始提供的流模式来遍历它们:

from datasets import load_dataset

mc4_it_full_stream = load_dataset("gsarti/clean_mc4_it", "full", split='train', streaming=True)
print(next(iter(mc4_it_full_stream))) # Prints the example presented above

数据集创建

请参阅原始论文,了解有关选择来源和创建 mC4 语料库爬取过程的更多注意事项。

使用数据的注意事项

数据集的社会影响

这个清理后的意大利文本超过 200GB,预计包含超过 410亿个单词,是迄今为止最大的意大利语可用语料库。第二大的可用数据集是 OSCAR ,其去重变体的大小仅为 69GB。对于具备足够计算资源的语言模型训练,使用这个语料库将使研究人员能够达到对英语观察到的性能水平,从而为意大利语的商业语言技术应用的发展产生重要的影响。

偏见讨论

尽管清理过程旨在删除粗俗和亵渎内容,但必须考虑到在博客文章和互联网评论中存在的偏见将不可避免地反映在训练该抓取语料库的模型中。这使得这个数据集在研究数据偏差及如何减少其影响的背景下特别有趣。

附加信息

数据集策展人

AllenAI 的作者是 mc4 语料库的原始策展人。有关此存储库中包含的意大利语清理部分的咨询或请求,请通过电子邮件联系我:gabriele.sarti996@gmail.com

许可信息

AllenAI 根据 ODC-BY 条款发布该数据集。使用该数据集,您还受到与数据集中内容相对应的 Common Crawl 使用条款的约束。

引用信息

如果您在工作中使用此数据集,请引用我们和原始 mC4 作者的论文:

@article{sarti-nissim-2022-it5,
    title={IT5: Large-scale Text-to-text Pretraining for Italian Language Understanding and Generation},
    author={Sarti, Gabriele and Nissim, Malvina},
    journal={ArXiv preprint 2203.03759},
    url={https://arxiv.org/abs/2203.03759},
    year={2022},
    month={mar}
}

@inproceedings{xue-etal-2021-mt5,
    title = "m{T}5: A Massively Multilingual Pre-trained Text-to-Text Transformer",
    author = "Xue, Linting  and
      Constant, Noah  and
      Roberts, Adam  and
      Kale, Mihir  and
      Al-Rfou, Rami  and
      Siddhant, Aditya  and
      Barua, Aditya  and
      Raffel, Colin",
    booktitle = "Proceedings of the 2021 Conference of the North American Chapter of the Association for Computational Linguistics: Human Language Technologies",
    month = jun,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.naacl-main.41",
    doi = "10.18653/v1/2021.naacl-main.41",
    pages = "483--498",
}

贡献

感谢 @dirkgr @lhoestq 提供此数据集。