esCorpius多语种

近年来，基于Transformer的模型在自然语言处理的语言建模方面取得了显著进展。然而，它们需要大量的数据进行（预）训练，而且除了英语之外的语言缺乏语料库。最近，几个倡议提供了从自动网页抓取中获得的多语种数据集。然而，对于不同于英语的语言，它们存在重要缺陷，因为它们要么太小，要么由于次优的清理和去重而质量低下。在这个代码库中，我们介绍了esCorpius-m，这是一个从近1 Pb Common Crawl数据中获取的多语种抓取语料库。它是其中一些语言中最广泛的语料库，其提取、净化和去重的质量达到了这个水平。我们的数据策划过程包括一个新颖的高度并行的清理流程，并包括一系列去重机制，共同确保文档和段落边界的完整性。另外，我们保留了源网页URL和WARC shard原始URL，以符合欧盟法规。esCorpius-m已在CC BY-NC-ND 4.0许可下发布。

用法

用您选择的语言（这里是意大利语）替换“revision”：

dataset = load_dataset('LHF/escorpius-m', split='train', streaming=True, revision='it')

其他语料库

esCorpius-mr多语种原始语料库（未去重）： https://huggingface.co/datasets/LHF/escorpius-mr
esCorpius原始仅西班牙语语料库（已去重）： https://huggingface.co/datasets/LHF/escorpius

引用

论文链接： https://www.isca-speech.org/archive/pdfs/iberspeech_2022/gutierrezfandino22_iberspeech.pdf / https://arxiv.org/abs/2206.15147

引用该作品：

@inproceedings{gutierrezfandino22_iberspeech,
  author={Asier Gutiérrez-Fandiño and David Pérez-Fernández and Jordi Armengol-Estapé and David Griol and Zoraida Callejas},
  title={{esCorpius: A Massive Spanish Crawling Corpus}},
  keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences},
  year=2022,
  booktitle={Proc. IberSPEECH 2022},
  pages={126--130},
  doi={10.21437/IberSPEECH.2022-26}
}

免责声明

我们对语料库没有进行任何过滤和/或审查。我们希望用户运用自己的方法进行筛选。对于语料库的任何不当使用，我们不承担任何责任。

作者:

LHF

数据集大小:

4.43 KB