数据集:

LHF/escorpius-m

英文

esCorpius多语种

近年来,基于Transformer的模型在自然语言处理的语言建模方面取得了显著进展。然而,它们需要大量的数据进行(预)训练,而且除了英语之外的语言缺乏语料库。最近,几个倡议提供了从自动网页抓取中获得的多语种数据集。然而,对于不同于英语的语言,它们存在重要缺陷,因为它们要么太小,要么由于次优的清理和去重而质量低下。在这个代码库中,我们介绍了esCorpius-m,这是一个从近1 Pb Common Crawl数据中获取的多语种抓取语料库。它是其中一些语言中最广泛的语料库,其提取、净化和去重的质量达到了这个水平。我们的数据策划过程包括一个新颖的高度并行的清理流程,并包括一系列去重机制,共同确保文档和段落边界的完整性。另外,我们保留了源网页URL和WARC shard原始URL,以符合欧盟法规。esCorpius-m已在CC BY-NC-ND 4.0许可下发布。

用法

用您选择的语言(这里是意大利语)替换“revision”:

dataset = load_dataset('LHF/escorpius-m', split='train', streaming=True, revision='it')

其他语料库

引用

论文链接: https://www.isca-speech.org/archive/pdfs/iberspeech_2022/gutierrezfandino22_iberspeech.pdf / https://arxiv.org/abs/2206.15147

引用该作品:

@inproceedings{gutierrezfandino22_iberspeech,
  author={Asier Gutiérrez-Fandiño and David Pérez-Fernández and Jordi Armengol-Estapé and David Griol and Zoraida Callejas},
  title={{esCorpius: A Massive Spanish Crawling Corpus}},
  keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences},
  year=2022,
  booktitle={Proc. IberSPEECH 2022},
  pages={126--130},
  doi={10.21437/IberSPEECH.2022-26}
}

免责声明

我们对语料库没有进行任何过滤和/或审查。我们希望用户运用自己的方法进行筛选。对于语料库的任何不当使用,我们不承担任何责任。