数据集:
LHF/escorpius-m
近年来,基于Transformer的模型在自然语言处理的语言建模方面取得了显著进展。然而,它们需要大量的数据进行(预)训练,而且除了英语之外的语言缺乏语料库。最近,几个倡议提供了从自动网页抓取中获得的多语种数据集。然而,对于不同于英语的语言,它们存在重要缺陷,因为它们要么太小,要么由于次优的清理和去重而质量低下。在这个代码库中,我们介绍了esCorpius-m,这是一个从近1 Pb Common Crawl数据中获取的多语种抓取语料库。它是其中一些语言中最广泛的语料库,其提取、净化和去重的质量达到了这个水平。我们的数据策划过程包括一个新颖的高度并行的清理流程,并包括一系列去重机制,共同确保文档和段落边界的完整性。另外,我们保留了源网页URL和WARC shard原始URL,以符合欧盟法规。esCorpius-m已在CC BY-NC-ND 4.0许可下发布。
用您选择的语言(这里是意大利语)替换“revision”:
dataset = load_dataset('LHF/escorpius-m', split='train', streaming=True, revision='it')
论文链接: https://www.isca-speech.org/archive/pdfs/iberspeech_2022/gutierrezfandino22_iberspeech.pdf / https://arxiv.org/abs/2206.15147
引用该作品:
@inproceedings{gutierrezfandino22_iberspeech, author={Asier Gutiérrez-Fandiño and David Pérez-Fernández and Jordi Armengol-Estapé and David Griol and Zoraida Callejas}, title={{esCorpius: A Massive Spanish Crawling Corpus}}, keywords = {Computation and Language (cs.CL), Artificial Intelligence (cs.AI), FOS: Computer and information sciences, FOS: Computer and information sciences}, year=2022, booktitle={Proc. IberSPEECH 2022}, pages={126--130}, doi={10.21437/IberSPEECH.2022-26} }
我们对语料库没有进行任何过滤和/或审查。我们希望用户运用自己的方法进行筛选。对于语料库的任何不当使用,我们不承担任何责任。