数据集:
projecte-aina/catalan_textual_corpus
任务:
填充掩码语言:
ca计算机处理:
monolingual大小:
10M<n<100M语言创建人:
found批注创建人:
no-annotation预印本库:
arxiv:2107.07903许可:
cc-by-sa-4.0Catalan Textual Corpus 是一个包含17.6亿个加泰罗尼亚语文本的网络语料库,来源于多个来源。
该语料库包含1,758,389,896个标记、73,172,152个句子和12,556,365个文档。文档间由单个换行符分隔,只要许可证允许,这些边界将被保留。
该语料库主要用于预训练语言模型和词向量。
该数据集为加泰罗尼亚语( ca-CA )。
{'text': "L'operatiu continuarà durant aquest divendres."}
该数据集包含一个划分:train。
我们创建了该语料库来为加泰罗尼亚语(一种低资源语言)的语言模型开发做出贡献。
Catalan Textual Corpus 是一个由多个来源构建的、包含17.6亿个加泰罗尼亚语网络语料库:包括现有的语料库(如DOGC、CaWac(非去重版本)、Oscar(未打乱版本)、Open Subtitles、加泰罗尼亚维基百科)以及三个全新的爬取数据:加泰罗尼亚通用爬取,通过抓取500个最流行的.cat和.ad域;加泰罗尼亚政府爬取,通过抓取属于加泰罗尼亚政府的.gencat域和子域;以及ACN语料库,从加泰罗尼亚通讯社爬取了22万条从2015年3月到2020年10月的新闻。文本预处理时使用了 Corpus-Cleaner ,这是一个基于Python的模块化工具包,通过生成器管道清理原始文本语料库。
谁是源语言生成者?原始数据来自于各种来源:现有的语料库和公共网站的爬取语料。
该数据集没有进行注释。
注释过程[N/A]
注释者是谁?[N/A]
没有进行匿名化处理。
我们希望该语料库有助于加泰罗尼亚语(一种低资源语言)的语言模型开发。
我们意识到由于数据来自于不可靠的网页和多语言的爬取语料库,数据集中可能存在一些偏见。尽管如此,我们没有采取任何措施来减少它们的影响。
[N/A]
Barcelona Supercomputing Center( bsc-temu@bsc.es )的文本挖掘单元(TeMU)
这项工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 在 Projecte AINA 框架下资助。
Creative Commons Attribution Share Alike 4.0 International 。
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", eprint={2107.07903}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢 @albertvillanova 添加了该数据集。