数据集:
projecte-aina/catalan_government_crawling
任务:
填充掩码语言:
ca计算机处理:
monolingual大小:
10K<n<100K语言创建人:
found批注创建人:
no-annotation源数据集:
original预印本库:
arxiv:2107.07903许可:
cc0-1.0加泰罗尼亚政府爬虫数据集是一个来自网络的,包含3900万个加泰罗尼亚文本的语料库。该语料库是通过在2020年9月和10月期间对加泰罗尼亚政府的.gencat域名和子域名进行爬取获得的。它包含39117909个单词,1565433个句子和71043个文档。文档之间以单个换行符分隔。它是加泰罗尼亚文本语料库的一个子集。
此语料库主要用于预训练语言模型和词汇表示。
该数据集为加泰罗尼亚语(ca-CA)。
{ 'text': 'Títol: Estudi de tres marededéus del bisbat de Solsona\nResponsables del projecte: Pep Paret conservador–restaurador de l\'Àrea de Pintura i Escultura sobre fusta del CRBMC\nL\'objecte d\'aquest est udi és un millor coneixement de l\'estat de conservació del patrimoni moble català, en concret de tres escultures romàniques del bisbat de Solsona.\nEs du a terme un estudi científic de tres marededéus del bisb at de Solsona: la Mare de Déu de Queralt, la Mare de Déu de Coaner i la Mare de Déu de la Quar.\nLes imatges originals són romàniques, però totes elles han patit modificacions estructurals...' }
该数据集包含一个拆分:train。
我们创建了这个语料库,以促进加泰罗尼亚语这种资源稀缺语言的语言模型的发展。
该语料库是通过在2020年7月期间对所有.gencat.cat域名进行爬取获得的。我们使用了名为 Corpus-Cleaner 的Python工具包对原始文本语料进行预处理,以进行模块化处理。
谁是源语言的生产者?数据来自官方的加泰罗尼亚政府网站。
该数据集未经过注释。
注释过程[N/A]
谁是注释者?[N/A]
由于所有数据来自公开网站,因此没有执行任何匿名化处理。
我们希望这个语料库为加泰罗尼亚语这种资源稀缺语言的语言模型的发展做出贡献。
我们知道,由于数据来自公共网页,数据集中可能存在一些偏见。不过,我们未采取任何措施来减少它们的影响。
[N/A]
巴塞罗那超级计算中心(Text Mining Unit, TeMU) (bsc-temu@bsc.es)
这项工作由[ Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya ]资助,旨在实现[ Projecte AINA ]。
[ Creative Commons CC0 1.0 Universal ]。
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", eprint={2107.07903}, archivePrefix={arXiv}, primaryClass={cs.CL} }
感谢[ @albertvillanova ]添加了这个数据集。