数据集:

projecte-aina/catalan_government_crawling

语言:

ca

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:2107.07903

许可:

cc0-1.0
英文

加泰罗尼亚政府爬虫数据集卡片

数据集摘要

加泰罗尼亚政府爬虫数据集是一个来自网络的,包含3900万个加泰罗尼亚文本的语料库。该语料库是通过在2020年9月和10月期间对加泰罗尼亚政府的.gencat域名和子域名进行爬取获得的。它包含39117909个单词,1565433个句子和71043个文档。文档之间以单个换行符分隔。它是加泰罗尼亚文本语料库的一个子集。

支持的任务和排行榜

此语料库主要用于预训练语言模型和词汇表示。

语言

该数据集为加泰罗尼亚语(ca-CA)。

数据集结构

数据实例

{
  'text': 'Títol: Estudi de tres marededéus del bisbat de Solsona\nResponsables del projecte: Pep Paret conservador–restaurador de l\'Àrea de Pintura i Escultura sobre fusta del CRBMC\nL\'objecte d\'aquest est
udi és un millor coneixement de l\'estat de conservació del patrimoni moble català, en concret de tres escultures romàniques del bisbat de Solsona.\nEs du a terme un estudi científic de tres marededéus del bisb
at de Solsona: la Mare de Déu de Queralt, la Mare de Déu de Coaner i la Mare de Déu de la Quar.\nLes imatges originals són romàniques, però totes elles han patit modificacions estructurals...'
}

数据字段

  • text(str):文本。

数据拆分

该数据集包含一个拆分:train。

数据集创建

策划原因

我们创建了这个语料库,以促进加泰罗尼亚语这种资源稀缺语言的语言模型的发展。

源数据

初始数据采集和规范化

该语料库是通过在2020年7月期间对所有.gencat.cat域名进行爬取获得的。我们使用了名为 Corpus-Cleaner 的Python工具包对原始文本语料进行预处理,以进行模块化处理。

谁是源语言的生产者?

数据来自官方的加泰罗尼亚政府网站。

注释

该数据集未经过注释。

注释过程

[N/A]

谁是注释者?

[N/A]

个人和敏感信息

由于所有数据来自公开网站,因此没有执行任何匿名化处理。

使用数据的考虑事项

数据的社会影响

我们希望这个语料库为加泰罗尼亚语这种资源稀缺语言的语言模型的发展做出贡献。

偏见讨论

我们知道,由于数据来自公共网页,数据集中可能存在一些偏见。不过,我们未采取任何措施来减少它们的影响。

其他已知限制

[N/A]

其他信息

数据集策划者

巴塞罗那超级计算中心(Text Mining Unit, TeMU) (bsc-temu@bsc.es)

这项工作由[ Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya ]资助,旨在实现[ Projecte AINA ]。

许可信息

[ Creative Commons CC0 1.0 Universal ]。

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
    eprint={2107.07903},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢[ @albertvillanova ]添加了这个数据集。