数据集:

projecte-aina/catalan_textual_corpus

语言:

ca

计算机处理:

monolingual

大小:

10M<n<100M

语言创建人:

found

批注创建人:

no-annotation

预印本库:

arxiv:2107.07903
英文

Catalan Textual Corpus 数据集卡片

数据集概述

Catalan Textual Corpus 是一个包含17.6亿个加泰罗尼亚语文本的网络语料库,来源于多个来源。

该语料库包含1,758,389,896个标记、73,172,152个句子和12,556,365个文档。文档间由单个换行符分隔,只要许可证允许,这些边界将被保留。

支持的任务和排行榜

该语料库主要用于预训练语言模型和词向量。

语言

该数据集为加泰罗尼亚语( ca-CA )。

数据集结构

数据实例

{'text': "L'operatiu continuarà durant aquest divendres."}

数据字段

  • text(str):文本。

数据划分

该数据集包含一个划分:train。

数据集创建

策划理由

我们创建了该语料库来为加泰罗尼亚语(一种低资源语言)的语言模型开发做出贡献。

源数据

初始数据收集和规范化

Catalan Textual Corpus 是一个由多个来源构建的、包含17.6亿个加泰罗尼亚语网络语料库:包括现有的语料库(如DOGC、CaWac(非去重版本)、Oscar(未打乱版本)、Open Subtitles、加泰罗尼亚维基百科)以及三个全新的爬取数据:加泰罗尼亚通用爬取,通过抓取500个最流行的.cat和.ad域;加泰罗尼亚政府爬取,通过抓取属于加泰罗尼亚政府的.gencat域和子域;以及ACN语料库,从加泰罗尼亚通讯社爬取了22万条从2015年3月到2020年10月的新闻。文本预处理时使用了 Corpus-Cleaner ,这是一个基于Python的模块化工具包,通过生成器管道清理原始文本语料库。

谁是源语言生成者?

原始数据来自于各种来源:现有的语料库和公共网站的爬取语料。

注释

该数据集没有进行注释。

注释过程

[N/A]

注释者是谁?

[N/A]

个人和敏感信息

没有进行匿名化处理。

使用数据的注意事项

数据的社会影响

我们希望该语料库有助于加泰罗尼亚语(一种低资源语言)的语言模型开发。

偏见讨论

我们意识到由于数据来自于不可靠的网页和多语言的爬取语料库,数据集中可能存在一些偏见。尽管如此,我们没有采取任何措施来减少它们的影响。

其他已知限制

[N/A]

其他信息

数据集策划者

Barcelona Supercomputing Center( bsc-temu@bsc.es )的文本挖掘单元(TeMU)

这项工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya Projecte AINA 框架下资助。

许可信息

Creative Commons Attribution Share Alike 4.0 International

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
    eprint={2107.07903},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢 @albertvillanova 添加了该数据集。