数据集:

projecte-aina/catalan_general_crawling

语言:

ca

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

no-annotation

源数据集:

original

预印本库:

arxiv:2107.07903

许可:

cc-by-4.0
英文

针对加泰罗尼亚通用抓取的数据集卡片

数据集摘要

加泰罗尼亚通用抓取语料库是一个由网络构建的包含4.35亿个加泰罗尼亚语标记的语料库。它是通过在2020年7月期间抓取500个最受欢迎的.cat和.ad域名而获得的。它包括4,348,177,705个标记、19,451,691个句子和1,016,114个文件。文件之间由单个新行分隔。这是加泰罗尼亚语文本语料库的子语料库。

支持的任务和排行榜

此语料库主要用于预训练语言模型和词表示。

语言

数据集为加泰罗尼亚语(ca-CA)。

数据集结构

数据示例

{
  'text': 'Reduïu els costos dels processos administratius al vostre organisme públic\nEviteu els desplaçaments i pèrdua de temps als ciutadans en les seves gestions\nOferiu una administració més transparent a
 ciutadans i empreses\nEns grans i petits experimenten aquesta transformació amb èxit, gràcies al suport de l\'AOC\nDepartament de Sistemes d\'Informació i Processos\n" Via Oberta ens ha permès fer efectiu el d
ret dels ciutadans a no aportar documents, eliminant paper i simplificant procediments"\n" e.FACT proporciona informació indispensable per a la realització de les auditories del registre comptable de factures d
e les Administracions Públiques Catalanes"\nCoordinador del departament d\'Informàtica\n"El servei VIA OBERTA és el que ha aportat majors avantatges per als ciutadans"\n"Amb l\' e-NOTUM hem escurçat els procedi
ments en 12 dies, quasi un 40% menys!"\nCoordinadora d\'organització de persones i e-administració\n" Via Oberta ofereix millores per als ciutadans al no haver d\'aportar cap document"\nResponsable d\'Informàti
ca i Administració Electrònica\n" e-TRAM ens ha permès implantar un servei de tramitació electrònica per als ciutadans de forma ràpida, senzilla i amb un cost reduït"\n"Els municipis amb pocs habitants trobem e
n els serveis de l\'AOC la gratuïtat i la comoditat necessàries per dur a terme el nostre dia a dia"\n"Les T-CAT han permès incorporar de forma segura la signatura electrònica dins dels nostres procediments afa
vorint la transformació digital de la nostra activitat"\nCap de Departament de Sistemes i Tecnologies de la Informació\n"Amb el desplegament de l\' idCAT hem apropat l\'Ajuntament a la ciutadania"\n"Mitjançant
els serveis de Govern Obert de l\'AOC hem pogut fer fàcil el que sembla difícil"\n"Al tauler electrònic pots penjar fins i tot el projecte sencer i al final et permet fer també la diligència"\nÀrea de Promoció
Econòmica, Administració i Hisenda\n"El Sobre Digital i la PSCP han aconseguit una comunió senzilla entre empreses i administració per universalitzar la compra pública electrònica"\n"L\' e-SET és la implantació
 d\'un nou sistema de treball que facilita la feina del dia a dia"\nCap del servei de contractació i compres\n"El Sobre Digital, una experiència imprescindible per a la bona administració amb estalvi de recurso
s i millora de la seguretat jurídica i la transparència"\nÀrea d\'Organització i Administració Electrònica\n"El desplegament de la valisa electrònica ha estat clau en el procés de transformació digital dels nos
tres procediments interns"\n"L\' Hèstia permet el treball en temps real i des de qualsevol lloc, així com sistematitzar la pràctica professional, recollir la informació ordenadament i amb el mateix llenguatge"\
nConsulta els materials del Congrés de Govern Digital 2019\nGoverns transparents, fluids, dinàmics, líquids... un bon lema pel principal objectiu de la governança del segle XXI: democratitzar-ho tot.\nConfluènc
ies, rius, cooperació.\nCatalunya, Mediterrània, mar de drets.\nA favor: totes les Administracions movent-se per posar-se al dia i millorar, tot aprofitant la revolució digital.\nEn contra: quants cops estem re
inventant la roda i quantes quantes oportunitats perdudes de fer-ho una única vegada i de forma coordinada i col·laborativa?\n"La transparència és una oportunitat.\nHem de perdre tota por a explicar què fem": l
a conclusió de la taula d\'alcaldies de la Jornada de Govern Obert pic.twitter.com/ERbgLSIXZM\nEl director general de Participació Ciutadana ens convida a transformar les administracions públiques a partir de l
a participació ciutadana\nEns cal que allò que preocupa i ocupa els governants formi part d\'allò en què participa la ciutadania pic.twitter.com/NwQr4EZSCS: "A moltes institucions encara els sona xinés això de
les dades obertes i la transparència.\nDe que serveix que hi hagi un portal, si llavors no hi ha dades?\nLlavors l\'accés a la informació pels periodistes és molt parcial".\nOferim eines que, conjuntament amb l
a metodologia i el suport necessari, fan possible l\'assoliment d\'un govern digital\nPosem al vostre abast tot el coneixement: formació, guies, normatives, etc.\nTenim eines per gestionar àgilment part del pro
cés administratiu del vostre ens\nEl nostre equip farà tot el possible per resoldre les vostres incidències\nSabem que es tracta d\'una decisió molt important per al vostre ens i és per això que us ho volem pos
ar fàcil.\nLa selecció de l\'actualitat d\'Administració Oberta a la vostra safata.'
}

数据字段

  • text(str):文本。

数据的划分

数据集包含一个划分:训练集。

数据集创建

策划理由

我们创建了这个语料库,为加泰罗尼亚语这种资源稀缺语言的语言模型的开发做出贡献。

源数据

初始数据收集和规范化

该语料库是通过在2020年7月期间爬取500个最受欢迎的.cat和.ad域名获得的。我们使用了一个名为 Corpus-Cleaner 的基于Python的模块化工具包,通过生成器流水线清理原始文本语料库。

谁是源语言生产者?

数据来自多个加泰罗尼亚语网页。

注释

该数据集未经注释。

注释流程

[无]

谁是注释者?

[无]

个人和敏感信息

由于所有数据均来自公共网站,因此没有进行任何匿名化处理。

使用数据的注意事项

数据的社会影响

我们希望这个语料库对加泰罗尼亚语这种资源稀缺语言的语言模型的开发有所贡献。

偏见讨论

我们意识到,由于数据来自不可靠的网页,数据集中可能存在一些偏见。尽管如此,我们没有采取任何措施来减少它们的影响。

其他已知限制

[无]

其他信息

数据集策划者

巴塞罗那超级计算中心(BSC)文本挖掘单元(TeMU)(bsc-temu@bsc.es)

这项工作由 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya Projecte AINA 框架内资助。

许可信息

Creative Commons Attribution 4.0 International

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
    eprint={2107.07903},
    archivePrefix={arXiv},
    primaryClass={cs.CL}
}

贡献

感谢 @albertvillanova 添加了这个数据集。