数据集:

BSC-LT/tecla

语言:

ca
英文

TeCla(文本分类)加泰罗尼亚语数据集

BibTeX引用

如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

Digital Object Identifier(DOI)和数据集文件访问权限

https://doi.org/10.5281/zenodo.4627198

简介

TeCla是用于主题文本分类任务的加泰罗尼亚语新闻语料库。它包含了153,265篇文章,分为30个不同的分类。

源数据是从ACN(加泰罗尼亚通讯社)网站爬取的:[ http://www.acn.cat] ],并在CC-BY-NC-ND 4.0许可下使用。数据集也以相同的许可发布,仅用于训练机器学习模型。

这个数据集是BSC TeMU作为AINA项目的一部分开发的,并作为CLUB(加泰罗尼亚语理解基准)的一部分。它是在以下论文中作为加泰罗尼亚语理解基准(CLUB)的一部分展示的:

Armengol-Estapé J., Carrino CP., Rodriguez-Penagos C., de Gibert Bonet O., Armentano-Oller C., Gonzalez-Agirre A., Melero M.和Villegas M.,“Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan”。ACL 2021发现(ACL-IJCNLP 2021)。

支持的任务和排行榜

文本分类,语言模型

语言

加泰罗尼亚语(CA)

目录结构

  • .gitattributes
  • README.md
  • dev.json-带有数据集开发拆分的json格式文件
  • tecla.py
  • test.json-带有数据集测试拆分的json格式文件
  • train.json-带有数据集训练拆分的json格式文件

数据集结构

数据实例

三个json文件,每个拆分一个。

数据字段

我们使用了一个简单的模型,包括文章文本和相关标签,没有其他元数据。

示例:

{"version": "1.0",
 "data":
   [
    {
     'sentence': 'L\\\\'editorial valenciana Media Vaca, Premi Nacional a la Millor Tasca Editorial Cultural del 2018. El jurat en destaca la cura "exquisida" del catàleg, la qualitat dels llibres i el "respecte" pels lectors. ACN Madrid.-L\\\\'editorial valenciana Media Vaca ha obtingut el Premi Nacional a la Millor Labor Editorial Cultural corresponent a l\\\\'any 2018 que atorga el Ministeri de Cultura i Esports. El guardó pretén distingir la tasca editorial d\\\\'una persona física o jurídica que hagi destacat per l\\\\'aportació a la vida cultural espanyola. El premi és de caràcter honorífic i no té dotació econòmica. En el cas de Media Vaca, fundada pel valencià Vicente Ferrer i la bilbaïna Begoña Lobo, el jurat n\\\\'ha destacat la cura "exquisida" del catàleg, la qualitat dels llibres i el "respecte" pels lectors i per la resta d\\\\'agents de la cadena del llibre. Media Vaca va publicar els primers llibres el desembre del 1998. El catàleg actual el componen 64 títols dividits en sis col·leccions, que barregen ficció i no ficció. Des del Ministeri de Cultura es destaca que la il·lustració té un pes "fonamental" als productes de l\\\\'editorial i que la majoria de projectes solen partir de propostes literàries i textos preexistents. L\\\\'editorial ha rebut quatre vegades el Bologna Ragazzi Award. És l\\\\'única editorial estatal que ha aconseguit el guardó que atorga la Fira del Llibre per a Nens de Bolonya, la més important del sector.', 
    'label': 'Lletres'
    },
    .
    .
    .
  ]
}


数据拆分

  • train.json:122,587个文章-标签对
  • dev.json:15,339个文章-标签对
  • test.json:15,339个文章-标签对

标签

'Societat','Política','Turisme','Salut','Economia','Successos','Partits','Educació','Policial','Medi ambient','Parlament','Empresa','Judicial','Unió Europea','Comerç','Cultura','Cinema','Govern','Lletres','Infraestructures','Música','Festa i cultura popular','Teatre','Mobilitat','Govern espanyol','Equipaments i patrimoni','Meteorologia','Treball','Trànsit','Món'

数据集中按频率排列的标签

train.json:122,587篇文章

Label Num art % art
Societat 24975 20.37%
Política 18344 14.96%
Partits 10056 8.2%
Successos 7874 6.42%
Judicial 5788 4.72%
Policial 5557 4.53%
Salut 5430 4.43%
Economia 5032 4.1%
Parlament 4176 3.41%
Medi_ambient 3027 2.47%
Música 2872 2.34%
Educació 2757 2.25%
Empresa 2698 2.2%
Cultura 2495 2.04%
Unió_Europea 2064 1.68%
Govern 2039 1.66%
Infraestructures 1740 1.42%
Treball 1655 1.35%
Mobilitat 1624 1.32%
Cinema 1560 1.27%
Teatre 1492 1.22%
Turisme 1232 1.01%
Equipaments_i_patrimoni 1229 1.0%
Lletres 1180 0.96%
Meteorologia 1080 0.88%
Comerç 984 0.8%
Govern_espanyol 983 0.8%
Món 893 0.73%
Festa_i_cultura_popular 888 0.72%
Trànsit 863 0.7%

dev.json和test.json:每个拆分15,3265篇文章

Label Num art % art
Societat 3122 20.35%
Política 2294 14.96%
Partits 1257 8.19%
Successos 985 6.42%
Judicial 724 4.72%
Policial 695 4.53%
Salut 679 4.43%
Economia 630 4.11%
Parlament 523 3.41%
Medi_ambient 379 2.47%
Música 359 2.34%
Educació 345 2.25%
Empresa 338 2.2%
Cultura 312 2.03%
Unió_Europea 258 1.68%
Govern 256 1.67%
Infraestructures 218 1.42%
Treball 208 1.36%
Mobilitat 204 1.33%
Cinema 195 1.27%
Teatre 187 1.22%
Turisme 154 1.0%
Equipaments_i_patrimoni 154 1.0%
Lletres 148 0.96%
Meteorologia 135 0.88%
Govern_espanyol 124 0.81%
Comerç 123 0.8%
Festa_i_cultura_popular 112 0.73%
Món 112 0.73%
Trànsit 109 0.71%

数据集创建

方法论

我们从加泰罗尼亚通讯社( www.acn.cat )的新闻文本档案中爬取了219,586篇文章,最新的日期是2020年10月11日。我们将“subsection”类别用作分类标签,并排除了地域标签(参见territorial_labels.txt文件)和出现次数少于2000次的标签。按照这个标准,我们为这个文本分类数据集编制了总共153,265篇文章。

策 curator

我们将“subsection”类别用作分类标签,并排除了地域标签(参见territorial_labels.txt文件)和出现次数少于2000次的标签。

源数据

初始数据收集和规范化

源数据是从ACN(加泰罗尼亚通讯社)网站爬取的文章: www.acn.cat

谁是原始语言的生产者?

加泰罗尼亚通讯社(简称CNA,加泰罗尼亚语:Agència Catalana de Notícies(ACN))是通过公共公司Intracatalònia,SA由加泰罗尼亚政府拥有的通讯社之一。它是欧洲最早创建的数字新闻机构之一,自1999年以来一直运营(来源:[ https://en.wikipedia.org/wiki/Catalan_News_Agency] ])

注释

注释过程

我们将“subsection”类别用作分类标签,并排除了地域标签(参见territorial_labels.txt文件)和出现次数少于2000次的标签。

谁是注释者?

编写小组将文章分类到不同的主题部分,我们从元数据中提取了这些分类。

数据集策 curators

Casimiro Pio Carrino,Carlos Rodríguez和Carme Armentano,来自BSC-CNS

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

联系方式

Carlos Rodríguez-Penagos或Carme Armentano-Oller(bsc-temu@bsc.es)

许可证

这项工作受到 Attribution-NonCommercial-NoDerivatives 4.0 International License 的许可。