数据集:
BSC-LT/tecla
语言:
ca如果您在工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
https://doi.org/10.5281/zenodo.4627198
TeCla是用于主题文本分类任务的加泰罗尼亚语新闻语料库。它包含了153,265篇文章,分为30个不同的分类。
源数据是从ACN(加泰罗尼亚通讯社)网站爬取的:[ http://www.acn.cat] ],并在CC-BY-NC-ND 4.0许可下使用。数据集也以相同的许可发布,仅用于训练机器学习模型。
这个数据集是BSC TeMU作为AINA项目的一部分开发的,并作为CLUB(加泰罗尼亚语理解基准)的一部分。它是在以下论文中作为加泰罗尼亚语理解基准(CLUB)的一部分展示的:
Armengol-Estapé J., Carrino CP., Rodriguez-Penagos C., de Gibert Bonet O., Armentano-Oller C., Gonzalez-Agirre A., Melero M.和Villegas M.,“Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? A Comprehensive Assessment for Catalan”。ACL 2021发现(ACL-IJCNLP 2021)。
文本分类,语言模型
加泰罗尼亚语(CA)
三个json文件,每个拆分一个。
我们使用了一个简单的模型,包括文章文本和相关标签,没有其他元数据。
{"version": "1.0", "data": [ { 'sentence': 'L\\\\'editorial valenciana Media Vaca, Premi Nacional a la Millor Tasca Editorial Cultural del 2018. El jurat en destaca la cura "exquisida" del catàleg, la qualitat dels llibres i el "respecte" pels lectors. ACN Madrid.-L\\\\'editorial valenciana Media Vaca ha obtingut el Premi Nacional a la Millor Labor Editorial Cultural corresponent a l\\\\'any 2018 que atorga el Ministeri de Cultura i Esports. El guardó pretén distingir la tasca editorial d\\\\'una persona física o jurídica que hagi destacat per l\\\\'aportació a la vida cultural espanyola. El premi és de caràcter honorífic i no té dotació econòmica. En el cas de Media Vaca, fundada pel valencià Vicente Ferrer i la bilbaïna Begoña Lobo, el jurat n\\\\'ha destacat la cura "exquisida" del catàleg, la qualitat dels llibres i el "respecte" pels lectors i per la resta d\\\\'agents de la cadena del llibre. Media Vaca va publicar els primers llibres el desembre del 1998. El catàleg actual el componen 64 títols dividits en sis col·leccions, que barregen ficció i no ficció. Des del Ministeri de Cultura es destaca que la il·lustració té un pes "fonamental" als productes de l\\\\'editorial i que la majoria de projectes solen partir de propostes literàries i textos preexistents. L\\\\'editorial ha rebut quatre vegades el Bologna Ragazzi Award. És l\\\\'única editorial estatal que ha aconseguit el guardó que atorga la Fira del Llibre per a Nens de Bolonya, la més important del sector.', 'label': 'Lletres' }, . . . ] }
'Societat','Política','Turisme','Salut','Economia','Successos','Partits','Educació','Policial','Medi ambient','Parlament','Empresa','Judicial','Unió Europea','Comerç','Cultura','Cinema','Govern','Lletres','Infraestructures','Música','Festa i cultura popular','Teatre','Mobilitat','Govern espanyol','Equipaments i patrimoni','Meteorologia','Treball','Trànsit','Món'
train.json:122,587篇文章
Label | Num art | % art |
---|---|---|
Societat | 24975 | 20.37% |
Política | 18344 | 14.96% |
Partits | 10056 | 8.2% |
Successos | 7874 | 6.42% |
Judicial | 5788 | 4.72% |
Policial | 5557 | 4.53% |
Salut | 5430 | 4.43% |
Economia | 5032 | 4.1% |
Parlament | 4176 | 3.41% |
Medi_ambient | 3027 | 2.47% |
Música | 2872 | 2.34% |
Educació | 2757 | 2.25% |
Empresa | 2698 | 2.2% |
Cultura | 2495 | 2.04% |
Unió_Europea | 2064 | 1.68% |
Govern | 2039 | 1.66% |
Infraestructures | 1740 | 1.42% |
Treball | 1655 | 1.35% |
Mobilitat | 1624 | 1.32% |
Cinema | 1560 | 1.27% |
Teatre | 1492 | 1.22% |
Turisme | 1232 | 1.01% |
Equipaments_i_patrimoni | 1229 | 1.0% |
Lletres | 1180 | 0.96% |
Meteorologia | 1080 | 0.88% |
Comerç | 984 | 0.8% |
Govern_espanyol | 983 | 0.8% |
Món | 893 | 0.73% |
Festa_i_cultura_popular | 888 | 0.72% |
Trànsit | 863 | 0.7% |
dev.json和test.json:每个拆分15,3265篇文章
Label | Num art | % art |
---|---|---|
Societat | 3122 | 20.35% |
Política | 2294 | 14.96% |
Partits | 1257 | 8.19% |
Successos | 985 | 6.42% |
Judicial | 724 | 4.72% |
Policial | 695 | 4.53% |
Salut | 679 | 4.43% |
Economia | 630 | 4.11% |
Parlament | 523 | 3.41% |
Medi_ambient | 379 | 2.47% |
Música | 359 | 2.34% |
Educació | 345 | 2.25% |
Empresa | 338 | 2.2% |
Cultura | 312 | 2.03% |
Unió_Europea | 258 | 1.68% |
Govern | 256 | 1.67% |
Infraestructures | 218 | 1.42% |
Treball | 208 | 1.36% |
Mobilitat | 204 | 1.33% |
Cinema | 195 | 1.27% |
Teatre | 187 | 1.22% |
Turisme | 154 | 1.0% |
Equipaments_i_patrimoni | 154 | 1.0% |
Lletres | 148 | 0.96% |
Meteorologia | 135 | 0.88% |
Govern_espanyol | 124 | 0.81% |
Comerç | 123 | 0.8% |
Festa_i_cultura_popular | 112 | 0.73% |
Món | 112 | 0.73% |
Trànsit | 109 | 0.71% |
我们从加泰罗尼亚通讯社( www.acn.cat )的新闻文本档案中爬取了219,586篇文章,最新的日期是2020年10月11日。我们将“subsection”类别用作分类标签,并排除了地域标签(参见territorial_labels.txt文件)和出现次数少于2000次的标签。按照这个标准,我们为这个文本分类数据集编制了总共153,265篇文章。
我们将“subsection”类别用作分类标签,并排除了地域标签(参见territorial_labels.txt文件)和出现次数少于2000次的标签。
源数据是从ACN(加泰罗尼亚通讯社)网站爬取的文章: www.acn.cat
谁是原始语言的生产者?加泰罗尼亚通讯社(简称CNA,加泰罗尼亚语:Agència Catalana de Notícies(ACN))是通过公共公司Intracatalònia,SA由加泰罗尼亚政府拥有的通讯社之一。它是欧洲最早创建的数字新闻机构之一,自1999年以来一直运营(来源:[ https://en.wikipedia.org/wiki/Catalan_News_Agency] ])
我们将“subsection”类别用作分类标签,并排除了地域标签(参见territorial_labels.txt文件)和出现次数少于2000次的标签。
谁是注释者?编写小组将文章分类到不同的主题部分,我们从元数据中提取了这些分类。
Casimiro Pio Carrino,Carlos Rodríguez和Carme Armentano,来自BSC-CNS
不包含个人或敏感信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
Carlos Rodríguez-Penagos或Carme Armentano-Oller(bsc-temu@bsc.es)
这项工作受到 Attribution-NonCommercial-NoDerivatives 4.0 International License 的许可。