数据集:
projecte-aina/ancora-ca-ner
这是一个用于加泰罗尼亚语(Catalan)命名实体识别(NER)的数据集。它为机器学习和语言模型评估目的改编了 AnCora corpus 数据集。
此数据集在 CC-by 许可下使用 AnCora corpus 。
此数据集是由 BSC TeMU 开发的,作为 Projecte AINA 中的一部分,以丰富 Catalan Language Understanding Benchmark (CLUB) 。
命名实体识别,语言模型
数据集为加泰罗尼亚语(ca-CA)。
三个双列文件,每个文件对应一个拆分。
Fundació B-ORG Privada I-ORG Fira I-ORG de I-ORG Manresa I-ORG ha O fet O un O balanç O de O l' O activitat O del O Palau B-LOC Firal I-LOC
每个文件都有两列,第一列是单词形式或标点符号,第二列是相应的IOB标签。
我们采用了原始的训练、验证和测试拆分,其中来自 UD version of the corpus
我们创建此语料库,以促进加泰罗尼亚语(一种资源稀缺的语言)语言模型的开发。
AnCora 包括加泰罗尼亚语语料库(AnCora-CA)和西班牙语语料库(AnCora-ES),每个语料库包含500,000个标记(包括一些多词)。这些语料库通过不同级别的语言现象进行了标注。AnCora 语料库主要基于新闻文本。有关更多信息,请参阅 Taulé, M., M.A. Martí, M. Recasens(2009年)的 "AnCora: Multilevel Annotated Corpora for Catalan and Spanish” ,第6届国际语言资源与评估会议论文集。
谁是源语言的生产者?加泰罗尼亚语 AnCora corpus 编译自以下新闻媒体的文章: EFE , ACN , El Periodico 。
我们将 NER 标签从 AnCora corpus 改编为每行一个标记的多列格式。
谁是标注者?AnCora corpus 的原始注释者。
不包含个人或敏感信息。
我们希望这个语料库能够促进加泰罗尼亚语语言模型的发展,加泰罗尼亚语是一种资源稀缺的语言。
[N/A]
[N/A]
文本挖掘单元(TeMU)位于巴塞罗那超级计算中心( bsc-temu@bsc.es)
该工作得到 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 的资助,属于 Projecte AINA 框架内的一部分。
本作品根据 Attribution 4.0 International License 许可。
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
[N/A]