数据集:
BSC-LT/ancora-ca-ner
语言:
ca如果您在您的工作中使用了这些资源(数据集或模型),请引用我们的最新论文:
@inproceedings{armengol-estape-etal-2021-multilingual, title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan", author = "Armengol-Estap{\'e}, Jordi and Carrino, Casimiro Pio and Rodriguez-Penagos, Carlos and de Gibert Bonet, Ona and Armentano-Oller, Carme and Gonzalez-Agirre, Aitor and Melero, Maite and Villegas, Marta", booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021", month = aug, year = "2021", address = "Online", publisher = "Association for Computational Linguistics", url = "https://aclanthology.org/2021.findings-acl.437", doi = "10.18653/v1/2021.findings-acl.437", pages = "4933--4946", }
https://doi.org/10.5281/zenodo.4529299
这是为了机器学习和语言模型评估目的而从 Ancora corpus 调整的命名实体识别(NER)数据集。
由于原始Ancora语料库中的复合词(包括命名实体)被合并为单个词汇项,使用下划线(例如"Ajuntament_de_Barcelona"),我们将它们分割以与每行一个词的格式对齐,并添加常规 Begin-Inside-Outside (IOB) tags 来标记和分类命名实体。我们没有从Ancora中过滤出不同的NE类别(弱和强)。我们进行了6次手动编辑。
AnCora语料库采用[CC-by]( https://creativecommons.org/licenses/by/4.0/ )许可证。
该数据集是BSC TeMU作为AINA项目的一部分开发的,并用于丰富Catalan Language Understanding Benchmark(CLUB)。
命名实体识别,语言模型
CA- Catalan
三个双列文件,每个拆分一个文件。
每个文件有两列,第一列是单词形式或标点符号,第二列是相应的IOB标签。
Fundació B-ORG Privada I-ORG Fira I-ORG de I-ORG Manresa I-ORG ha O fet O un O balanç O de O l' O activitat O del O Palau B-LOC Firal I-LOC
每个子数据集拆分为训练、评估和测试。
我们将Ancora语料库的NER标签调整为每个词一行的格式。由于原始Ancora语料库中的复合词被合并为单个词汇项,使用下划线(例如"Ajuntament_de_Barcelona"),我们将它们分割以与这种格式对齐,并添加常规 Begin-Inside-Outside (IOB) tags 来标记和分类命名实体。我们没有从Ancora中过滤出不同的NE类别(弱和强)。我们进行了6次手动编辑。
AnCora由加泰罗尼亚语语料库(AnCora-CA)和西班牙语语料库(AnCora-ES)组成,每个语料库都有500,000个标记(一些是多词)。这些语料库在不同层次上对语言现象进行了注释。AnCora语料库主要基于新闻稿件。更多信息,请参阅Taulé, M., M.A. Martí, M. Recasens(2009)。“AnCora: Multilevel Annotated Corpora for Catalan and Spanish”,第六届语言资源和评估国际会议论文集。 http://www.lrec-conf.org/proceedings/lrec2008/pdf/35_paper.pdf
谁是源语言制作人?加泰罗尼亚语Ancora语料库编译自以下新闻媒体的文章: EFE , ACN , El Periodico 。
我们将Ancora语料库的NER标签调整为每个词一行,多列的格式。
谁是标注者?Ancora语料库的原始注释者。
Carlos Rodríguez和Carme Armentano,来自BSC-CNS,进行了转换和策划。
不包含个人或敏感信息。
[需要更多信息]
[需要更多信息]
[需要更多信息]
Carlos Rodríguez-Penagos或Carme Armentano-Oller( bsc-temu@bsc.es )
This work is licensed under a Attribution 4.0 International License .