数据集:

BSC-LT/ancora-ca-ner

语言:

ca
英文

从Ancora语料库中提取命名实体

BibTeX 引用

如果您在您的工作中使用了这些资源(数据集或模型),请引用我们的最新论文:

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

数字对象标识符(DOI)和获取数据集文件的方式

https://doi.org/10.5281/zenodo.4529299

简介

这是为了机器学习和语言模型评估目的而从 Ancora corpus 调整的命名实体识别(NER)数据集。

由于原始Ancora语料库中的复合词(包括命名实体)被合并为单个词汇项,使用下划线(例如"Ajuntament_de_Barcelona"),我们将它们分割以与每行一个词的格式对齐,并添加常规 Begin-Inside-Outside (IOB) tags 来标记和分类命名实体。我们没有从Ancora中过滤出不同的NE类别(弱和强)。我们进行了6次手动编辑。

AnCora语料库采用[CC-by]( https://creativecommons.org/licenses/by/4.0/ )许可证。

该数据集是BSC TeMU作为AINA项目的一部分开发的,并用于丰富Catalan Language Understanding Benchmark(CLUB)。

支持的任务和排行榜

命名实体识别,语言模型

语言

CA- Catalan

目录结构

  • dev.txt
  • test.txt
  • train.txt

数据集结构

数据实例

三个双列文件,每个拆分一个文件。

数据字段

每个文件有两列,第一列是单词形式或标点符号,第二列是相应的IOB标签。

示例:

    Fundació B-ORG
    Privada I-ORG
    Fira I-ORG
    de I-ORG
    Manresa I-ORG
    ha O
    fet O
    un O
    balanç O
    de O
    l' O
    activitat O
    del O
    Palau B-LOC
    Firal I-LOC

数据拆分

每个子数据集拆分为训练、评估和测试。

数据集创建

方法论

我们将Ancora语料库的NER标签调整为每个词一行的格式。由于原始Ancora语料库中的复合词被合并为单个词汇项,使用下划线(例如"Ajuntament_de_Barcelona"),我们将它们分割以与这种格式对齐,并添加常规 Begin-Inside-Outside (IOB) tags 来标记和分类命名实体。我们没有从Ancora中过滤出不同的NE类别(弱和强)。我们进行了6次手动编辑。

策划原理

源数据

初始数据收集和规范化

AnCora由加泰罗尼亚语语料库(AnCora-CA)和西班牙语语料库(AnCora-ES)组成,每个语料库都有500,000个标记(一些是多词)。这些语料库在不同层次上对语言现象进行了注释。AnCora语料库主要基于新闻稿件。更多信息,请参阅Taulé, M., M.A. Martí, M. Recasens(2009)。“AnCora: Multilevel Annotated Corpora for Catalan and Spanish”,第六届语言资源和评估国际会议论文集。 http://www.lrec-conf.org/proceedings/lrec2008/pdf/35_paper.pdf

谁是源语言制作人?

加泰罗尼亚语Ancora语料库编译自以下新闻媒体的文章: EFE , ACN , El Periodico

注释

注释过程

我们将Ancora语料库的NER标签调整为每个词一行,多列的格式。

谁是标注者?

Ancora语料库的原始注释者。

数据集策划者

Carlos Rodríguez和Carme Armentano,来自BSC-CNS,进行了转换和策划。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

联系方式

Carlos Rodríguez-Penagos或Carme Armentano-Oller( bsc-temu@bsc.es )

许可证

This work is licensed under a Attribution 4.0 International License .