数据集:

projecte-aina/ancora-ca-ner

语言:

ca

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

预印本库:

arxiv:2107.07903

许可:

cc-by-4.0
英文

AnCora-Ca-NER 数据集卡片

数据集概要

这是一个用于加泰罗尼亚语(Catalan)命名实体识别(NER)的数据集。它为机器学习和语言模型评估目的改编了 AnCora corpus 数据集。

此数据集在 CC-by 许可下使用 AnCora corpus

此数据集是由 BSC TeMU 开发的,作为 Projecte AINA 中的一部分,以丰富 Catalan Language Understanding Benchmark (CLUB)

支持的任务和排行榜

命名实体识别,语言模型

语言

数据集为加泰罗尼亚语(ca-CA)。

数据集结构

数据实例

三个双列文件,每个文件对应一个拆分。

    Fundació B-ORG
    Privada I-ORG
    Fira I-ORG
    de I-ORG
    Manresa I-ORG
    ha O
    fet O
    un O
    balanç O
    de O
    l' O
    activitat O
    del O
    Palau B-LOC
    Firal I-LOC

数据字段

每个文件都有两列,第一列是单词形式或标点符号,第二列是相应的IOB标签。

数据拆分

我们采用了原始的训练、验证和测试拆分,其中来自 UD version of the corpus

  • 训练集:10,630个示例
  • 验证集:1,429个示例
  • 测试集:1,528个示例

数据集创建

策划理由

我们创建此语料库,以促进加泰罗尼亚语(一种资源稀缺的语言)语言模型的开发。

源数据

初始数据收集和规范化

AnCora 包括加泰罗尼亚语语料库(AnCora-CA)和西班牙语语料库(AnCora-ES),每个语料库包含500,000个标记(包括一些多词)。这些语料库通过不同级别的语言现象进行了标注。AnCora 语料库主要基于新闻文本。有关更多信息,请参阅 Taulé, M., M.A. Martí, M. Recasens(2009年)的 "AnCora: Multilevel Annotated Corpora for Catalan and Spanish” ,第6届国际语言资源与评估会议论文集。

谁是源语言的生产者?

加泰罗尼亚语 AnCora corpus 编译自以下新闻媒体的文章: EFE ACN El Periodico

注释

注释过程

我们将 NER 标签从 AnCora corpus 改编为每行一个标记的多列格式。

谁是标注者?

AnCora corpus 的原始注释者。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

我们希望这个语料库能够促进加泰罗尼亚语语言模型的发展,加泰罗尼亚语是一种资源稀缺的语言。

偏见讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策划者

文本挖掘单元(TeMU)位于巴塞罗那超级计算中心( bsc-temu@bsc.es)

该工作得到 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 的资助,属于 Projecte AINA 框架内的一部分。

许可信息

本作品根据 Attribution 4.0 International License 许可。

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

DOI

贡献

[N/A]