数据集:

projecte-aina/ancora-ca-ner

语言:

计算机处理:

monolingual

大小:

size_categories:unknown

语言创建人:

found

批注创建人:

expert-generated

预印本库:

arxiv:2107.07903

许可:

cc-by-4.0

数据集介绍文件清单

英文

AnCora-Ca-NER 数据集卡片

数据集概要

这是一个用于加泰罗尼亚语（Catalan）命名实体识别（NER）的数据集。它为机器学习和语言模型评估目的改编了 AnCora corpus 数据集。

此数据集在 CC-by 许可下使用 AnCora corpus 。

此数据集是由 BSC TeMU 开发的，作为 Projecte AINA 中的一部分，以丰富 Catalan Language Understanding Benchmark (CLUB) 。

支持的任务和排行榜

命名实体识别，语言模型

语言

数据集为加泰罗尼亚语（ca-CA）。

数据集结构

数据实例

三个双列文件，每个文件对应一个拆分。

    Fundació B-ORG
    Privada I-ORG
    Fira I-ORG
    de I-ORG
    Manresa I-ORG
    ha O
    fet O
    un O
    balanç O
    de O
    l' O
    activitat O
    del O
    Palau B-LOC
    Firal I-LOC

数据字段

每个文件都有两列，第一列是单词形式或标点符号，第二列是相应的IOB标签。

数据拆分

我们采用了原始的训练、验证和测试拆分，其中来自 UD version of the corpus

训练集：10,630个示例
验证集：1,429个示例
测试集：1,528个示例

数据集创建

策划理由

我们创建此语料库，以促进加泰罗尼亚语（一种资源稀缺的语言）语言模型的开发。

源数据

初始数据收集和规范化

AnCora 包括加泰罗尼亚语语料库（AnCora-CA）和西班牙语语料库（AnCora-ES），每个语料库包含500,000个标记（包括一些多词）。这些语料库通过不同级别的语言现象进行了标注。AnCora 语料库主要基于新闻文本。有关更多信息，请参阅 Taulé, M., M.A. Martí, M. Recasens（2009年）的 "AnCora: Multilevel Annotated Corpora for Catalan and Spanish” ，第6届国际语言资源与评估会议论文集。

谁是源语言的生产者？

加泰罗尼亚语 AnCora corpus 编译自以下新闻媒体的文章： EFE ， ACN ， El Periodico 。

注释

注释过程

我们将 NER 标签从 AnCora corpus 改编为每行一个标记的多列格式。

谁是标注者？

AnCora corpus 的原始注释者。

个人和敏感信息

不包含个人或敏感信息。

使用数据的注意事项

数据的社会影响

我们希望这个语料库能够促进加泰罗尼亚语语言模型的发展，加泰罗尼亚语是一种资源稀缺的语言。

偏见讨论

[N/A]

其他已知限制

[N/A]

附加信息

数据集策划者

文本挖掘单元（TeMU）位于巴塞罗那超级计算中心（ bsc-temu@bsc.es）

该工作得到 Departament de la Vicepresidència i de Polítiques Digitals i Territori de la Generalitat de Catalunya 的资助，属于 Projecte AINA 框架内的一部分。

许可信息

本作品根据 Attribution 4.0 International License 许可。

引用信息

@inproceedings{armengol-estape-etal-2021-multilingual,
    title = "Are Multilingual Models the Best Choice for Moderately Under-resourced Languages? {A} Comprehensive Assessment for {C}atalan",
    author = "Armengol-Estap{\'e}, Jordi  and
      Carrino, Casimiro Pio  and
      Rodriguez-Penagos, Carlos  and
      de Gibert Bonet, Ona  and
      Armentano-Oller, Carme  and
      Gonzalez-Agirre, Aitor  and
      Melero, Maite  and
      Villegas, Marta",
    booktitle = "Findings of the Association for Computational Linguistics: ACL-IJCNLP 2021",
    month = aug,
    year = "2021",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/2021.findings-acl.437",
    doi = "10.18653/v1/2021.findings-acl.437",
    pages = "4933--4946",
}

DOI

贡献

[N/A]

作者:

projecte-aina

数据集大小:

3.27 MB