数据集:

PlanTL-GOB-ES/CoNLL-NERC-es

子任务:

part-of-speech

语言:

es

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated
英文

CoNLL-NERC-es

数据集概述

CoNLL-NERC 是 CoNLL-2002 共享任务的西班牙语数据集。该数据集使用标准的 Beginning-Inside-Outside (BIO) 格式对四类命名实体进行了标注,包括人名、地点、组织机构和其他杂项实体。该语料库包括 8,324 个训练句子,包含 19,400 个命名实体,1,916 个开发句子,包含 4,568 个命名实体,以及 1,518 个测试句子,包含 3,644 个命名实体。

我们将此语料库作为 EvalEs 西班牙语语言基准的一部分。

支持的任务和排行榜

命名实体识别和分类

语言

数据集为西班牙语 (es-ES)

数据集结构

数据实例

数据字段

数据字段

每个文件有两列,第一列是单词形式或标点符号,第二列是相应的 IOB 标签。不同的文件之间以空行分隔。

数据划分

  • esp.train: 273037 行
  • esp.testa: 54837 行(用作开发集)
  • esp.testb: 53049 行(用作测试集)

数据集创建

策划理由

[N/A]

源数据

数据是西班牙 EFE 新闻社提供的新闻电线文章的集合。这些文章来自 2000 年 5 月。

初始数据收集和规范化

有关更多信息,请参阅 CoNLL-2002 共享任务的论文。

谁是源语言的制作者?

有关更多信息,请参阅 CoNLL-2002 共享任务的论文。

注释

注释过程

有关更多信息,请参阅 CoNLL-2002 共享任务的论文。

谁是注释者?

注释由加泰罗尼亚理工大学(UPC)的 TALP 研究中心和巴塞罗那大学(UB)的语言与计算中心(CLiC3)执行,并由欧洲委员会通过 NAMIC 项目(IST-1999-12392)资助。

有关更多信息,请参阅 CoNLL-2002 共享任务的论文。

个人和敏感信息

[N/A]

使用数据的注意事项

数据集的社会影响

该数据集有助于开发西班牙语语言模型。

偏见讨论

[N/A]

其他已知限制

[N/A]

其他信息

数据集策划者

许可信息

引用信息

使用此语料库时必须引用以下论文:

Erik F. Tjong Kim Sang. 2002. Introduction to the CoNLL-2002 Shared Task: Language-Independent Named Entity Recognition. In COLING-02: The 6th Conference on Natural Language Learning 2002 (CoNLL-2002).

贡献

[N/A]