数据集:

PlanTL-GOB-ES/CoNLL-NERC-es

任务:

标记分类

子任务:

part-of-speech

语言:

计算机处理:

monolingual

语言创建人:

found

批注创建人:

expert-generated

数据集介绍文件清单

英文

CoNLL-NERC-es

数据集概述

CoNLL-NERC 是 CoNLL-2002 共享任务的西班牙语数据集。该数据集使用标准的 Beginning-Inside-Outside (BIO) 格式对四类命名实体进行了标注，包括人名、地点、组织机构和其他杂项实体。该语料库包括 8,324 个训练句子，包含 19,400 个命名实体，1,916 个开发句子，包含 4,568 个命名实体，以及 1,518 个测试句子，包含 3,644 个命名实体。

我们将此语料库作为 EvalEs 西班牙语语言基准的一部分。

支持的任务和排行榜

命名实体识别和分类

语言

数据集为西班牙语 (es-ES)

数据集结构

数据实例

数据字段

每个文件有两列，第一列是单词形式或标点符号，第二列是相应的 IOB 标签。不同的文件之间以空行分隔。

数据划分

esp.train: 273037 行
esp.testa: 54837 行（用作开发集）
esp.testb: 53049 行（用作测试集）

数据集创建

策划理由

[N/A]

源数据

数据是西班牙 EFE 新闻社提供的新闻电线文章的集合。这些文章来自 2000 年 5 月。

初始数据收集和规范化

有关更多信息，请参阅 CoNLL-2002 共享任务的论文。

谁是源语言的制作者？

有关更多信息，请参阅 CoNLL-2002 共享任务的论文。

注释

注释过程

有关更多信息，请参阅 CoNLL-2002 共享任务的论文。

谁是注释者？

注释由加泰罗尼亚理工大学（UPC）的 TALP 研究中心和巴塞罗那大学（UB）的语言与计算中心（CLiC3）执行，并由欧洲委员会通过 NAMIC 项目（IST-1999-12392）资助。

有关更多信息，请参阅 CoNLL-2002 共享任务的论文。

个人和敏感信息

[N/A]

使用数据的注意事项

数据集的社会影响

该数据集有助于开发西班牙语语言模型。

偏见讨论

[N/A]

其他已知限制

[N/A]

其他信息

数据集策划者

许可信息

引用信息

使用此语料库时必须引用以下论文：

Erik F. Tjong Kim Sang. 2002. Introduction to the CoNLL-2002 Shared Task: Language-Independent Named Entity Recognition. In COLING-02: The 6th Conference on Natural Language Learning 2002 (CoNLL-2002).

贡献

[N/A]

作者:

PlanTL-GOB-ES

数据集大小:

15.67 KB