数据集:
PlanTL-GOB-ES/CoNLL-NERC-es
CoNLL-NERC 是 CoNLL-2002 共享任务的西班牙语数据集。该数据集使用标准的 Beginning-Inside-Outside (BIO) 格式对四类命名实体进行了标注,包括人名、地点、组织机构和其他杂项实体。该语料库包括 8,324 个训练句子,包含 19,400 个命名实体,1,916 个开发句子,包含 4,568 个命名实体,以及 1,518 个测试句子,包含 3,644 个命名实体。
我们将此语料库作为 EvalEs 西班牙语语言基准的一部分。
命名实体识别和分类
数据集为西班牙语 (es-ES)
每个文件有两列,第一列是单词形式或标点符号,第二列是相应的 IOB 标签。不同的文件之间以空行分隔。
[N/A]
数据是西班牙 EFE 新闻社提供的新闻电线文章的集合。这些文章来自 2000 年 5 月。
初始数据收集和规范化有关更多信息,请参阅 CoNLL-2002 共享任务的论文。
谁是源语言的制作者?有关更多信息,请参阅 CoNLL-2002 共享任务的论文。
有关更多信息,请参阅 CoNLL-2002 共享任务的论文。
谁是注释者?注释由加泰罗尼亚理工大学(UPC)的 TALP 研究中心和巴塞罗那大学(UB)的语言与计算中心(CLiC3)执行,并由欧洲委员会通过 NAMIC 项目(IST-1999-12392)资助。
有关更多信息,请参阅 CoNLL-2002 共享任务的论文。
[N/A]
该数据集有助于开发西班牙语语言模型。
[N/A]
[N/A]
使用此语料库时必须引用以下论文:
Erik F. Tjong Kim Sang. 2002. Introduction to the CoNLL-2002 Shared Task: Language-Independent Named Entity Recognition. In COLING-02: The 6th Conference on Natural Language Learning 2002 (CoNLL-2002).
[N/A]