数据集:

tner/conll2003

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

许可:

other
英文

"tner/conll2003" 数据集卡片

数据集概述

CoNLL-2003 NER 数据集是 TNER 项目的一部分,采用了特定的格式。

  • 实体类型:ORG(组织),PER(人物),LOC(地点),MISC(其他)

数据集结构

数据示例

train 的一个示例如下所示。

{
  'tags': ['SOCCER','-', 'JAPAN', 'GET', 'LUCKY', 'WIN', ',', 'CHINA', 'IN', 'SURPRISE', 'DEFEAT', '.'],
  'tokens': [0, 0, 5, 0, 0, 0, 0, 3, 0, 0, 0, 0]
}

标签 ID

label2id 字典可以在 here 处找到。

{
  "O": 0,
  "B-ORG": 1,
  "B-MISC": 2,
  "B-PER": 3,
  "I-PER": 4,
  "B-LOC": 5,
  "I-ORG": 6,
  "I-MISC": 7,
  "I-LOC": 8
}

数据拆分

name train validation test
conll2003 14041 3250 3453

许可信息

CoNLL2003 shared task 页面得知:

英文数据集是由路透社语料库中的新闻文章收集而成。注释由安特卫普大学的人员完成。由于版权原因,我们只提供注释。要构建完整的数据集,您需要从NIST获取免费的研究目的的路透社语料库。

版权如下,在 Reuters Corpus page 中有定义:

路透社语料库中的故事版权属于路透社有限公司和/或汤森路透,其使用受以下协议的约束:

Organizational agreement

此协议必须由贵组织的数据负责人签署并发送给NIST。

Individual agreement

所有在贵组织使用路透社语料库的研究人员必须签署此协议,并在贵组织备案。

引用信息

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F. and De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}