"tner/conll2003" 数据集卡片

数据集概述

CoNLL-2003 NER 数据集是 TNER 项目的一部分，采用了特定的格式。

实体类型：ORG（组织），PER（人物），LOC（地点），MISC（其他）

数据集结构

数据示例

train 的一个示例如下所示。

{
  'tags': ['SOCCER','-', 'JAPAN', 'GET', 'LUCKY', 'WIN', ',', 'CHINA', 'IN', 'SURPRISE', 'DEFEAT', '.'],
  'tokens': [0, 0, 5, 0, 0, 0, 0, 3, 0, 0, 0, 0]
}

标签 ID

label2id 字典可以在 here 处找到。

{
  "O": 0,
  "B-ORG": 1,
  "B-MISC": 2,
  "B-PER": 3,
  "I-PER": 4,
  "B-LOC": 5,
  "I-ORG": 6,
  "I-MISC": 7,
  "I-LOC": 8
}

数据拆分

name	train	validation	test
conll2003	14041	3250	3453

许可信息

从 CoNLL2003 shared task 页面得知：

英文数据集是由路透社语料库中的新闻文章收集而成。注释由安特卫普大学的人员完成。由于版权原因，我们只提供注释。要构建完整的数据集，您需要从NIST获取免费的研究目的的路透社语料库。

版权如下，在 Reuters Corpus page 中有定义：

路透社语料库中的故事版权属于路透社有限公司和/或汤森路透，其使用受以下协议的约束：

Organizational agreement

此协议必须由贵组织的数据负责人签署并发送给NIST。

Individual agreement

所有在贵组织使用路透社语料库的研究人员必须签署此协议，并在贵组织备案。

引用信息

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F. and De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}

作者:

tner

数据集大小:

3.76 MB