数据集:
tner/conll2003
CoNLL-2003 NER 数据集是 TNER 项目的一部分,采用了特定的格式。
train 的一个示例如下所示。
{ 'tags': ['SOCCER','-', 'JAPAN', 'GET', 'LUCKY', 'WIN', ',', 'CHINA', 'IN', 'SURPRISE', 'DEFEAT', '.'], 'tokens': [0, 0, 5, 0, 0, 0, 0, 3, 0, 0, 0, 0] }
label2id 字典可以在 here 处找到。
{ "O": 0, "B-ORG": 1, "B-MISC": 2, "B-PER": 3, "I-PER": 4, "B-LOC": 5, "I-ORG": 6, "I-MISC": 7, "I-LOC": 8 }
name | train | validation | test |
---|---|---|---|
conll2003 | 14041 | 3250 | 3453 |
从 CoNLL2003 shared task 页面得知:
英文数据集是由路透社语料库中的新闻文章收集而成。注释由安特卫普大学的人员完成。由于版权原因,我们只提供注释。要构建完整的数据集,您需要从NIST获取免费的研究目的的路透社语料库。
版权如下,在 Reuters Corpus page 中有定义:
路透社语料库中的故事版权属于路透社有限公司和/或汤森路透,其使用受以下协议的约束:
此协议必须由贵组织的数据负责人签署并发送给NIST。
所有在贵组织使用路透社语料库的研究人员必须签署此协议,并在贵组织备案。
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction, title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition", author = "Tjong Kim Sang, Erik F. and De Meulder, Fien", booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003", year = "2003", url = "https://www.aclweb.org/anthology/W03-0419", pages = "142--147", }