数据集:
tomaarsen/conll2003
CoNLL-2003共享任务涉及与语言无关的命名实体识别。我们将集中在四类命名实体上:人名、地名、组织机构和不属于前三组的杂项实体的名称。
CoNLL-2003共享任务数据文件包含四列,由单个空格分隔。每个单词都放在单独的行上,并且每个句子之后有一个空行。每行的第一项是一个单词,第二项是词性标签(POS),第三项是句法块标签,第四项是命名实体标签。块标签和命名实体标签的格式为I-TYPE,表示该词在TYPE类型的短语中。仅当两个相同类型的短语紧随其后时,第二个短语的第一个单词将具有标签B-TYPE,以表示它开始一个新的短语。标有O标签的单词不属于短语。请注意,数据集使用IOB2标记方案,而原始数据集使用IOB1。
更多详细信息请参阅 https://www.clips.uantwerpen.be/conll2003/ner/ 和 https://www.aclweb.org/anthology/W03-0419 。
'训练'的示例如下所示。
{ "id": "0", "document_id": 1, "sentence_id": 3, "tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British", "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."] "pos_tags": [12, 22, 22, 38, 15, 22, 28, 38, 15, 16, 21, 35, 24, 35, 37, 16, 21, 15, 24, 41, 15, 16, 21, 21, 20, 37, 40, 35, 21, 7], "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0], "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0], }
原始数据文件中有"-DOCSTART-"行用于分隔文档,但这些行在此处已被移除。实际上,"-DOCSTART-"是一行特殊的线,用于将两个不同的文档分隔开,并且在此实现中被过滤掉。
{'"': 0, "''": 1, '#': 2, '$': 3, '(': 4, ')': 5, ',': 6, '.': 7, ':': 8, '``': 9, 'CC': 10, 'CD': 11, 'DT': 12, 'EX': 13, 'FW': 14, 'IN': 15, 'JJ': 16, 'JJR': 17, 'JJS': 18, 'LS': 19, 'MD': 20, 'NN': 21, 'NNP': 22, 'NNPS': 23, 'NNS': 24, 'NN|SYM': 25, 'PDT': 26, 'POS': 27, 'PRP': 28, 'PRP$': 29, 'RB': 30, 'RBR': 31, 'RBS': 32, 'RP': 33, 'SYM': 34, 'TO': 35, 'UH': 36, 'VB': 37, 'VBD': 38, 'VBG': 39, 'VBN': 40, 'VBP': 41, 'VBZ': 42, 'WDT': 43, 'WP': 44, 'WP$': 45, 'WRB': 46}
{'O': 0, 'B-ADJP': 1, 'I-ADJP': 2, 'B-ADVP': 3, 'I-ADVP': 4, 'B-CONJP': 5, 'I-CONJP': 6, 'B-INTJ': 7, 'I-INTJ': 8, 'B-LST': 9, 'I-LST': 10, 'B-NP': 11, 'I-NP': 12, 'B-PP': 13, 'I-PP': 14, 'B-PRT': 15, 'I-PRT': 16, 'B-SBAR': 17, 'I-SBAR': 18, 'B-UCP': 19, 'I-UCP': 20, 'B-VP': 21, 'I-VP': 22}
{'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4, 'B-LOC': 5, 'I-LOC': 6, 'B-MISC': 7, 'I-MISC': 8}
name | train | validation | test |
---|---|---|---|
conll2003 | 14041 | 3250 | 3453 |
来自 CoNLL2003 shared task 页面:
英文数据集是来自路透社语料库的新闻线文章集合。注释是由安特卫普大学的人员完成的。由于版权原因,我们只提供注释。要构建完整的数据集,您需要从NIST免费获取研究目的的路透社语料库。
版权如下所定义,来自 Reuters Corpus page :
路透社语料库中的故事由路透社有限公司和/或汤森路透公司拥有版权,使用受以下协议的约束:
此协议必须由贵组织负责数据的人员签署,并发送给NIST。
此协议必须由贵组织使用路透社语料库的所有研究人员签署,并保存在贵组织的文件中。
@inproceedings{tjong-kim-sang-de-meulder-2003-introduction, title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition", author = "Tjong Kim Sang, Erik F. and De Meulder, Fien", booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003", year = "2003", url = "https://www.aclweb.org/anthology/W03-0419", pages = "142--147", }