数据集:

tomaarsen/conll2003

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

crowdsourced

许可:

other
英文

"conll2003"的数据集卡片

数据集摘要

CoNLL-2003共享任务涉及与语言无关的命名实体识别。我们将集中在四类命名实体上:人名、地名、组织机构和不属于前三组的杂项实体的名称。

CoNLL-2003共享任务数据文件包含四列,由单个空格分隔。每个单词都放在单独的行上,并且每个句子之后有一个空行。每行的第一项是一个单词,第二项是词性标签(POS),第三项是句法块标签,第四项是命名实体标签。块标签和命名实体标签的格式为I-TYPE,表示该词在TYPE类型的短语中。仅当两个相同类型的短语紧随其后时,第二个短语的第一个单词将具有标签B-TYPE,以表示它开始一个新的短语。标有O标签的单词不属于短语。请注意,数据集使用IOB2标记方案,而原始数据集使用IOB1。

更多详细信息请参阅 https://www.clips.uantwerpen.be/conll2003/ner/ https://www.aclweb.org/anthology/W03-0419

支持的任务和排行榜

More Information Needed

语言

More Information Needed

数据集结构

数据实例

conll2003
  • 下载的数据集文件大小:4.85 MB
  • 生成的数据集大小:10.26 MB
  • 使用的磁盘总量:15.11 MB

'训练'的示例如下所示。

{
    "id": "0",
    "document_id": 1,
    "sentence_id": 3,
    "tokens": ["The", "European", "Commission", "said", "on", "Thursday", "it", "disagreed", "with", "German", "advice", "to", "consumers", "to", "shun", "British",      "lamb", "until", "scientists", "determine", "whether", "mad", "cow", "disease", "can", "be", "transmitted", "to", "sheep", "."]
    "pos_tags": [12, 22, 22, 38, 15, 22, 28, 38, 15, 16, 21, 35, 24, 35, 37, 16, 21, 15, 24, 41, 15, 16, 21, 21, 20, 37, 40, 35, 21, 7],
    "ner_tags": [0, 3, 4, 0, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 7, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0],
    "chunk_tags": [11, 12, 12, 21, 13, 11, 11, 21, 13, 11, 12, 13, 11, 21, 22, 11, 12, 17, 11, 21, 17, 11, 12, 12, 21, 22, 22, 13, 11, 0],
}

原始数据文件中有"-DOCSTART-"行用于分隔文档,但这些行在此处已被移除。实际上,"-DOCSTART-"是一行特殊的线,用于将两个不同的文档分隔开,并且在此实现中被过滤掉。

数据字段

conll2003
  • id:字符串特征。
  • document_id:一个int32特征,用于跟踪样本来自哪个文档。
  • sentence_id:一个int32特征,用于跟踪样本来自该文档中的哪个句子。
  • tokens:一组字符串特征。
  • pos_tags:分类标签列表(int)。具有索引的完整标签集:
{'"': 0, "''": 1, '#': 2, '$': 3, '(': 4, ')': 5, ',': 6, '.': 7, ':': 8, '``': 9, 'CC': 10, 'CD': 11, 'DT': 12,
 'EX': 13, 'FW': 14, 'IN': 15, 'JJ': 16, 'JJR': 17, 'JJS': 18, 'LS': 19, 'MD': 20, 'NN': 21, 'NNP': 22, 'NNPS': 23,
 'NNS': 24, 'NN|SYM': 25, 'PDT': 26, 'POS': 27, 'PRP': 28, 'PRP$': 29, 'RB': 30, 'RBR': 31, 'RBS': 32, 'RP': 33,
 'SYM': 34, 'TO': 35, 'UH': 36, 'VB': 37, 'VBD': 38, 'VBG': 39, 'VBN': 40, 'VBP': 41, 'VBZ': 42, 'WDT': 43,
 'WP': 44, 'WP$': 45, 'WRB': 46}
  • chunk_tags:分类标签列表(int)。具有索引的完整标签集:
{'O': 0, 'B-ADJP': 1, 'I-ADJP': 2, 'B-ADVP': 3, 'I-ADVP': 4, 'B-CONJP': 5, 'I-CONJP': 6, 'B-INTJ': 7, 'I-INTJ': 8,
 'B-LST': 9, 'I-LST': 10, 'B-NP': 11, 'I-NP': 12, 'B-PP': 13, 'I-PP': 14, 'B-PRT': 15, 'I-PRT': 16, 'B-SBAR': 17,
 'I-SBAR': 18, 'B-UCP': 19, 'I-UCP': 20, 'B-VP': 21, 'I-VP': 22}
  • ner_tags:分类标签列表(int)。具有索引的完整标签集:
{'O': 0, 'B-PER': 1, 'I-PER': 2, 'B-ORG': 3, 'I-ORG': 4, 'B-LOC': 5, 'I-LOC': 6, 'B-MISC': 7, 'I-MISC': 8}

数据拆分

name train validation test
conll2003 14041 3250 3453

数据集创建

策划理由

More Information Needed

源数据

初始数据收集和标准化

More Information Needed

源语言生产者是谁?

More Information Needed

注释

注释过程

More Information Needed

注释者是谁?

More Information Needed

个人和敏感信息

More Information Needed

使用数据的注意事项

数据集的社会影响

More Information Needed

偏见讨论

More Information Needed

其他已知限制

More Information Needed

附加信息

数据集策划者

More Information Needed

许可信息

来自 CoNLL2003 shared task 页面:

英文数据集是来自路透社语料库的新闻线文章集合。注释是由安特卫普大学的人员完成的。由于版权原因,我们只提供注释。要构建完整的数据集,您需要从NIST免费获取研究目的的路透社语料库。

版权如下所定义,来自 Reuters Corpus page

路透社语料库中的故事由路透社有限公司和/或汤森路透公司拥有版权,使用受以下协议的约束:

Organizational agreement

此协议必须由贵组织负责数据的人员签署,并发送给NIST。

Individual agreement

此协议必须由贵组织使用路透社语料库的所有研究人员签署,并保存在贵组织的文件中。

引用信息

@inproceedings{tjong-kim-sang-de-meulder-2003-introduction,
    title = "Introduction to the {C}o{NLL}-2003 Shared Task: Language-Independent Named Entity Recognition",
    author = "Tjong Kim Sang, Erik F.  and
      De Meulder, Fien",
    booktitle = "Proceedings of the Seventh Conference on Natural Language Learning at {HLT}-{NAACL} 2003",
    year = "2003",
    url = "https://www.aclweb.org/anthology/W03-0419",
    pages = "142--147",
}

贡献

感谢 @jplu @vblagoje @lhoestq 添加此数据集。