数据集:

conll2012_ontonotesv5

英文

CoNLL2012共享任务数据基于OntoNotes 5.0的数据集卡片

数据集概述

OntoNotes v5.0是OntoNotes语料库的最终版本,是一个手动注释的大规模、多类型、多语言语料库,包含句法、语义和话语信息。

这个数据集是OntoNotes v5.0的扩展版本,用于CoNLL-2012共享任务。它包括英语/中文/阿拉伯语的v4训练/开发和v9测试数据,以及修正版本v12训练/开发/测试数据(仅英语)。

数据的来源是Mendeley Data repo ontonotes-conll2012 ,它似乎与官方数据相同,但用户使用此数据集需自行负责。

另请参阅paperwithcode OntoNotes 5.0 CoNLL-2012 的摘要。

对于数据集的更详细信息,如注释、标签集等,可以参考上述Mendeley repo中的文档。

支持的任务和排行榜

语言

阿拉伯语、中文、英语的V4数据,以及英语的V12数据

数据集结构

数据实例

{
  {'document_id': 'nw/wsj/23/wsj_2311',
 'sentences': [{'part_id': 0,
                'words': ['CONCORDE', 'trans-Atlantic', 'flights', 'are', '$', '2, 'to', 'Paris', 'and', '$', '3, 'to', 'London', '.']},
                'pos_tags': [25, 18, 27, 43, 2, 12, 17, 25, 11, 2, 12, 17, 25, 7],
                'parse_tree': '(TOP(S(NP (NNP CONCORDE)  (JJ trans-Atlantic)  (NNS flights) )(VP (VBP are) (NP(NP(NP ($ $)  (CD 2,400) )(PP (IN to) (NP (NNP Paris) ))) (CC and) (NP(NP ($ $)  (CD 3,200) )(PP (IN to) (NP (NNP London) ))))) (. .) ))',
                'predicate_lemmas': [None, None, None, 'be', None, None, None, None, None, None, None, None, None, None],
                'predicate_framenet_ids': [None, None, None, '01', None, None, None, None, None, None, None, None, None, None],
                'word_senses': [None, None, None, None, None, None, None, None, None, None, None, None, None, None],
                'speaker': None,
                'named_entities': [7, 6, 0, 0, 0, 15, 0, 5, 0, 0, 15, 0, 5, 0],
                'srl_frames': [{'frames': ['B-ARG1', 'I-ARG1', 'I-ARG1', 'B-V', 'B-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'I-ARG2', 'O'],
                                'verb': 'are'}],
                'coref_spans': [],
               {'part_id': 0,
                'words': ['In', 'a', 'Centennial', 'Journal', 'article', 'Oct.', '5', ',', 'the', 'fares', 'were', 'reversed', '.']}]}
                'pos_tags': [17, 13, 25, 25, 24, 25, 12, 4, 13, 27, 40, 42, 7],
                'parse_tree': '(TOP(S(PP (IN In) (NP (DT a) (NML (NNP Centennial)  (NNP Journal) ) (NN article) ))(NP (NNP Oct.)  (CD 5) ) (, ,) (NP (DT the)  (NNS fares) )(VP (VBD were) (VP (VBN reversed) )) (. .) ))',
                'predicate_lemmas': [None, None, None, None, None, None, None, None, None, None, None, 'reverse', None],
                'predicate_framenet_ids': [None, None, None, None, None, None, None, None, None, None, None, '01', None],
                'word_senses': [None, None, None, None, None, None, None, None, None, None, None, None, None],
                'speaker': None,
                'named_entities': [0, 0, 4, 22, 0, 12, 30, 0, 0, 0, 0, 0, 0],
                'srl_frames': [{'frames': ['B-ARGM-LOC', 'I-ARGM-LOC', 'I-ARGM-LOC', 'I-ARGM-LOC', 'I-ARGM-LOC', 'B-ARGM-TMP', 'I-ARGM-TMP', 'O', 'B-ARG1', 'I-ARG1', 'O', 'B-V', 'O'],
                                'verb': 'reversed'}],
                'coref_spans': [],
}

数据字段

  • document_id(str): 这是文件名的变体
  • sentences(List[Dict]): 同一文档中的所有句子在一个示例中,便于连接句子。

sentences中的每个元素都是一个由以下数据字段组成的字典:

  • part_id(int): 一些文件被分成多个部分,编号为000、001、002,等等。
  • words(List[str]): 单词列表
  • pos_tags(List[ClassLabel]或List[str]): 这是Penn-Treebank风格的词性。当解析信息丢失时,除了与某些意义或命题注释相关的部分之外,所有部分都标有XX标签。动词只标有VERB标签。
    • 标签集: 下面的标签集是通过扫描所有数据而找到的,我发现它似乎与官方声明的标签集略有不同。请参阅 Mendeley repo 中的官方文档
      • 阿拉伯语: str。因为阿拉伯语中的词性标签是复合和复杂的,难以用ClassLabel表示
      • 中文v4: datasets.ClassLabel(num_classes=36, names=["X", "AD", "AS", "BA", "CC", "CD", "CS", "DEC", "DEG", "DER", "DEV", "DT", "ETC", "FW", "IJ", "INF", "JJ", "LB", "LC", "M", "MSP", "NN", "NR", "NT", "OD", "ON", "P", "PN", "PU", "SB", "SP", "URL", "VA", "VC", "VE", "VV"]),其中X表示缺失的词性标签
      • 英语v4: datasets.ClassLabel(num_classes=49, names=["XX", "``", "$", "''", ",", "-LRB-", "-RRB-", ".", ":", "ADD", "AFX", "CC", "CD", "DT", "EX", "FW", "HYPH", "IN", "JJ", "JJR", "JJS", "LS", "MD", "NFP", "NN", "NNP", "NNPS", "NNS", "PDT", "POS", "PRP", "PRP$", "RB", "RBR", "RBS", "RP", "SYM", "TO", "UH", "VB", "VBD", "VBG", "VBN", "VBP", "VBZ", "WDT", "WP", "WP$", "WRB"]),其中XX表示缺失的词性标签,-LRB- / -RRB- 是 "(" / ")"
      • 英语v12: datasets.ClassLabel(num_classes=51, names="english_v12": ["XX", "``", "$", "''", "*", ",", "-LRB-", "-RRB-", ".", ":", "ADD", "AFX", "CC", "CD", "DT", "EX", "FW", "HYPH", "IN", "JJ", "JJR", "JJS", "LS", "MD", "NFP", "NN", "NNP", "NNPS", "NNS", "PDT", "POS", "PRP", "PRP$", "RB", "RBR", "RBS", "RP", "SYM", "TO", "UH", "VB", "VBD", "VBG", "VBN", "VBP", "VBZ", "VERB", "WDT", "WP", "WP$", "WRB"]),其中XX表示缺失的词性标签,-LRB- / -RRB- 是 "(" / ")"
  • parse_tree(Optional[str]): 一个表示解析的序列化NLTK树。它包含作为前置终端节点的POS标签。当解析信息丢失时,解析将为None。
  • predicate_lemmas(List[Optional[str]]): 具有语义角色信息或词义信息的单词的谓词词元。其他所有索引都为None。
  • predicate_framenet_ids(List[Optional[int]]): predicate_lemmas中词元的PropBank框架集ID,或者为None。
  • word_senses(List[Optional[float]]): 句子中单词的词义,或者为None。这些是浮点数,因为词义可以有小数值,如1.1。
  • speaker(Optional[str]): 此处是可用的说话者或作者姓名。主要用于广播对话和网络日志数据。如果不可用,将为None。
  • named_entities(List[ClassLabel]): 句子中命名实体的BIO标签。
    • 标签集: datasets.ClassLabel(num_classes=37, names=["O", "B-PERSON", "I-PERSON", "B-NORP", "I-NORP", "B-FAC", "I-FAC", "B-ORG", "I-ORG", "B-GPE", "I-GPE", "B-LOC", "I-LOC", "B-PRODUCT", "I-PRODUCT", "B-DATE", "I-DATE", "B-TIME", "I-TIME", "B-PERCENT", "I-PERCENT", "B-MONEY", "I-MONEY", "B-QUANTITY", "I-QUANTITY", "B-ORDINAL", "I-ORDINAL", "B-CARDINAL", "I-CARDINAL", "B-EVENT", "I-EVENT", "B-WORK_OF_ART", "I-WORK_OF_ART", "B-LAW", "I-LAW", "B-LANGUAGE", "I-LANGUAGE"])
  • srl_frames(List[{"word":str, "frames":List[str]}]): 一个由给定Propbank框架标签的句子中的动词为键的字典,以BIO格式表示。
  • coref spans(List[List[int]]): 句子中涉及共指消解的实体提及的跨度。每个元素都是一个由(cluster_id,start_index,end_index)组成的元组。索引是全包含的。

数据拆分

每个数据集(arabic_v4,chinese_v4,english_v4,english_v12)都有3个拆分: 训练、验证和测试

数据集创建

策划理由

[需要更多信息]

源数据

初始数据收集和规范化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是注释者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的注意事项

数据的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

其他信息

数据集策划者

[需要更多信息]

许可信息

[需要更多信息]

引用信息

@inproceedings{pradhan-etal-2013-towards,
    title = "Towards Robust Linguistic Analysis using {O}nto{N}otes",
    author = {Pradhan, Sameer  and
      Moschitti, Alessandro  and
      Xue, Nianwen  and
      Ng, Hwee Tou  and
      Bj{\"o}rkelund, Anders  and
      Uryupina, Olga  and
      Zhang, Yuchen  and
      Zhong, Zhi},
    booktitle = "Proceedings of the Seventeenth Conference on Computational Natural Language Learning",
    month = aug,
    year = "2013",
    address = "Sofia, Bulgaria",
    publisher = "Association for Computational Linguistics",
    url = "https://aclanthology.org/W13-3516",
    pages = "143--152",
}

贡献者

感谢 @richarddwang 添加了这个数据集。