数据集:

DFKI-SLT/kbp37

语言:

en

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

found

批注创建人:

other

源数据集:

extended|other

预印本库:

arxiv:1508.01006

许可:

other
英文

数据集"kbp37"的数据集卡片

数据集摘要

KBP37是Gabor Angeli等人提供的MIML-RE注释数据集的修订版(2014年)。他们使用2010年和2013年KBP官方文件集合以及2013年7月维基百科的转储作为注释的文本语料库。共注释了33811个句子。Zhang和Wang进行了几项改进:

  • 他们为关系名称添加了方向,例如,'per:employee_of'被拆分为'per:employee of(e1,e2)'和'per:employee of(e2,e1)'。他们还用'org:subsidiaries'代替了'org:parents',并用它们的反向关系替代了'org:member of'。
  • 他们丢弃低频关系,以使数据集中每个关系的两个方向都出现超过100次。
  • KBP37包含18个有向关系和一个额外的'no_relation'关系,共37个关系类别。

    注:

    • 有一个可以通过datasets.load_dataset('kbp37', name='kbp37_formatted')加载的格式化版本。此版本使用str.split()进行分词,并提供实体作为偏移量,而不是由xml标签括起来。然而,它丢弃了一些在原始数据集中无效的示例,并导致实体偏移错误,例如示例train/1276。

    支持的任务和排行榜

    More Information Needed

    语言

    KBP37中的语言数据为英文(BCP-47 en)

    数据集结构

    数据实例

    kbp37
    • 下载的数据集文件大小:5.11 MB
    • 生成的数据集大小:4.7 MB 'train'的一个示例如下所示:
    {
      "id": "0",
      "sentence": "<e1> Thom Yorke </e1> of <e2> Radiohead </e2> has included the + for many of his signature distortion sounds using a variety of guitars to achieve various tonal options .",
      "relation": 27
    }
    
    kbp37_formatted
    • 下载的数据集文件大小:5.11 MB
    • 生成的数据集大小:6.58 MB 'train'的一个示例如下所示:
    {
      "id": "1",
      "token": ["Leland", "High", "School", "is", "a", "public", "high", "school", "located", "in", "the", "Almaden", "Valley", "in", "San", "Jose", "California", "USA", "in", "the", "San", "Jose", "Unified", "School", "District", "."],
      "e1_start": 0,
      "e1_end": 3,
      "e2_start": 14,
      "e2_end": 16,
      "relation": 3
    }
    

    数据字段

    kbp37
    • id:句子的实例ID,字符串特征。
    • sentence:句子,字符串特征。
    • relation:该实例的关系标签,整数分类标签。
    {"no_relation": 0, "org:alternate_names(e1,e2)": 1, "org:alternate_names(e2,e1)": 2, "org:city_of_headquarters(e1,e2)": 3, "org:city_of_headquarters(e2,e1)": 4, "org:country_of_headquarters(e1,e2)": 5, "org:country_of_headquarters(e2,e1)": 6, "org:founded(e1,e2)": 7, "org:founded(e2,e1)": 8, "org:founded_by(e1,e2)": 9, "org:founded_by(e2,e1)": 10, "org:members(e1,e2)": 11, "org:members(e2,e1)": 12, "org:stateorprovince_of_headquarters(e1,e2)": 13, "org:stateorprovince_of_headquarters(e2,e1)": 14, "org:subsidiaries(e1,e2)": 15, "org:subsidiaries(e2,e1)": 16, "org:top_members/employees(e1,e2)": 17, "org:top_members/employees(e2,e1)": 18, "per:alternate_names(e1,e2)": 19, "per:alternate_names(e2,e1)": 20, "per:cities_of_residence(e1,e2)": 21, "per:cities_of_residence(e2,e1)": 22, "per:countries_of_residence(e1,e2)": 23, "per:countries_of_residence(e2,e1)": 24, "per:country_of_birth(e1,e2)": 25, "per:country_of_birth(e2,e1)": 26, "per:employee_of(e1,e2)": 27, "per:employee_of(e2,e1)": 28, "per:origin(e1,e2)": 29, "per:origin(e2,e1)": 30, "per:spouse(e1,e2)": 31, "per:spouse(e2,e1)": 32, "per:stateorprovinces_of_residence(e1,e2)": 33, "per:stateorprovinces_of_residence(e2,e1)": 34, "per:title(e1,e2)": 35, "per:title(e2,e1)": 36}
    
    kbp37_formatted
    • id:句子的实例ID,字符串特征。
    • token:该句子的token列表,使用str.split(),一系列字符串特征。
    • e1_start:第一个参数开始的基于0的索引,整数特征。
    • e1_end:第一个参数结束的基于0的索引(不含),整数特征。
    • e2_start:第二个参数开始的基于0的索引,整数特征。
    • e2_end:第二个参数结束的基于0的索引(不含),整数特征。
    • relation:该实例的关系标签,整数分类标签(与'kbp37'相同)。

    数据拆分

    Train Dev Test
    kbp37 15917 1724 3405
    kbp37_formatted 15807 1714 3379

    数据集创建

    策展理由

    More Information Needed

    源数据

    初始数据收集和规范化

    More Information Needed

    谁是源语言的生产者?

    More Information Needed

    注释

    注释过程

    More Information Needed

    谁是注释者?

    More Information Needed

    个人和敏感信息

    More Information Needed

    使用数据的注意事项

    数据的社会影响

    More Information Needed

    偏见讨论

    More Information Needed

    其他已知限制

    More Information Needed

    其他信息

    数据集策展人

    More Information Needed

    许可信息

    More Information Needed

    引用信息

    @article{DBLP:journals/corr/ZhangW15a,
      author    = {Dongxu Zhang and
                   Dong Wang},
      title     = {Relation Classification via Recurrent Neural Network},
      journal   = {CoRR},
      volume    = {abs/1508.01006},
      year      = {2015},
      url       = {http://arxiv.org/abs/1508.01006},
      eprinttype = {arXiv},
      eprint    = {1508.01006},
      timestamp = {Fri, 04 Nov 2022 18:37:50 +0100},
      biburl    = {https://dblp.org/rec/journals/corr/ZhangW15a.bib},
      bibsource = {dblp computer science bibliography, https://dblp.org}
    }
    

    贡献

    感谢 @phucdev 添加此数据集。