数据集:

norne

语言:

no

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1911.12146

许可:

other
英文

Norwegian Named Entities (NorNE) 数据集卡片

数据集概要

NorNE 是一个手动标注的命名实体语料库,扩展了现有的挪威依存树库的标注。该语料库涵盖了书面挪威语(Bokmål 和 Nynorsk)的官方标准,包含约 600,000 个词元,并注释了丰富的实体类型,包括人物、组织机构、地点、地缘政治实体、产品和事件,此外还有一个对应于从名称派生的名词类别。

此数据集有 3 个主要配置,每个配置有 3 个 NER 标签集的版本。当访问 bokmaal、nynorsk 或 combined 配置时,NER 标签集将包含 9 个标签:GPE_ORG、GPE_LOC、ORG、LOC、PER、PROD、EVT、DRV 和 MISC。两个特殊类型 GPE_LOC 和 GPE_ORG 可以根据任务的需要进行更改,选择更一般的 GPE 标签或更具体的 LOC/ORG 标签,并将其与相同类型的其他标注合并。要访问这些较小版本的数据集,可以使用 bokmaal-7、nynorsk-7、combined-7 配置获取带有 7 个标签(ORG、LOC、PER、PROD、EVT、DRV、MISC)的 NER 标签集,以及 bokmaal-8、nynorsk-8、combined-8 配置获取带有 8 个标签(LOC_ 和 ORG_:ORG、LOC、GPE、PER、PROD、EVT、DRV、MISC)的 NER 标签集。默认情况下,将使用完整的标签集(9 个标签)。有关详细信息,请参阅注释部分。

支持的任务和排行榜

NorNE 在挪威依存树库之上添加了命名实体注释。

语言

该数据集支持挪威语书面标准(bokmaal)和挪威语方言(nynorsk)作为此数据集中的不同配置。还包含了一个合并语言的额外配置(combined)。有关使用减少的标签集访问 NER 功能的详细信息,请参阅注释部分。

数据集结构

每个条目包含文本句子、语言、标识符、标记和对应的 NER 和 POS 标签列表。

数据实例

bokmaal 配置的 train 部分的示例。

{'idx': '000001',
 'lang': 'bokmaal',
 'lemmas': ['lam', 'og', 'piggvar', 'på', 'bryllupsmeny'],
 'ner_tags': [0, 0, 0, 0, 0],
 'pos_tags': [0, 9, 0, 5, 0],
 'text': 'Lam og piggvar på bryllupsmenyen',
 'tokens': ['Lam', 'og', 'piggvar', 'på', 'bryllupsmenyen']}

数据字段

每个条目的注释包括以下字段:

  • idx(int):NorNE 数据集中的文本(句子)标识符
  • lang(str):语言变体,可以是 bokmaal、nynorsk 或 combined
  • text(str):纯文本
  • tokens(List[str]):从文本中提取的标记列表
  • lemmas(List[str]):从标记中提取的词形列表
  • ner_tags(List[int]):tokens 中每个标记的数字 NER 标签列表
  • pos_tags(List[int]):tokens 中每个标记的数字词性标签列表

从数据集中获取的示例 DataFrame 如下:

idx lang text tokens lemmas ner_tags pos_tags
0 000001 bokmaal Lam og piggvar på bryllupsmenyen [Lam, og, piggvar, på, bryllupsmenyen] [lam, og, piggvar, på, bryllupsmeny] [0, 0, 0, 0, 0] [0, 9, 0, 5, 0]
1 000002 bokmaal Kamskjell, piggvar og lammefilet sto på menyen... [Kamskjell, ,, piggvar, og, lammefilet, sto, p... [kamskjell, $,, piggvar, og, lammefilet, stå, ... [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] [0, 1, 0, 9, 0, 15, 2, 0, 2, 8, 6, 0, 1]
2 000003 bokmaal Og til dessert: Parfait à la Mette-Marit. [Og, til, dessert, :, Parfait, à, la, Mette-Ma... [og, til, dessert, $:, Parfait, à, la, Mette-M... [0, 0, 0, 0, 7, 8, 8, 8, 0] [9, 2, 0, 1, 10, 12, 12, 10, 1]

数据拆分

数据集包含 train、validation 和 test 三个拆分。

Config Split Total
bokmaal train 15696
bokmaal validation 2410
bokmaal test 1939
nynorsk train 14174
nynorsk validation 1890
nynorsk test 1511
combined test 29870
combined validation 4300
combined test 3450

数据集创建

策划理由

  • 在这个语境中,名称接近 Saul Kripke's definition of a name ,因为名称具有唯一的参考并且其含义是恒定的(注释中有例外情况,例如 "Regjeringen"(政府))。
  • 决定实体类型取决于对名称的使用,而不是名称的默认/原义,
  • 如果名称的类型/含义存在歧义,则选择名称的默认/原义(遵循 Markert and Nissim, 2002 )。
  • 更多详细信息,请参见与语料库一起分发的 "Annotation Guidelines.pdf"。

    源数据

    数据是使用挪威语的博客、报纸以及议会演讲和政府报告收集的。

    初始数据收集和规范化

    挪威依存树库(NDT)中的文本是手动进行形态特征、句法功能和层次结构标注的。用于句法注释的形式主义是依存语法。

    该树库由两部分组成,一部分是挪威语书面标准(nob),另一部分是挪威语方言(nno)。两部分都包含约 300,000 个标记,并且是不同的非虚构流派的混合体。

    有关更多详细信息,请参阅 NDT webpage

    注释

    对以下实体类型进行了注释:

    • 人物(PER):真实或虚构的人物和动物
    • 组织机构(ORG):任何由人组成的集体,例如公司、机构、组织、音乐团体、运动队、工会、政党等
    • 地点(LOC):地理位置、建筑物和设施
    • 地缘政治实体(GPE):由政治和/或社会团体定义的地理区域。GPE 实体将国家、地区、政府或人民归为一类,而不作区分
    • 产品(PROD):人工生产的实体被视为产品。这可能包括更抽象的实体,例如演讲、广播节目、编程语言、合同、法律和思想等
    • 事件(EVT):节日、文化活动、体育赛事、天气现象、战争等。事件在时间和空间上是有界的
    • 派生(DRV):从名称派生但并不是名称本身的词(和短语?)。它们通常包含一个完整的名称,并且以大写字母开头,但不是专有名词。例如(虚构的)"Brann-treneren"("Brann 的教练")或 "Oslo-mannen"("来自 Oslo 的人")
    • 其他(MISC):不属于其他类别的名称。例如动物物种和医学状况的名称。制造或生产的实体属于产品类型,而自然或自发发生的事物属于其他类型

    此外,所有 GPE 实体还额外细分为 ORG 或 LOC,两个注释级别之间用下划线分隔:

    • GPE_LOC:具有位置意义的地缘政治实体(例如 "约翰住在 西班牙 ")
    • GPE_ORG:具有组织意义的地缘政治实体(例如 " 西班牙 拒绝与比利时会面")

    可以根据任务的需要轻松更改 GPE_LOC 和 GPE_ORG 这两个特殊类型,选择更一般的 GPE 标签或更具体的 LOC/ORG 标签,并将其与相同类型的其他标注合并。这意味着可以派生出以下实体类型集合:

    • 7 种类型,删除 _GPE:ORG、LOC、PER、PROD、EVT、DRV、MISC
    • 8 种类型,删除 LOC_ 和 ORG_:ORG、LOC、GPE、PER、PROD、EVT、DRV、MISC
    • 9 种类型,保留所有类型:ORG、LOC、GPE_LOC、GPE_ORG、PER、PROD、EVT、DRV、MISC

    按总计数(即示例个数,而不是注释跨度中的标记个数)对其进行分类排序,类分布如下:

    Type Train Dev Test Total
    PER 4033 607 560 5200
    ORG 2828 400 283 3511
    GPE_LOC 2132 258 257 2647
    PROD 671 162 71 904
    LOC 613 109 103 825
    GPE_ORG 388 55 50 493
    DRV 519 77 48 644
    EVT 131 9 5 145
    MISC 8 0 0 0

    要访问这些减小的数据集版本,可以使用 bokmaal-7、nynorsk-7、combined-7 的配置获取带有 7 个标签(ORG、LOC、PER、PROD、EVT、DRV、MISC)的 NER 标签集,以及 bokmaal-8、nynorsk-8、combined-8 的配置获取带有 8 个标签(LOC_ 和 ORG_:ORG、LOC、GPE、PER、PROD、EVT、DRV、MISC)的 NER 标签集。默认情况下,将使用完整的标签集(9 个标签)。

    附加信息

    数据集的策展者

    NorNE 是由 Schibsted Media Group Språkbanken National Library of Norway Language Technology Group 的奥斯陆大学合作创建的。

    NorNE 是由挪威国家图书馆 AI-Lab 添加到 ? 数据集的。

    许可信息

    NorNE 语料库采用与挪威依存树库相同的许可证

    引用信息

    本数据集的描述详见文章 "NorNE: Annotating Named Entities for Norwegian",作者们是 Fredrik Jørgensen、Tobias Aasmoe、Anne-Stine Ruud Husevåg、Lilja Øvrelid 和 Erik Velldal,该文章已被 LREC 2020 接受,并在这里作为预印本提供: https://arxiv.org/abs/1911.12146

    @inproceedings{johansen2019ner,
      title={NorNE: Annotating Named Entities for Norwegian},
      author={Fredrik Jørgensen, Tobias Aasmoe, Anne-Stine Ruud Husevåg,
              Lilja Øvrelid, and Erik Velldal},
      booktitle={LREC 2020},
      year={2020},
      url={https://arxiv.org/abs/1911.12146}
    }
    

    贡献

    感谢 @versae 添加了此数据集。