数据集:

NbAiLab/norne

语言:

no

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

crowdsourced

批注创建人:

expert-generated

源数据集:

original

预印本库:

arxiv:1911.12146

许可:

other
英文

NorNE: 挪威命名实体数据集

数据集摘要

NorNE是一个手动标注的命名实体语料库,它扩展了现有的挪威依赖树库的注释。该语料库包含约600,000个标记,并注释了丰富的实体类型,包括人物、组织、地点、地缘政治实体、产品和事件,还包括与名字相关的名词衍生类。

支持的任务和排行榜

NorNE在挪威依赖树库的基础上添加了命名实体注释。

语言

该数据集支持挪威博克马尔语(bokmål)和挪威尼诺斯克语(nynorsk)作为不同的配置。还包括一个合并语言的附加配置(combined)。请参阅注释部分,了解访问NER特征的简化标签集的详细信息。

数据集结构

每个条目包含文本句子、语言、标识符、标记和对应的NER和POS标签列表。

数据实例

bokmaal配置的train分割的例子。

{'idx': '000001',
 'lang': 'bokmaal',
 'lemmas': ['lam', 'og', 'piggvar', 'på', 'bryllupsmeny'],
 'ner_tags': [0, 0, 0, 0, 0],
 'pos_tags': [0, 9, 0, 5, 0],
 'text': 'Lam og piggvar på bryllupsmenyen',
 'tokens': ['Lam', 'og', 'piggvar', 'på', 'bryllupsmenyen']}

数据字段

每个条目都使用下列字段进行了标注:

  • idx(int): NorNE数据集中的文本句子标识符
  • lang(str): 语言种类,可以是bokmaal、nynorsk或combined之一
  • text(str): 纯文本
  • tokens(List[str]): 从文本提取的标记列表
  • lemmas(List[str]): 从标记中提取的词元列表
  • ner_tags(List[int]): 对tokens中每个标记的数字NER标签列表
  • pos_tags(List[int]): 对tokens中每个标记的数字词性标签列表

从数据集中获取的示例DataFrame:

idx lang text tokens lemmas ner_tags pos_tags
0 000001 bokmaal Lam og piggvar på bryllupsmenyen [Lam, og, piggvar, på, bryllupsmenyen] [lam, og, piggvar, på, bryllupsmeny] [0, 0, 0, 0, 0] [0, 9, 0, 5, 0]
1 000002 bokmaal Kamskjell, piggvar og lammefilet sto på menyen... [Kamskjell, ,, piggvar, og, lammefilet, sto, p... [kamskjell, $,, piggvar, og, lammefilet, stå, ... [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] [0, 1, 0, 9, 0, 15, 2, 0, 2, 8, 6, 0, 1]
2 000003 bokmaal Og til dessert: Parfait à la Mette-Marit. [Og, til, dessert, :, Parfait, à, la, Mette-Ma... [og, til, dessert, $:, Parfait, à, la, Mette-M... [0, 0, 0, 0, 7, 8, 8, 8, 0] [9, 2, 0, 1, 10, 12, 12, 10, 1]

数据拆分

有三个拆分:train、validation和test。

Config Split Total
bokmaal train 15696
bokmaal validation 2410
bokmaal test 1939
nynorsk train 14174
nynorsk validation 1890
nynorsk test 1511
combined test 29870
combined validation 4300
combined test 3450

数据集创建

策划理由

  • 在这个上下文中,“名字”与“name”接近,因为一个名字有一个唯一的引用,其含义是固定的(注释中有例外情况,如“Regjeringen”(英文“政府”))。
  • 名字的实体类型取决于其使用方式,而不是名字的默认/文字意义。
  • 如果名字的类型/意义存在歧义,则选择名字的默认/文字意义(遵循 Markert and Nissim, 2002 )。
  • 更多详情,请参见与语料库一起分发的“Annotation Guidelines.pdf”。

    源数据

    数据是使用挪威博客、报纸、议会演讲和政府报告收集的挪威文本。

    初始数据收集和规范化

    挪威依赖树库(NDT)中的文本经过手动注释,包括词法特征、句法功能和层次结构。句法注释使用的形式是依存语法。

    该树库分为两部分,一部分是挪威博克马尔语(nob),另一部分是挪威尼诺斯克语(nno)。这两部分都包含约300,000个标记,是不同非虚构体裁的混合。

    更多细节请参见 NDT webpage

    注释

    标注了以下类型的实体:

    • 人物(PER): 真实或虚构的人物和动物
    • 组织(ORG): 任何人群集合,如公司、机构、组织、音乐团体、体育队、工会、政党等
    • 地点(LOC): 地理位置、建筑物和设施
    • 地缘政治实体(GPE): 由政治和/或社会团体定义的地理区域。GPE实体不区分国家、地区、政府或人民
    • 产品(PROD): 人工生产的实体都被视为产品。这可能包括更抽象的实体,如演讲、广播节目、编程语言、合同、法律和思想
    • 事件(EVT): 节日、文化活动、体育赛事、天气现象、战争等。事件在时间和空间上被界定
    • 衍生(DRV): 源自名字但本身不是名字的词(和短语?)。它们通常包含一个完整的名字,首字母大写,但不是专有名词。例子(虚构的)是“Brann-treneren”(“Brann教练”)或“Oslo-mannen”(“来自奥斯陆的男人”)
    • 其他(MISC): 不属于其他类别的名字。例子是动物物种和医疗条件的名称。制造或生产的实体属于产品类型,而自然或自发发生的事物属于其他类型

    此外,所有的GPE实体还被进一步细分为ORG或LOC,这两个注释级别通过下划线分隔:

    • GPE_LOC: 具有地点意义的地缘政治实体(例如,“约翰居住在西班牙”)
    • GPE_ORG: 具有组织意义的地缘政治实体(例如,“西班牙拒绝会见比利时”)

    GPE_LOC和GPE_ORG这两个特殊类型可根据任务进行修改,选择更通用的GPE标签或更具体的LOC和ORG标签,并与相同类型的其他注释合并。这意味着可以得到以下实体类型的集合:

    • 7种类型,删除 _GPE : ORG , LOC , PER , PROD , EVT , DRV , MISC
    • 8种类型,删除 LOC_ 和 ORG_ : ORG , LOC , GPE , PER , PROD , EVT , DRV , MISC
    • 9种类型,保留所有类型: ORG , LOC , GPE_LOC , GPE_ORG , PER , PROD , EVT , DRV , MISC

    类别分布如下,在UD版本的NDT中跨数据拆分并按总数排序(即示例数量,而不是注释跨度内的标记数量):

    Type Train Dev Test Total
    PER 4033 607 560 5200
    ORG 2828 400 283 3511
    GPE_LOC 2132 258 257 2647
    PROD 671 162 71 904
    LOC 613 109 103 825
    GPE_ORG 388 55 50 493
    DRV 519 77 48 644
    EVT 131 9 5 145
    MISC 8 0 0 0

    要访问数据集的这些简化版本,可以使用NER标签集配置bokmaal-7、nynorsk-7、combined-7(使用7个标签:ORG、LOC、PER、PROD、EVT、DRV、MISC)和bokmaal-8、nynorsk-8、combined-8(使用8个标签:LOC_和ORG_:ORG、LOC、GPE、PER、PROD、EVT、DRV、MISC)。默认情况下,将使用完整集合(9个标签)。

    附加信息

    数据集策划者

    NorNE是奥斯陆大学(University of Oslo)的 National Library of Norway Schibsted Media Group Language Technology Group 的合作项目。

    NorNE由挪威国家图书馆的AI-Lab添加到Huggingface数据集。

    许可信息

    NorNE语料库与挪威依赖树库采用相同的 license 进行发布。

    引用信息

    这个数据集在Fredrik Jørgensen, Tobias Aasmoe, Anne-Stine Ruud Husevåg, Lilja Øvrelid和Erik Velldal的论文“NorNE: Annotating Named Entities for Norwegian”中进行了描述,该论文被LREC 2020接受,并作为预印本在此处提供: https://arxiv.org/abs/1911.12146