数据集:
NbAiLab/norne
任务:
标记分类语言:
no计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1911.12146许可:
otherNorNE是一个手动标注的命名实体语料库,它扩展了现有的挪威依赖树库的注释。该语料库包含约600,000个标记,并注释了丰富的实体类型,包括人物、组织、地点、地缘政治实体、产品和事件,还包括与名字相关的名词衍生类。
NorNE在挪威依赖树库的基础上添加了命名实体注释。
该数据集支持挪威博克马尔语(bokmål)和挪威尼诺斯克语(nynorsk)作为不同的配置。还包括一个合并语言的附加配置(combined)。请参阅注释部分,了解访问NER特征的简化标签集的详细信息。
每个条目包含文本句子、语言、标识符、标记和对应的NER和POS标签列表。
bokmaal配置的train分割的例子。
{'idx': '000001', 'lang': 'bokmaal', 'lemmas': ['lam', 'og', 'piggvar', 'på', 'bryllupsmeny'], 'ner_tags': [0, 0, 0, 0, 0], 'pos_tags': [0, 9, 0, 5, 0], 'text': 'Lam og piggvar på bryllupsmenyen', 'tokens': ['Lam', 'og', 'piggvar', 'på', 'bryllupsmenyen']}
每个条目都使用下列字段进行了标注:
从数据集中获取的示例DataFrame:
idx | lang | text | tokens | lemmas | ner_tags | pos_tags | |
---|---|---|---|---|---|---|---|
0 | 000001 | bokmaal | Lam og piggvar på bryllupsmenyen | [Lam, og, piggvar, på, bryllupsmenyen] | [lam, og, piggvar, på, bryllupsmeny] | [0, 0, 0, 0, 0] | [0, 9, 0, 5, 0] |
1 | 000002 | bokmaal | Kamskjell, piggvar og lammefilet sto på menyen... | [Kamskjell, ,, piggvar, og, lammefilet, sto, p... | [kamskjell, $,, piggvar, og, lammefilet, stå, ... | [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | [0, 1, 0, 9, 0, 15, 2, 0, 2, 8, 6, 0, 1] |
2 | 000003 | bokmaal | Og til dessert: Parfait à la Mette-Marit. | [Og, til, dessert, :, Parfait, à, la, Mette-Ma... | [og, til, dessert, $:, Parfait, à, la, Mette-M... | [0, 0, 0, 0, 7, 8, 8, 8, 0] | [9, 2, 0, 1, 10, 12, 12, 10, 1] |
有三个拆分:train、validation和test。
Config | Split | Total |
---|---|---|
bokmaal | train | 15696 |
bokmaal | validation | 2410 |
bokmaal | test | 1939 |
nynorsk | train | 14174 |
nynorsk | validation | 1890 |
nynorsk | test | 1511 |
combined | test | 29870 |
combined | validation | 4300 |
combined | test | 3450 |
更多详情,请参见与语料库一起分发的“Annotation Guidelines.pdf”。
数据是使用挪威博客、报纸、议会演讲和政府报告收集的挪威文本。
挪威依赖树库(NDT)中的文本经过手动注释,包括词法特征、句法功能和层次结构。句法注释使用的形式是依存语法。
该树库分为两部分,一部分是挪威博克马尔语(nob),另一部分是挪威尼诺斯克语(nno)。这两部分都包含约300,000个标记,是不同非虚构体裁的混合。
更多细节请参见 NDT webpage 。
标注了以下类型的实体:
此外,所有的GPE实体还被进一步细分为ORG或LOC,这两个注释级别通过下划线分隔:
GPE_LOC和GPE_ORG这两个特殊类型可根据任务进行修改,选择更通用的GPE标签或更具体的LOC和ORG标签,并与相同类型的其他注释合并。这意味着可以得到以下实体类型的集合:
类别分布如下,在UD版本的NDT中跨数据拆分并按总数排序(即示例数量,而不是注释跨度内的标记数量):
Type | Train | Dev | Test | Total |
---|---|---|---|---|
PER | 4033 | 607 | 560 | 5200 |
ORG | 2828 | 400 | 283 | 3511 |
GPE_LOC | 2132 | 258 | 257 | 2647 |
PROD | 671 | 162 | 71 | 904 |
LOC | 613 | 109 | 103 | 825 |
GPE_ORG | 388 | 55 | 50 | 493 |
DRV | 519 | 77 | 48 | 644 |
EVT | 131 | 9 | 5 | 145 |
MISC | 8 | 0 | 0 | 0 |
要访问数据集的这些简化版本,可以使用NER标签集配置bokmaal-7、nynorsk-7、combined-7(使用7个标签:ORG、LOC、PER、PROD、EVT、DRV、MISC)和bokmaal-8、nynorsk-8、combined-8(使用8个标签:LOC_和ORG_:ORG、LOC、GPE、PER、PROD、EVT、DRV、MISC)。默认情况下,将使用完整集合(9个标签)。
NorNE是奥斯陆大学(University of Oslo)的 National Library of Norway 的 Schibsted Media Group 和 Language Technology Group 的合作项目。
NorNE由挪威国家图书馆的AI-Lab添加到Huggingface数据集。
NorNE语料库与挪威依赖树库采用相同的 license 进行发布。
这个数据集在Fredrik Jørgensen, Tobias Aasmoe, Anne-Stine Ruud Husevåg, Lilja Øvrelid和Erik Velldal的论文“NorNE: Annotating Named Entities for Norwegian”中进行了描述,该论文被LREC 2020接受,并作为预印本在此处提供: https://arxiv.org/abs/1911.12146 。