数据集:
norne
任务:
标记分类语言:
no计算机处理:
monolingual大小:
10K<n<100K语言创建人:
crowdsourced批注创建人:
expert-generated源数据集:
original预印本库:
arxiv:1911.12146许可:
otherNorNE 是一个手动标注的命名实体语料库,扩展了现有的挪威依存树库的标注。该语料库涵盖了书面挪威语(Bokmål 和 Nynorsk)的官方标准,包含约 600,000 个词元,并注释了丰富的实体类型,包括人物、组织机构、地点、地缘政治实体、产品和事件,此外还有一个对应于从名称派生的名词类别。
此数据集有 3 个主要配置,每个配置有 3 个 NER 标签集的版本。当访问 bokmaal、nynorsk 或 combined 配置时,NER 标签集将包含 9 个标签:GPE_ORG、GPE_LOC、ORG、LOC、PER、PROD、EVT、DRV 和 MISC。两个特殊类型 GPE_LOC 和 GPE_ORG 可以根据任务的需要进行更改,选择更一般的 GPE 标签或更具体的 LOC/ORG 标签,并将其与相同类型的其他标注合并。要访问这些较小版本的数据集,可以使用 bokmaal-7、nynorsk-7、combined-7 配置获取带有 7 个标签(ORG、LOC、PER、PROD、EVT、DRV、MISC)的 NER 标签集,以及 bokmaal-8、nynorsk-8、combined-8 配置获取带有 8 个标签(LOC_ 和 ORG_:ORG、LOC、GPE、PER、PROD、EVT、DRV、MISC)的 NER 标签集。默认情况下,将使用完整的标签集(9 个标签)。有关详细信息,请参阅注释部分。
NorNE 在挪威依存树库之上添加了命名实体注释。
该数据集支持挪威语书面标准(bokmaal)和挪威语方言(nynorsk)作为此数据集中的不同配置。还包含了一个合并语言的额外配置(combined)。有关使用减少的标签集访问 NER 功能的详细信息,请参阅注释部分。
每个条目包含文本句子、语言、标识符、标记和对应的 NER 和 POS 标签列表。
bokmaal 配置的 train 部分的示例。
{'idx': '000001', 'lang': 'bokmaal', 'lemmas': ['lam', 'og', 'piggvar', 'på', 'bryllupsmeny'], 'ner_tags': [0, 0, 0, 0, 0], 'pos_tags': [0, 9, 0, 5, 0], 'text': 'Lam og piggvar på bryllupsmenyen', 'tokens': ['Lam', 'og', 'piggvar', 'på', 'bryllupsmenyen']}
每个条目的注释包括以下字段:
从数据集中获取的示例 DataFrame 如下:
idx | lang | text | tokens | lemmas | ner_tags | pos_tags | |
---|---|---|---|---|---|---|---|
0 | 000001 | bokmaal | Lam og piggvar på bryllupsmenyen | [Lam, og, piggvar, på, bryllupsmenyen] | [lam, og, piggvar, på, bryllupsmeny] | [0, 0, 0, 0, 0] | [0, 9, 0, 5, 0] |
1 | 000002 | bokmaal | Kamskjell, piggvar og lammefilet sto på menyen... | [Kamskjell, ,, piggvar, og, lammefilet, sto, p... | [kamskjell, $,, piggvar, og, lammefilet, stå, ... | [0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0, 0] | [0, 1, 0, 9, 0, 15, 2, 0, 2, 8, 6, 0, 1] |
2 | 000003 | bokmaal | Og til dessert: Parfait à la Mette-Marit. | [Og, til, dessert, :, Parfait, à, la, Mette-Ma... | [og, til, dessert, $:, Parfait, à, la, Mette-M... | [0, 0, 0, 0, 7, 8, 8, 8, 0] | [9, 2, 0, 1, 10, 12, 12, 10, 1] |
数据集包含 train、validation 和 test 三个拆分。
Config | Split | Total |
---|---|---|
bokmaal | train | 15696 |
bokmaal | validation | 2410 |
bokmaal | test | 1939 |
nynorsk | train | 14174 |
nynorsk | validation | 1890 |
nynorsk | test | 1511 |
combined | test | 29870 |
combined | validation | 4300 |
combined | test | 3450 |
更多详细信息,请参见与语料库一起分发的 "Annotation Guidelines.pdf"。
数据是使用挪威语的博客、报纸以及议会演讲和政府报告收集的。
初始数据收集和规范化挪威依存树库(NDT)中的文本是手动进行形态特征、句法功能和层次结构标注的。用于句法注释的形式主义是依存语法。
该树库由两部分组成,一部分是挪威语书面标准(nob),另一部分是挪威语方言(nno)。两部分都包含约 300,000 个标记,并且是不同的非虚构流派的混合体。
有关更多详细信息,请参阅 NDT webpage 。
对以下实体类型进行了注释:
此外,所有 GPE 实体还额外细分为 ORG 或 LOC,两个注释级别之间用下划线分隔:
可以根据任务的需要轻松更改 GPE_LOC 和 GPE_ORG 这两个特殊类型,选择更一般的 GPE 标签或更具体的 LOC/ORG 标签,并将其与相同类型的其他标注合并。这意味着可以派生出以下实体类型集合:
按总计数(即示例个数,而不是注释跨度中的标记个数)对其进行分类排序,类分布如下:
Type | Train | Dev | Test | Total |
---|---|---|---|---|
PER | 4033 | 607 | 560 | 5200 |
ORG | 2828 | 400 | 283 | 3511 |
GPE_LOC | 2132 | 258 | 257 | 2647 |
PROD | 671 | 162 | 71 | 904 |
LOC | 613 | 109 | 103 | 825 |
GPE_ORG | 388 | 55 | 50 | 493 |
DRV | 519 | 77 | 48 | 644 |
EVT | 131 | 9 | 5 | 145 |
MISC | 8 | 0 | 0 | 0 |
要访问这些减小的数据集版本,可以使用 bokmaal-7、nynorsk-7、combined-7 的配置获取带有 7 个标签(ORG、LOC、PER、PROD、EVT、DRV、MISC)的 NER 标签集,以及 bokmaal-8、nynorsk-8、combined-8 的配置获取带有 8 个标签(LOC_ 和 ORG_:ORG、LOC、GPE、PER、PROD、EVT、DRV、MISC)的 NER 标签集。默认情况下,将使用完整的标签集(9 个标签)。
NorNE 是由 Schibsted Media Group 、 Språkbanken 在 National Library of Norway 和 Language Technology Group 的奥斯陆大学合作创建的。
NorNE 是由挪威国家图书馆 AI-Lab 添加到 ? 数据集的。
NorNE 语料库采用与挪威依存树库相同的许可证
本数据集的描述详见文章 "NorNE: Annotating Named Entities for Norwegian",作者们是 Fredrik Jørgensen、Tobias Aasmoe、Anne-Stine Ruud Husevåg、Lilja Øvrelid 和 Erik Velldal,该文章已被 LREC 2020 接受,并在这里作为预印本提供: https://arxiv.org/abs/1911.12146 。
@inproceedings{johansen2019ner, title={NorNE: Annotating Named Entities for Norwegian}, author={Fredrik Jørgensen, Tobias Aasmoe, Anne-Stine Ruud Husevåg, Lilja Øvrelid, and Erik Velldal}, booktitle={LREC 2020}, year={2020}, url={https://arxiv.org/abs/1911.12146} }
感谢 @versae 添加了此数据集。