数据集:

ipipan/nkjp1m

英文

NKJP1M数据集 - 波兰国家语料库的手工标注子语料库

数据集摘要

这是NKJP1M的官方数据集 - 波兰国家语料库(Narodowy Korpus Języka Polskiego)的100万词汇平衡子语料库

除了文本(分段/样本和句子),该数据集还包含语料库中所有标记的词形和句法标签。

此版本被称为NKJP1M-SGJP,对应于1.2版的语料库,后来进行了纠正和改进。特别是句法标注已与Morfeusz2 SGJP形态分析器的当前版本(截至2022.12.04)对齐。

支持的任务和排行榜

此资源的主要用途是训练波兰词形还原和词性标注模型。

语言

波兰语(单语)

数据集结构

数据实例

{'nkjp_text': 'NKJP_1M_1102000002',
 'nkjp_par': 'morph_1-p',
 'nkjp_sent': 'morph_1.18-s',
 'tokens': ['-', 'Nie', 'mam', 'pieniędzy', ',', 'da', 'mi', 'pani', 'wywiad', '?'],
 'lemmas': ['-', 'nie', 'mieć', 'pieniądz', ',', 'dać', 'ja', 'pani', 'wywiad', '?'],
 'cposes': [8, 11, 10, 9, 8, 10, 9, 9, 9, 8],
 'poses': [19, 25, 12, 35, 19, 12, 28, 35, 35, 19],
 'tags': [266, 464, 213, 923, 266, 218, 692, 988, 961, 266],
 'nps': [False, False, False, False, True, False, False, False, False, True],
 'nkjp_ids': ['morph_1.9-seg', 'morph_1.10-seg', 'morph_1.11-seg', 'morph_1.12-seg', 'morph_1.13-seg', 'morph_1.14-seg', 'morph_1.15-seg', 'morph_1.16-seg', 'morph_1.17-seg', 'morph_1.18-seg']}

数据字段

  • nkjp_text,nkjp_par,nkjp_sent(字符串):NKJP中当前文本(文档),段落和句子的XML标识符。(这些允许将数据点映射回源语料库并标识段落/样本。)
  • tokens(字符串序列):NKJP中定义的文本标记。
  • lemmas(字符串序列):对应于标记的词形。
  • tags(标签序列):根据Morfeusz2标记集的句法标签(1019个不同标签)。
  • poses(标签序列):屈折类别(详细的词类,40个类)- 相应标签的第一个元素。
  • cposes(标签序列):词类(13个类):把所有动词和派生动词的屈折类别映射为V,名词类别映射为N,形容词类别映射为A,"奇怪"(缩写,外来元素,符号,表情符号...)映射为X,其他情况与poses相同。
  • nps(布尔序列):True表示对应的标记在源文本中没有前导空格。
  • nkjp_ids(字符串序列):NKJP中特定标记的XML标识符(可能过于详细)。

数据拆分

Train Validation Test
sentences 68943 7755 8964
tokens 978368 112454 125059

数据集创建

策划理由

波兰国家语料库(NKJP)被设想为当代波兰的参考语料库。

手工标记的子语料库(NKJP1M)被认为是各种自然语言处理任务的训练数据。

源数据

NKJP相对于波兰读者的平衡性。详细的理由在第3章中描述 NKJP book (大致上:50%新闻,30%书籍,10%演讲,10%其他)。语料库包含1945年至2010年的文本(其中80%的文本在1990年至2010年范围内)。仅收集了波兰语原始文本(没有其他语言的翻译)。NKJP1M的构成遵循此模式(见第5章)。

注释

NKJP使用的形态句法标注规则在第6章中讨论 NKJP book .目前(2020年),该语料库使用与形态分析器相关的公共标签集 Morfeusz 2 .

注释过程

文本使用Morfeusz进行处理,然后手动消除歧义,并进行验证/更正。每个文本样本由两个标注员独立处理。如果存在注释冲突,则由仲裁者介入。

许可信息

这项工作根据 Creative Commons Attribution 4.0 International License 许可。

引用信息

关于源语料库的信息: link

@Book{nkjp:12,
  editor =       "Adam Przepiórkowski and Mirosław Bańko and Rafał
                  L. Górski and Barbara Lewandowska-Tomaszczyk",
  title =        "Narodowy Korpus Języka Polskiego",
  year =         2012,
  address =      "Warszawa",
  pdf =          "http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf",
  publisher =    "Wydawnictwo Naukowe PWN"}

当前的标注方案: link

@article{
    kie:etal:21,
    author = "Kieraś, Witold and Woliński, Marcin and Nitoń, Bartłomiej",
    doi = "https://doi.org/10.31286/JP.101.2.5",
    title = "Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego {N}arodowego {K}orpusu {J}ęzyka {P}olskiego",
    url = "https://jezyk-polski.pl/index.php/jp/article/view/72",
    journal = "Język Polski",
    number = "2",
    volume = "CI",
    year = "2021",
    pages = "59--70"
}