数据集:
ipipan/nkjp1m
许可:
cc-by-4.0源数据集:
original批注创建人:
expert-generated语言创建人:
expert-generated大小:
10K<n<100K计算机处理:
monolingual语言:
pl任务:
标记分类这是NKJP1M的官方数据集 - 波兰国家语料库(Narodowy Korpus Języka Polskiego)的100万词汇平衡子语料库
除了文本(分段/样本和句子),该数据集还包含语料库中所有标记的词形和句法标签。
此版本被称为NKJP1M-SGJP,对应于1.2版的语料库,后来进行了纠正和改进。特别是句法标注已与Morfeusz2 SGJP形态分析器的当前版本(截至2022.12.04)对齐。
此资源的主要用途是训练波兰词形还原和词性标注模型。
波兰语(单语)
{'nkjp_text': 'NKJP_1M_1102000002', 'nkjp_par': 'morph_1-p', 'nkjp_sent': 'morph_1.18-s', 'tokens': ['-', 'Nie', 'mam', 'pieniędzy', ',', 'da', 'mi', 'pani', 'wywiad', '?'], 'lemmas': ['-', 'nie', 'mieć', 'pieniądz', ',', 'dać', 'ja', 'pani', 'wywiad', '?'], 'cposes': [8, 11, 10, 9, 8, 10, 9, 9, 9, 8], 'poses': [19, 25, 12, 35, 19, 12, 28, 35, 35, 19], 'tags': [266, 464, 213, 923, 266, 218, 692, 988, 961, 266], 'nps': [False, False, False, False, True, False, False, False, False, True], 'nkjp_ids': ['morph_1.9-seg', 'morph_1.10-seg', 'morph_1.11-seg', 'morph_1.12-seg', 'morph_1.13-seg', 'morph_1.14-seg', 'morph_1.15-seg', 'morph_1.16-seg', 'morph_1.17-seg', 'morph_1.18-seg']}
Train | Validation | Test | |
---|---|---|---|
sentences | 68943 | 7755 | 8964 |
tokens | 978368 | 112454 | 125059 |
波兰国家语料库(NKJP)被设想为当代波兰的参考语料库。
手工标记的子语料库(NKJP1M)被认为是各种自然语言处理任务的训练数据。
NKJP相对于波兰读者的平衡性。详细的理由在第3章中描述 NKJP book (大致上:50%新闻,30%书籍,10%演讲,10%其他)。语料库包含1945年至2010年的文本(其中80%的文本在1990年至2010年范围内)。仅收集了波兰语原始文本(没有其他语言的翻译)。NKJP1M的构成遵循此模式(见第5章)。
NKJP使用的形态句法标注规则在第6章中讨论 NKJP book .目前(2020年),该语料库使用与形态分析器相关的公共标签集 Morfeusz 2 .
注释过程文本使用Morfeusz进行处理,然后手动消除歧义,并进行验证/更正。每个文本样本由两个标注员独立处理。如果存在注释冲突,则由仲裁者介入。
这项工作根据 Creative Commons Attribution 4.0 International License 许可。
关于源语料库的信息: link
@Book{nkjp:12, editor = "Adam Przepiórkowski and Mirosław Bańko and Rafał L. Górski and Barbara Lewandowska-Tomaszczyk", title = "Narodowy Korpus Języka Polskiego", year = 2012, address = "Warszawa", pdf = "http://nkjp.pl/settings/papers/NKJP_ksiazka.pdf", publisher = "Wydawnictwo Naukowe PWN"}
当前的标注方案: link
@article{ kie:etal:21, author = "Kieraś, Witold and Woliński, Marcin and Nitoń, Bartłomiej", doi = "https://doi.org/10.31286/JP.101.2.5", title = "Nowe wielowarstwowe znakowanie lingwistyczne zrównoważonego {N}arodowego {K}orpusu {J}ęzyka {P}olskiego", url = "https://jezyk-polski.pl/index.php/jp/article/view/72", journal = "Język Polski", number = "2", volume = "CI", year = "2021", pages = "59--70" }