数据集:

nkjp-ner

语言:

pl

计算机处理:

monolingual

大小:

10K<n<100K

语言创建人:

other

批注创建人:

expert-generated

源数据集:

original

许可:

gpl-3.0
英文

NJKP NER 数据集卡片

数据集摘要

语言语料库是一组文本,可以在其中找到单词或短语的典型用法,以及它们的含义和语法功能。如今,没有语言语料库的访问,进行语言研究、编写字典、语法和语言教材、创建对波兰屈折敏感的搜索引擎、机器翻译引擎和高级语言技术软件已经变得不可能。语言语料库已成为语言学家的必备工具,但也对软件工程师、文学和文化学者、历史学家、图书馆员和其他艺术和计算机科学专家提供帮助。NJKP 的手动注释的 100 万字小语料库可在 GNU GPL v.3 上获得。

支持的任务和排行榜

命名实体识别

[需要更多信息]

语言

波兰语

数据集结构

数据实例

两个带有两列(句子,目标)的 tsv 文件(训练,验证),以及一个仅带有一个(句子)的文件(测试)。

数据字段

  • 句子
  • 目标

数据拆分

数据被分为训练集/验证集/测试集。

数据集创建

策展原理

该数据集是用于改进波兰语言处理的九个评估任务之一。

数据源

初始数据收集和标准化

[需要更多信息]

谁是源语言的生产者?

[需要更多信息]

注释

注释过程

[需要更多信息]

谁是标注者?

[需要更多信息]

个人和敏感信息

[需要更多信息]

使用数据的考虑事项

数据集的社会影响

[需要更多信息]

偏见讨论

[需要更多信息]

其他已知限制

[需要更多信息]

附加信息

数据集策展人

[需要更多信息]

许可信息

GNU GPL v.3

引用信息

@book{przepiorkowski2012narodowy,title={Narodowy korpus j{'e}zyka polskiego},author={Przepi{'o}rkowski, Adam},year={2012},publisher={Naukowe PWN}}

贡献

感谢 @abecadel 添加此数据集。