数据集:
nkjp-ner
任务:
标记分类语言:
pl计算机处理:
monolingual大小:
10K<n<100K语言创建人:
other批注创建人:
expert-generated源数据集:
original许可:
gpl-3.0语言语料库是一组文本,可以在其中找到单词或短语的典型用法,以及它们的含义和语法功能。如今,没有语言语料库的访问,进行语言研究、编写字典、语法和语言教材、创建对波兰屈折敏感的搜索引擎、机器翻译引擎和高级语言技术软件已经变得不可能。语言语料库已成为语言学家的必备工具,但也对软件工程师、文学和文化学者、历史学家、图书馆员和其他艺术和计算机科学专家提供帮助。NJKP 的手动注释的 100 万字小语料库可在 GNU GPL v.3 上获得。
命名实体识别
[需要更多信息]
波兰语
两个带有两列(句子,目标)的 tsv 文件(训练,验证),以及一个仅带有一个(句子)的文件(测试)。
数据被分为训练集/验证集/测试集。
该数据集是用于改进波兰语言处理的九个评估任务之一。
[需要更多信息]
谁是源语言的生产者?[需要更多信息]
[需要更多信息]
谁是标注者?[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
[需要更多信息]
GNU GPL v.3
@book{przepiorkowski2012narodowy,title={Narodowy korpus j{'e}zyka polskiego},author={Przepi{'o}rkowski, Adam},year={2012},publisher={Naukowe PWN}}
感谢 @abecadel 添加此数据集。