Ukr-Synth数据集卡片

数据集描述

数据集摘要

大规模的乌克兰语句子语料库，带有形态标签、句法树和PER、LOC、ORG NER标签。代表了 Leipzig Corpora Collection for Ukrainian Language 的一部分样本。源文本是报纸文本，被分成句子并进行了混洗。句子使用基于Transformer的模型进行注释，模型是使用黄金标准的乌克兰语言数据集进行训练的。

语言

乌克兰语

数据集结构

数据拆分

name	train	validation
conll2003	1000000	10000

数据集创建

源数据

Leipzig语料库收藏：

D. Goldhahn, T. Eckart & U. Quasthoff: Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages.In: Proceedings of the 8th International Language Resources and Evaluation (LREC'12), 2012

附加信息

许可信息

MIT许可证

版权（c）2022

特此免费授予任何获得本软件及相关文档文件（以下简称“软件”）副本的人，无限制地处理本软件，包括但不限于使用、复制、修改、合并、发布、分发、再许可、销售本软件的副本，以及允许获得本软件的人这样做，但须满足以下条件：

本软件按原样提供，不作任何明示或暗示的保证，包括但不限于适销性、特定用途适用性和非侵权性的保证。作者或版权持有人在任何情况下均不对任何索赔、损害或其他责任承担责任，无论是因合同诉讼、侵权行为还是其他原因引起，与该软件或使用或其他可能相关的软件有关。

作者:

ukr-models

数据集大小:

241.59 MB