数据集:

ukr-models/Ukr-Synth

语言:

uk

计算机处理:

monolingual

大小:

1M<n<10M

语言创建人:

found

批注创建人:

machine-generated

许可:

mit
英文

Ukr-Synth数据集卡片

数据集描述

数据集摘要

大规模的乌克兰语句子语料库,带有形态标签、句法树和PER、LOC、ORG NER标签。代表了 Leipzig Corpora Collection for Ukrainian Language 的一部分样本。源文本是报纸文本,被分成句子并进行了混洗。句子使用基于Transformer的模型进行注释,模型是使用黄金标准的乌克兰语言数据集进行训练的。

语言

乌克兰语

数据集结构

数据拆分

name train validation
conll2003 1000000 10000

数据集创建

源数据

Leipzig语料库收藏:

D. Goldhahn, T. Eckart & U. Quasthoff: Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages.In: Proceedings of the 8th International Language Resources and Evaluation (LREC'12), 2012

附加信息

许可信息

MIT许可证

版权(c)2022

特此免费授予任何获得本软件及相关文档文件(以下简称“软件”)副本的人,无限制地处理本软件,包括但不限于使用、复制、修改、合并、发布、分发、再许可、销售本软件的副本,以及允许获得本软件的人这样做,但须满足以下条件:

上述版权声明和本许可声明应包含在所有副本或实质部分的软件中。

本软件按原样提供,不作任何明示或暗示的保证,包括但不限于适销性、特定用途适用性和非侵权性的保证。作者或版权持有人在任何情况下均不对任何索赔、损害或其他责任承担责任,无论是因合同诉讼、侵权行为还是其他原因引起,与该软件或使用或其他可能相关的软件有关。