数据集:
ukr-models/Ukr-Synth
大规模的乌克兰语句子语料库,带有形态标签、句法树和PER、LOC、ORG NER标签。代表了 Leipzig Corpora Collection for Ukrainian Language 的一部分样本。源文本是报纸文本,被分成句子并进行了混洗。句子使用基于Transformer的模型进行注释,模型是使用黄金标准的乌克兰语言数据集进行训练的。
乌克兰语
name | train | validation |
---|---|---|
conll2003 | 1000000 | 10000 |
Leipzig语料库收藏:
D. Goldhahn, T. Eckart & U. Quasthoff: Building Large Monolingual Dictionaries at the Leipzig Corpora Collection: From 100 to 200 Languages.In: Proceedings of the 8th International Language Resources and Evaluation (LREC'12), 2012
MIT许可证
版权(c)2022
特此免费授予任何获得本软件及相关文档文件(以下简称“软件”)副本的人,无限制地处理本软件,包括但不限于使用、复制、修改、合并、发布、分发、再许可、销售本软件的副本,以及允许获得本软件的人这样做,但须满足以下条件:
上述版权声明和本许可声明应包含在所有副本或实质部分的软件中。
本软件按原样提供,不作任何明示或暗示的保证,包括但不限于适销性、特定用途适用性和非侵权性的保证。作者或版权持有人在任何情况下均不对任何索赔、损害或其他责任承担责任,无论是因合同诉讼、侵权行为还是其他原因引起,与该软件或使用或其他可能相关的软件有关。