模型:
allegro/herbert-klej-cased-v1
HerBERT 是基于BERT的语言模型,使用波兰语语料库进行训练,仅使用MLM目标,对整个单词进行动态掩码。有关更多详细信息,请参阅: KLEJ: Comprehensive Benchmark for Polish Language Understanding 。
HerBERT训练数据集是波兰语言的几个公开可用语料库的组合:
Corpus | Tokens | Texts |
---|---|---|
1235321 | 6710M | 145M |
1236321 | 1084M | 1.1M |
1237321 | 260M | 1.5M |
1238321 | 41M | 5.5k |
1239321 | 18M | 33k |
训练数据集使用 HerBERT Tokenizer 进行子词标记化;这是一种字符级字节对编码,词汇表大小为50k个标记。分词器本身是在 Wolne Lektury 和公开可用的 National Corpus of Polish 子集上进行训练的,使用了 fastBPE 库。
分词器使用XLMTokenizer实现,因此应该以allegro/herbert-klej-cased-tokenizer-v1为加载对象。
Model | WWM | Cased | Tokenizer | Vocab Size | Batch Size | Train Steps |
---|---|---|---|---|---|---|
herbert-klej-cased-v1 | YES | YES | BPE | 50K | 570 | 180k |
HerBERT在 KLEJ 基准测试中进行了评估,这是一个针对波兰语理解的公开可用的九个评估任务的集合。它在平均性能方面表现最好,并在其中三个任务中取得了最佳结果。
Model | Average | NKJP-NER | CDSC-E | CDSC-R | CBD | PolEmo2.0-IN\t | PolEmo2.0-OUT | DYK | PSC | AR\t |
---|---|---|---|---|---|---|---|---|---|---|
herbert-klej-cased-v1 | 80.5 | 92.7 | 92.5 | 91.9 | 50.3 | 89.2 | 76.3 | 52.1 | 95.3 | 84.5 |
完整的排行榜可查看 online 。
模型训练和实验是使用 transformers 版本2.0进行的。
示例代码:
from transformers import XLMTokenizer, RobertaModel tokenizer = XLMTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1") model = RobertaModel.from_pretrained("allegro/herbert-klej-cased-v1") encoded_input = tokenizer.encode("Kto ma lepszą sztukę, ma lepszy rząd – to jasne.", return_tensors='pt') outputs = model(encoded_input)
也可以使用AutoTokenizer和AutoModel加载HerBERT:
tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1") model = AutoModel.from_pretrained("allegro/herbert-klej-cased-v1")
CC BY-SA 4.0
如果您使用了这个模型,请引用以下论文:
@inproceedings{rybak-etal-2020-klej, title = "{KLEJ}: Comprehensive Benchmark for {P}olish Language Understanding", author = "Rybak, Piotr and Mroczkowski, Robert and Tracz, Janusz and Gawlik, Ireneusz", booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics", month = jul, year = "2020", address = "Online", publisher = "Association for Computational Linguistics", url = "https://www.aclweb.org/anthology/2020.acl-main.111", doi = "10.18653/v1/2020.acl-main.111", pages = "1191--1201", }
该模型由 Allegro 机器学习研究团队进行训练。
您可以通过 klejbenchmark@allegro.pl 联系我们。