模型:

allegro/herbert-klej-cased-v1

英文

HerBERT

HerBERT 是基于BERT的语言模型,使用波兰语语料库进行训练,仅使用MLM目标,对整个单词进行动态掩码。有关更多详细信息,请参阅: KLEJ: Comprehensive Benchmark for Polish Language Understanding

数据集

HerBERT训练数据集是波兰语言的几个公开可用语料库的组合:

Corpus Tokens Texts
1235321 6710M 145M
1236321 1084M 1.1M
1237321 260M 1.5M
1238321 41M 5.5k
1239321 18M 33k

分词器

训练数据集使用 HerBERT Tokenizer 进行子词标记化;这是一种字符级字节对编码,词汇表大小为50k个标记。分词器本身是在 Wolne Lektury 和公开可用的 National Corpus of Polish 子集上进行训练的,使用了 fastBPE 库。

分词器使用XLMTokenizer实现,因此应该以allegro/herbert-klej-cased-tokenizer-v1为加载对象。

HerBERT模型摘要

Model WWM Cased Tokenizer Vocab Size Batch Size Train Steps
herbert-klej-cased-v1 YES YES BPE 50K 570 180k

模型评估

HerBERT在 KLEJ 基准测试中进行了评估,这是一个针对波兰语理解的公开可用的九个评估任务的集合。它在平均性能方面表现最好,并在其中三个任务中取得了最佳结果。

Model Average NKJP-NER CDSC-E CDSC-R CBD PolEmo2.0-IN\t PolEmo2.0-OUT DYK PSC AR\t
herbert-klej-cased-v1 80.5 92.7 92.5 91.9 50.3 89.2 76.3 52.1 95.3 84.5

完整的排行榜可查看 online

HerBERT使用

模型训练和实验是使用 transformers 版本2.0进行的。

示例代码:

from transformers import XLMTokenizer, RobertaModel

tokenizer = XLMTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1")
model = RobertaModel.from_pretrained("allegro/herbert-klej-cased-v1")

encoded_input = tokenizer.encode("Kto ma lepszą sztukę, ma lepszy rząd – to jasne.", return_tensors='pt')
outputs = model(encoded_input)

也可以使用AutoTokenizer和AutoModel加载HerBERT:

tokenizer = AutoTokenizer.from_pretrained("allegro/herbert-klej-cased-tokenizer-v1")
model = AutoModel.from_pretrained("allegro/herbert-klej-cased-v1")

许可

CC BY-SA 4.0

引用

如果您使用了这个模型,请引用以下论文:

@inproceedings{rybak-etal-2020-klej,
    title = "{KLEJ}: Comprehensive Benchmark for {P}olish Language Understanding",
    author = "Rybak, Piotr  and
      Mroczkowski, Robert  and
      Tracz, Janusz  and
      Gawlik, Ireneusz",
    booktitle = "Proceedings of the 58th Annual Meeting of the Association for Computational Linguistics",
    month = jul,
    year = "2020",
    address = "Online",
    publisher = "Association for Computational Linguistics",
    url = "https://www.aclweb.org/anthology/2020.acl-main.111",
    doi = "10.18653/v1/2020.acl-main.111",
    pages = "1191--1201",
}

作者

该模型由 Allegro 机器学习研究团队进行训练。

您可以通过 klejbenchmark@allegro.pl 联系我们。