模型:
UWB-AIR/Czert-B-base-cased
该仓库保存了CZERT-B论文的训练模型。有关更多信息,请参阅论文
您可以下载MLM&NSP预训练模型 CZERT-A-v1 CZERT-B-v1
在进行一些额外实验后,我们发现分词器配置信息的导出存在错误。在CZERT-B-v1中,分词器参数“do_lower_case”错误地设置为true。在CZERT-A-v1中,参数“strip_accents”错误地设置为true。
这两个错误在v2中得到修复。 CZERT-A-v2 CZERT-B-v2
或者您可以从Fine-tuned模型中选择一个
Models | |
---|---|
Sentiment Classification (Facebook or CSFD) | 1236321 1237321 1238321 1239321 |
Named Entity Recognition | 12310321 12311321 12312321 12313321 12314321 12315321 |
Morphological Tagging | 12316321 12317321 |
Semantic Role Labelling | 12318321 12319321 |
我们在两个句子级任务上评估我们的模型:
\t
我们在一个文档级任务上评估我们的模型
我们在三个标记级任务上评估我们的模型:
mBERT | SlavicBERT | ALBERT-r | Czert-A | Czert-B | |
---|---|---|---|---|---|
FB | 71.72 ± 0.91 | 73.87 ± 0.50 | 59.50 ± 0.47 | 72.47 ± 0.72 | 76.55 ± 0.14 |
CSFD | 82.80 ± 0.14 | 82.51 ± 0.14 | 75.40 ± 0.18 | 79.58 ± 0.46 | 84.79 ± 0.26 |
情感分类任务的平均F1结果。有关更多信息,请参阅 the paper 。
mBERT | Pavlov | Albert-random | Czert-A | Czert-B | |
---|---|---|---|---|---|
STA-CNA | 83.335 ± 0.063 | 83.593 ± 0.050 | 43.184 ± 0.125 | 82.942 ± 0.106 | 84.345 ± 0.028 |
STS-SVOB-img | 79.367 ± 0.486 | 79.900 ± 0.810 | 15.739 ± 2.992 | 79.444 ± 0.338 | 83.744 ± 0.395 |
STS-SVOB-hl | 78.833 ± 0.296 | 76.996 ± 0.305 | 33.949 ± 1.807 | 75.089 ± 0.806 | 79.827 ± 0.469 |
在语义文本相似度上,使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行的Pearson相关性对比。有关更多信息,请参阅 the paper 。
mBERT | SlavicBERT | ALBERT-r | Czert-A | Czert-B | |
---|---|---|---|---|---|
AUROC | 97.62 ± 0.08 | 97.80 ± 0.06 | 94.35 ± 0.13 | 97.49 ± 0.07 | 98.00 ± 0.04 |
F1 | 83.04 ± 0.16 | 84.08 ± 0.14 | 72.44 ± 0.22 | 82.27 ± 0.17 | 85.06 ± 0.11 |
使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行的多标签文档分类的F1和AUROC分数对比。有关更多信息,请参阅 the paper 。
mBERT | Pavlov | Albert-random | Czert-A | Czert-B | |
---|---|---|---|---|---|
Universal Dependencies | 99.176 ± 0.006 | 99.211 ± 0.008 | 96.590 ± 0.096 | 98.713 ± 0.008 | 99.300 ± 0.009 |
使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行的形态标记任务的F1分数对比。有关更多信息,请参阅 the paper 。
mBERT | Pavlov | Albert-random | Czert-A | Czert-B | dep-based | gold-dep | |
---|---|---|---|---|---|---|---|
span | 78.547 ± 0.110 | 79.333 ± 0.080 | 51.365 ± 0.423 | 72.254 ± 0.172 | 81.861 ± 0.102 | \\- | \\- |
syntax | 90.226 ± 0.224 | 90.492 ± 0.040 | 80.747 ± 0.131 | 80.319 ± 0.054 | 91.462 ± 0.062 | 85.19 | 89.52 |
SRL结果 - dep列使用了CoNLL 2009评估脚本的标记F1进行评估,其他列使用了与NER评估相同的span F1分数进行评估。有关更多信息,请参阅 the paper 。
mBERT | Pavlov | Albert-random | Czert-A | Czert-B | |
---|---|---|---|---|---|
CNEC | 86.225 ± 0.208 | 86.565 ± 0.198 | 34.635 ± 0.343 | 72.945 ± 0.227 | 86.274 ± 0.116 |
BSNLP 2019 | 84.006 ± 1.248 | 86.699 ± 0.370 | 19.773 ± 0.938 | 48.859 ± 0.605 | 86.729 ± 0.344 |
在命名实体识别任务上,使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行的F1分数对比。有关更多信息,请参阅 the paper 。
本作品采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议进行许可。 http://creativecommons.org/licenses/by-nc-sa/4.0/
目前,请引用 the Arxiv paper :
@article{sido2021czert, title={Czert -- Czech BERT-like Model for Language Representation}, author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík}, year={2021}, eprint={2103.13031}, archivePrefix={arXiv}, primaryClass={cs.CL}, journal={arXiv preprint arXiv:2103.13031}, }