模型:

UWB-AIR/Czert-B-base-cased

英文

CZERT

该仓库保存了CZERT-B论文的训练模型。有关更多信息,请参阅论文

可用模型

您可以下载MLM&NSP预训练模型 CZERT-A-v1 CZERT-B-v1

在进行一些额外实验后,我们发现分词器配置信息的导出存在错误。在CZERT-B-v1中,分词器参数“do_lower_case”错误地设置为true。在CZERT-A-v1中,参数“strip_accents”错误地设置为true。

这两个错误在v2中得到修复。 CZERT-A-v2 CZERT-B-v2

或者您可以从Fine-tuned模型中选择一个

Models
Sentiment Classification (Facebook or CSFD) 1236321 1237321 1238321 1239321
Named Entity Recognition 12310321 12311321 12312321 12313321 12314321 12315321
Morphological Tagging 12316321 12317321
Semantic Role Labelling 12318321 12319321

如何使用CZERT?

句子级任务

我们在两个句子级任务上评估我们的模型:

  • 情感分类,
  • 语义文本相似度。

\t

文档级任务

我们在一个文档级任务上评估我们的模型

  • 多标签文档分类。

标记级任务

我们在三个标记级任务上评估我们的模型:

  • 命名实体识别,
  • 形态标记,
  • 语义角色标注。

下游任务微调结果

情感分类

mBERT SlavicBERT ALBERT-r Czert-A Czert-B
FB 71.72 ± 0.91 73.87 ± 0.50 59.50 ± 0.47 72.47 ± 0.72 76.55 ± 0.14
CSFD 82.80 ± 0.14 82.51 ± 0.14 75.40 ± 0.18 79.58 ± 0.46 84.79 ± 0.26

情感分类任务的平均F1结果。有关更多信息,请参阅 the paper

语义文本相似度

mBERT Pavlov Albert-random Czert-A Czert-B
STA-CNA 83.335 ± 0.063 83.593 ± 0.050 43.184 ± 0.125 82.942 ± 0.106 84.345 ± 0.028
STS-SVOB-img 79.367 ± 0.486 79.900 ± 0.810 15.739 ± 2.992 79.444 ± 0.338 83.744 ± 0.395
STS-SVOB-hl 78.833 ± 0.296 76.996 ± 0.305 33.949 ± 1.807 75.089 ± 0.806 79.827 ± 0.469

在语义文本相似度上,使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行的Pearson相关性对比。有关更多信息,请参阅 the paper

多标签文档分类

mBERT SlavicBERT ALBERT-r Czert-A Czert-B
AUROC 97.62 ± 0.08 97.80 ± 0.06 94.35 ± 0.13 97.49 ± 0.07 98.00 ± 0.04
F1 83.04 ± 0.16 84.08 ± 0.14 72.44 ± 0.22 82.27 ± 0.17 85.06 ± 0.11

使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行的多标签文档分类的F1和AUROC分数对比。有关更多信息,请参阅 the paper

形态标记

mBERT Pavlov Albert-random Czert-A Czert-B
Universal Dependencies 99.176 ± 0.006 99.211 ± 0.008 96.590 ± 0.096 98.713 ± 0.008 99.300 ± 0.009

使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行的形态标记任务的F1分数对比。有关更多信息,请参阅 the paper

语义角色标注

mBERT Pavlov Albert-random Czert-A Czert-B dep-based gold-dep
span 78.547 ± 0.110 79.333 ± 0.080 51.365 ± 0.423 72.254 ± 0.172 81.861 ± 0.102 \\- \\-
syntax 90.226 ± 0.224 90.492 ± 0.040 80.747 ± 0.131 80.319 ± 0.054 91.462 ± 0.062 85.19 89.52

SRL结果 - dep列使用了CoNLL 2009评估脚本的标记F1进行评估,其他列使用了与NER评估相同的span F1分数进行评估。有关更多信息,请参阅 the paper

命名实体识别

mBERT Pavlov Albert-random Czert-A Czert-B
CNEC 86.225 ± 0.208 86.565 ± 0.198 34.635 ± 0.343 72.945 ± 0.227 86.274 ± 0.116
BSNLP 2019 84.006 ± 1.248 86.699 ± 0.370 19.773 ± 0.938 48.859 ± 0.605 86.729 ± 0.344

在命名实体识别任务上,使用预训练的CZERT-A、CZERT-B、mBERT、Pavlov和随机初始化的Albert进行的F1分数对比。有关更多信息,请参阅 the paper

许可证

本作品采用知识共享署名-非商业性使用-相同方式共享4.0国际许可协议进行许可。 http://creativecommons.org/licenses/by-nc-sa/4.0/

如何引用CZERT?

目前,请引用 the Arxiv paper

@article{sido2021czert,
      title={Czert -- Czech BERT-like Model for Language Representation}, 
      author={Jakub Sido and Ondřej Pražák and Pavel Přibáň and Jan Pašek and Michal Seják and Miloslav Konopík},
      year={2021},
      eprint={2103.13031},
      archivePrefix={arXiv},
      primaryClass={cs.CL},
      journal={arXiv preprint arXiv:2103.13031},
}