模型:

tartuNLP/EstBERT

英文

EstBERT

这是什么?

EstBERT模型是一个在爱沙尼亚大小写语料库上进行训练的预训练BERT Base模型,训练数据包括128和512序列长度。

如何使用?

您可以在tensorflow和pytorch版本中使用该模型转换器库。

from transformers import AutoTokenizer, AutoModelForMaskedLM
tokenizer = AutoTokenizer.from_pretrained("tartuNLP/EstBERT")
model = AutoModelForMaskedLM.from_pretrained("tartuNLP/EstBERT")

您还可以从这里下载预训练模型, EstBERT_128 EstBERT_512

用于训练模型的数据集

EstBERT模型使用128和512序列长度的数据进行训练。我们使用了此数据集 Estonian National Corpus 2017 进行EstBERT的训练,该数据集是当时最大的爱沙尼亚语语料库。它包括四个子语料库:爱沙尼亚参考语料库1990-2008、爱沙尼亚网络语料库2013、爱沙尼亚网络语料库2017和爱沙尼亚维基百科语料库2017。

为什么要使用?

总体而言,与mBERT和XLM-RoBERTa相比,EstBERT在词性(POS)、命名实体识别(NER)、口号和情感分类任务中表现更好。比较结果如下所示;

Model UPOS XPOS Morph bf UPOS bf XPOS Morph
EstBERT 97.89 98.40 96.93 97.84 98.43 96.80
mBERT 97.42 98.06 96.24 97.43 98.13 96.13
XLM-RoBERTa 97.78 98.36 96.53 97.80 98.40 96.69
Model Rubric 128 Sentiment 128 Rubric 128 Sentiment 512
EstBERT 81.70 74.36 80.96 74.50
mBERT 75.67 70.23 74.94 69.52
XLM-RoBERTa 80.34 74.50 78.62 76.07
Model Precicion 128 Recall 128 F1-Score 128 Precision 512 Recall 512 F1-Score 512
EstBERT 88.42 90.38 89.39 88.35 89.74 89.04
mBERT 85.88 87.09 86.51 88.47 88.28 88.37
XLM-RoBERTa 87.55 91.19 89.34 87.50 90.76 89.10