模型:
tartuNLP/EstBERT
EstBERT模型是一个在爱沙尼亚大小写语料库上进行训练的预训练BERT Base模型,训练数据包括128和512序列长度。
您可以在tensorflow和pytorch版本中使用该模型转换器库。
from transformers import AutoTokenizer, AutoModelForMaskedLM tokenizer = AutoTokenizer.from_pretrained("tartuNLP/EstBERT") model = AutoModelForMaskedLM.from_pretrained("tartuNLP/EstBERT")
您还可以从这里下载预训练模型, EstBERT_128 EstBERT_512
用于训练模型的数据集EstBERT模型使用128和512序列长度的数据进行训练。我们使用了此数据集 Estonian National Corpus 2017 进行EstBERT的训练,该数据集是当时最大的爱沙尼亚语语料库。它包括四个子语料库:爱沙尼亚参考语料库1990-2008、爱沙尼亚网络语料库2013、爱沙尼亚网络语料库2017和爱沙尼亚维基百科语料库2017。
总体而言,与mBERT和XLM-RoBERTa相比,EstBERT在词性(POS)、命名实体识别(NER)、口号和情感分类任务中表现更好。比较结果如下所示;
Model | UPOS | XPOS | Morph | bf UPOS | bf XPOS | Morph |
---|---|---|---|---|---|---|
EstBERT | 97.89 | 98.40 | 96.93 | 97.84 | 98.43 | 96.80 |
mBERT | 97.42 | 98.06 | 96.24 | 97.43 | 98.13 | 96.13 |
XLM-RoBERTa | 97.78 | 98.36 | 96.53 | 97.80 | 98.40 | 96.69 |
Model | Rubric 128 | Sentiment 128 | Rubric 128 | Sentiment 512 |
---|---|---|---|---|
EstBERT | 81.70 | 74.36 | 80.96 | 74.50 |
mBERT | 75.67 | 70.23 | 74.94 | 69.52 |
XLM-RoBERTa | 80.34 | 74.50 | 78.62 | 76.07 |
Model | Precicion 128 | Recall 128 | F1-Score 128 | Precision 512 | Recall 512 | F1-Score 512 |
---|---|---|---|---|---|---|
EstBERT | 88.42 | 90.38 | 89.39 | 88.35 | 89.74 | 89.04 |
mBERT | 85.88 | 87.09 | 86.51 | 88.47 | 88.28 | 88.37 |
XLM-RoBERTa | 87.55 | 91.19 | 89.34 | 87.50 | 90.76 | 89.10 |