模型:
w11wo/indonesian-roberta-base-posp-tagger
印尼 RoBERTa Base POSP 标注器是基于模型 RoBERTa 的词性标注模型。该模型最初是在模型 Indonesian RoBERTa Base 的基础上进行细调,使用模型 indonlu 的 POSP 数据集进行训练,该数据集包含了已标注的新闻语料。
训练后,该模型在评估时取得了 F1-macro 值为 95.34%。在基准测试集上,该模型取得了准确率为 93.99%,F1-macro 为 88.93%。
使用 Transformers 图书馆中的 Trainer 类进行了模型训练。训练期间使用了 PyTorch 作为后端框架,但该模型仍然兼容其他框架。
Model | #params | Arch. | Training/Validation data (text) |
---|---|---|---|
indonesian-roberta-base-posp-tagger | 124M | RoBERTa Base | POSP |
该模型经过了 10 个时期的训练,并在最后加载了最佳模型。
Epoch | Training Loss | Validation Loss | Precision | Recall | F1 | Accuracy |
---|---|---|---|---|---|---|
1 | 0.898400 | 0.343731 | 0.894324 | 0.894324 | 0.894324 | 0.894324 |
2 | 0.294700 | 0.236619 | 0.929620 | 0.929620 | 0.929620 | 0.929620 |
3 | 0.214100 | 0.202723 | 0.938349 | 0.938349 | 0.938349 | 0.938349 |
4 | 0.171100 | 0.183630 | 0.945264 | 0.945264 | 0.945264 | 0.945264 |
5 | 0.143300 | 0.169744 | 0.948469 | 0.948469 | 0.948469 | 0.948469 |
6 | 0.124700 | 0.174946 | 0.947963 | 0.947963 | 0.947963 | 0.947963 |
7 | 0.109800 | 0.167450 | 0.951590 | 0.951590 | 0.951590 | 0.951590 |
8 | 0.101300 | 0.163191 | 0.952475 | 0.952475 | 0.952475 | 0.952475 |
9 | 0.093500 | 0.163255 | 0.953361 | 0.953361 | 0.953361 | 0.953361 |
10 | 0.089000 | 0.164673 | 0.953445 | 0.953445 | 0.953445 | 0.953445 |
from transformers import pipeline pretrained_name = "w11wo/indonesian-roberta-base-posp-tagger" nlp = pipeline( "token-classification", model=pretrained_name, tokenizer=pretrained_name ) nlp("Budi sedang pergi ke pasar.")
请考虑到来自预训练 RoBERTa 模型和 POSP 数据集的偏差可能会传递到该模型的结果中。
印尼 RoBERTa Base POSP 标注器由 Wilson Wongso 进行训练和评估。所有计算和开发都是在 Google Colaboratory 上使用他们的免费 GPU 访问进行的。