英文

印尼 RoBERTa Base POSP 标注器

印尼 RoBERTa Base POSP 标注器是基于模型 RoBERTa 的词性标注模型。该模型最初是在模型 Indonesian RoBERTa Base 的基础上进行细调,使用模型 indonlu 的 POSP 数据集进行训练,该数据集包含了已标注的新闻语料。

训练后,该模型在评估时取得了 F1-macro 值为 95.34%。在基准测试集上,该模型取得了准确率为 93.99%,F1-macro 为 88.93%。

使用 Transformers 图书馆中的 Trainer 类进行了模型训练。训练期间使用了 PyTorch 作为后端框架,但该模型仍然兼容其他框架。

模型

Model #params Arch. Training/Validation data (text)
indonesian-roberta-base-posp-tagger 124M RoBERTa Base POSP

评估结果

该模型经过了 10 个时期的训练,并在最后加载了最佳模型。

Epoch Training Loss Validation Loss Precision Recall F1 Accuracy
1 0.898400 0.343731 0.894324 0.894324 0.894324 0.894324
2 0.294700 0.236619 0.929620 0.929620 0.929620 0.929620
3 0.214100 0.202723 0.938349 0.938349 0.938349 0.938349
4 0.171100 0.183630 0.945264 0.945264 0.945264 0.945264
5 0.143300 0.169744 0.948469 0.948469 0.948469 0.948469
6 0.124700 0.174946 0.947963 0.947963 0.947963 0.947963
7 0.109800 0.167450 0.951590 0.951590 0.951590 0.951590
8 0.101300 0.163191 0.952475 0.952475 0.952475 0.952475
9 0.093500 0.163255 0.953361 0.953361 0.953361 0.953361
10 0.089000 0.164673 0.953445 0.953445 0.953445 0.953445

使用方法

作为标记分类器

from transformers import pipeline

pretrained_name = "w11wo/indonesian-roberta-base-posp-tagger"

nlp = pipeline(
    "token-classification",
    model=pretrained_name,
    tokenizer=pretrained_name
)

nlp("Budi sedang pergi ke pasar.")

免责声明

请考虑到来自预训练 RoBERTa 模型和 POSP 数据集的偏差可能会传递到该模型的结果中。

作者

印尼 RoBERTa Base POSP 标注器由 Wilson Wongso 进行训练和评估。所有计算和开发都是在 Google Colaboratory 上使用他们的免费 GPU 访问进行的。