模型:

w11wo/indonesian-roberta-base-sentiment-classifier

英文

印尼RoBERTa基础情感分类器

印尼RoBERTa基础情感分类器是一个基于 RoBERTa 模型的情感文本分类模型。该模型最初是在 Indonesian RoBERTa Base 模型的基础上进行微调,并使用了 indonlu 的SmSA数据集,该数据集包含印尼评论和评价。

训练后,该模型的评估准确率为94.36%,F1-macro为92.42%。在基准测试集上,该模型的准确率为93.2%,F1-macro为91.02%。

运用了Hugging Face的 Transformers 库中的Trainer类进行模型训练。在训练过程中使用了PyTorch作为后端框架,但该模型仍然兼容其他框架。

模型

Model #params Arch. Training/Validation data (text)
indonesian-roberta-base-sentiment-classifier 124M RoBERTa Base SmSA

评估结果

模型进行了5个周期的训练,并在最后加载了最佳模型。

Epoch Training Loss Validation Loss Accuracy F1 Precision Recall
1 0.342600 0.213551 0.928571 0.898539 0.909803 0.890694
2 0.190700 0.213466 0.934127 0.901135 0.925297 0.882757
3 0.125500 0.219539 0.942857 0.920901 0.927511 0.915193
4 0.083600 0.235232 0.943651 0.924227 0.926494 0.922048
5 0.059200 0.262473 0.942063 0.920583 0.924084 0.917351

如何使用

作为文本分类器

from transformers import pipeline

pretrained_name = "w11wo/indonesian-roberta-base-sentiment-classifier"

nlp = pipeline(
    "sentiment-analysis",
    model=pretrained_name,
    tokenizer=pretrained_name
)

nlp("Jangan sampai saya telpon bos saya ya!")

免责声明

请考虑预训练RoBERTa模型和SmSA数据集中可能带入结果的偏见。

作者

印尼RoBERTa基础情感分类器由 Wilson Wongso 进行训练和评估。所有计算和开发都是在Google Colaboratory上使用免费GPU访问进行的。

引用

如有使用,请引用以下内容:

@misc {wilson_wongso_2023,
    author       = { {Wilson Wongso} },
    title        = { indonesian-roberta-base-sentiment-classifier (Revision e402e46) },
    year         = 2023,
    url          = { https://huggingface.co/w11wo/indonesian-roberta-base-sentiment-classifier },
    doi          = { 10.57967/hf/0644 },
    publisher    = { Hugging Face }
}