模型:
w11wo/indonesian-roberta-base-sentiment-classifier
印尼RoBERTa基础情感分类器是一个基于 RoBERTa 模型的情感文本分类模型。该模型最初是在 Indonesian RoBERTa Base 模型的基础上进行微调,并使用了 indonlu 的SmSA数据集,该数据集包含印尼评论和评价。
训练后,该模型的评估准确率为94.36%,F1-macro为92.42%。在基准测试集上,该模型的准确率为93.2%,F1-macro为91.02%。
运用了Hugging Face的 Transformers 库中的Trainer类进行模型训练。在训练过程中使用了PyTorch作为后端框架,但该模型仍然兼容其他框架。
Model | #params | Arch. | Training/Validation data (text) |
---|---|---|---|
indonesian-roberta-base-sentiment-classifier | 124M | RoBERTa Base | SmSA |
模型进行了5个周期的训练,并在最后加载了最佳模型。
Epoch | Training Loss | Validation Loss | Accuracy | F1 | Precision | Recall |
---|---|---|---|---|---|---|
1 | 0.342600 | 0.213551 | 0.928571 | 0.898539 | 0.909803 | 0.890694 |
2 | 0.190700 | 0.213466 | 0.934127 | 0.901135 | 0.925297 | 0.882757 |
3 | 0.125500 | 0.219539 | 0.942857 | 0.920901 | 0.927511 | 0.915193 |
4 | 0.083600 | 0.235232 | 0.943651 | 0.924227 | 0.926494 | 0.922048 |
5 | 0.059200 | 0.262473 | 0.942063 | 0.920583 | 0.924084 | 0.917351 |
from transformers import pipeline pretrained_name = "w11wo/indonesian-roberta-base-sentiment-classifier" nlp = pipeline( "sentiment-analysis", model=pretrained_name, tokenizer=pretrained_name ) nlp("Jangan sampai saya telpon bos saya ya!")
请考虑预训练RoBERTa模型和SmSA数据集中可能带入结果的偏见。
印尼RoBERTa基础情感分类器由 Wilson Wongso 进行训练和评估。所有计算和开发都是在Google Colaboratory上使用免费GPU访问进行的。
如有使用,请引用以下内容:
@misc {wilson_wongso_2023, author = { {Wilson Wongso} }, title = { indonesian-roberta-base-sentiment-classifier (Revision e402e46) }, year = 2023, url = { https://huggingface.co/w11wo/indonesian-roberta-base-sentiment-classifier }, doi = { 10.57967/hf/0644 }, publisher = { Hugging Face } }