模型:
flax-community/indonesian-roberta-base
印度尼西亚RoBERTa基础模型是基于 RoBERTa 模型的掩码语言模型。它是在 OSCAR 数据集上进行训练的,具体是 unshuffled_deduplicated_id 子集。该模型是从头开始训练的,评估损失为1.798,评估准确率为62.45%。
该模型使用HuggingFace的Flax框架进行训练,是HuggingFace组织的 JAX/Flax Community Week 的一部分。所有的训练都是在由Google Cloud团队赞助的TPUv3-8 VM上进行的。
所有用于训练的必要脚本可以在 Files and versions 标签中找到,以及通过Tensorboard记录的 Training metrics 。
Model | #params | Arch. | Training/Validation data (text) |
---|---|---|---|
indonesian-roberta-base | 124M | RoBERTa | OSCAR unshuffled_deduplicated_id Dataset |
该模型经过8个时期的训练,下面是训练结束时的最终结果。
train loss | valid loss | valid accuracy | total time |
---|---|---|---|
1.870 | 1.798 | 0.6245 | 18:25:39 |
from transformers import pipeline pretrained_name = "flax-community/indonesian-roberta-base" fill_mask = pipeline( "fill-mask", model=pretrained_name, tokenizer=pretrained_name ) fill_mask("Budi sedang <mask> di sekolah.")
from transformers import RobertaModel, RobertaTokenizerFast pretrained_name = "flax-community/indonesian-roberta-base" model = RobertaModel.from_pretrained(pretrained_name) tokenizer = RobertaTokenizerFast.from_pretrained(pretrained_name) prompt = "Budi sedang berada di sekolah." encoded_input = tokenizer(prompt, return_tensors='pt') output = model(**encoded_input)