英文

印度尼西亚RoBERTa基础模型

印度尼西亚RoBERTa基础模型是基于 RoBERTa 模型的掩码语言模型。它是在 OSCAR 数据集上进行训练的,具体是 unshuffled_deduplicated_id 子集。该模型是从头开始训练的,评估损失为1.798,评估准确率为62.45%。

该模型使用HuggingFace的Flax框架进行训练,是HuggingFace组织的 JAX/Flax Community Week 的一部分。所有的训练都是在由Google Cloud团队赞助的TPUv3-8 VM上进行的。

所有用于训练的必要脚本可以在 Files and versions 标签中找到,以及通过Tensorboard记录的 Training metrics

模型

Model #params Arch. Training/Validation data (text)
indonesian-roberta-base 124M RoBERTa OSCAR unshuffled_deduplicated_id Dataset

评估结果

该模型经过8个时期的训练,下面是训练结束时的最终结果。

train loss valid loss valid accuracy total time
1.870 1.798 0.6245 18:25:39

如何使用

作为掩码语言模型

from transformers import pipeline

pretrained_name = "flax-community/indonesian-roberta-base"

fill_mask = pipeline(
    "fill-mask",
    model=pretrained_name,
    tokenizer=pretrained_name
)

fill_mask("Budi sedang <mask> di sekolah.")

在PyTorch中进行特征提取

from transformers import RobertaModel, RobertaTokenizerFast

pretrained_name = "flax-community/indonesian-roberta-base"
model = RobertaModel.from_pretrained(pretrained_name)
tokenizer = RobertaTokenizerFast.from_pretrained(pretrained_name)

prompt = "Budi sedang berada di sekolah."
encoded_input = tokenizer(prompt, return_tensors='pt')
output = model(**encoded_input)

团队成员