模型:
w11wo/malaysian-distilbert-small
马来西亚 DistilBERT 小模型是基于 DistilBERT model 的掩码语言模型。它是在 OSCAR 数据集上进行训练的,特别是 unshuffled_original_ms 子集。
模型最初是基于 HuggingFace 预训练的 English DistilBERT model ,并在马来西亚数据集上进行了微调。在验证数据集(数据集的20%)上,其困惑度为10.33。很多使用的技术是基于 Hugging Face 的 notebook 教程(由 Sylvain Gugger 撰写)和 fine-tuning tutorial notebook 教程(由 Pierre Guillou 撰写)。
使用了Hugging Face的 Transformers 库来训练模型 - 使用了基本的DistilBERT模型和Trainer类。训练过程中使用PyTorch作为后端框架,但该模型仍然与TensorFlow兼容。
Model | #params | Arch. | Training/Validation data (text) |
---|---|---|---|
malaysian-distilbert-small | 66M | DistilBERT Small | OSCAR unshuffled_original_ms Dataset |
模型进行了1个时期的训练,以下是训练结束时的最终结果。
train loss | valid loss | perplexity | total time |
---|---|---|---|
2.476 | 2.336 | 10.33 | 0:40:05 |
from transformers import pipeline pretrained_name = "w11wo/malaysian-distilbert-small" fill_mask = pipeline( "fill-mask", model=pretrained_name, tokenizer=pretrained_name ) fill_mask("Henry adalah seorang lelaki yang tinggal di [MASK].")
from transformers import DistilBertModel, DistilBertTokenizerFast pretrained_name = "w11wo/malaysian-distilbert-small" model = DistilBertModel.from_pretrained(pretrained_name) tokenizer = DistilBertTokenizerFast.from_pretrained(pretrained_name) prompt = "Bolehkah anda [MASK] Bahasa Melayu?" encoded_input = tokenizer(prompt, return_tensors='pt') output = model(**encoded_input)
请考虑可能从OSCAR数据集中传递给此模型结果的偏见。
马来西亚 DistilBERT 小模型由 Wilson Wongso 进行了训练和评估。所有的计算和开发都是在谷歌 Colaboratory 上使用免费的GPU资源完成的。