语言模型:roberta-urdu-small 模型大小:125M 语言:乌尔都语 训练数据:巴基斯坦乌尔都语新闻资源
roberta-urdu-small是乌尔都语的语言模型。
from transformers import pipeline fill_mask = pipeline("fill-mask", model="urduhack/roberta-urdu-small", tokenizer="urduhack/roberta-urdu-small")
roberta-urdu-small是在乌尔都语新闻语料库上进行训练的。使用了Urduhack中的规范化模块来消除来自其他语言(如阿拉伯语)的字符。
Urduhack是用于乌尔都语的自然语言处理(NLP)库。Github: https://github.com/urduhack/urduhack