英文

roberta-urdu-small

Overview

语言模型:roberta-urdu-small 模型大小:125M 语言:乌尔都语 训练数据:巴基斯坦乌尔都语新闻资源

关于roberta-urdu-small

roberta-urdu-small是乌尔都语的语言模型。

from transformers import pipeline
fill_mask = pipeline("fill-mask", model="urduhack/roberta-urdu-small", tokenizer="urduhack/roberta-urdu-small")

训练过程

roberta-urdu-small是在乌尔都语新闻语料库上进行训练的。使用了Urduhack中的规范化模块来消除来自其他语言(如阿拉伯语)的字符。

关于Urduhack

Urduhack是用于乌尔都语的自然语言处理(NLP)库。Github: https://github.com/urduhack/urduhack