模型:
neuralspace-reverie/indic-transformers-hi-roberta
这是一个使用约10GB单语训练语料预训练的RoBERTa语言模型。预训练数据主要来自于 OSCAR 。该模型可以在各种下游任务上进行微调,如文本分类、词性标注、问题回答等。该模型的嵌入还可以用于基于特征的训练。
from transformers import AutoTokenizer, AutoModel tokenizer = AutoTokenizer.from_pretrained('neuralspace-reverie/indic-transformers-hi-roberta') model = AutoModel.from_pretrained('neuralspace-reverie/indic-transformers-hi-roberta') text = "आपका स्वागत हैं" input_ids = tokenizer(text, return_tensors='pt')['input_ids'] out = model(input_ids)[0] print(out.shape) # out = [1, 11, 768]的限制和偏见
原始语言模型是使用PyTorch进行训练的,因此建议使用pytorch_model.bin权重文件。Tensorflow的h5文件是通过推荐的命令手动生成的 here 。