模型:

neuralspace-reverie/indic-transformers-bn-bert

英文

Indic-Transformers孟加拉语BERT

模型描述

这是一个在大约3GB单语训练语料上预训练的BERT语言模型。预训练数据主要来源于 OSCAR 。该模型可以在各种下游任务(如文本分类、词性标注、问答等)上进行微调。还可以使用该模型的嵌入进行基于特征的训练。

预期用途和限制

如何使用
from transformers import AutoTokenizer, AutoModel
tokenizer = AutoTokenizer.from_pretrained('neuralspace-reverie/indic-transformers-bn-bert')
model = AutoModel.from_pretrained('neuralspace-reverie/indic-transformers-bn-bert')
text = "আপনি কেমন আছেন?"
input_ids = tokenizer(text, return_tensors='pt')['input_ids']
out = model(input_ids)[0]
print(out.shape)
# out = [1, 6, 768] 
限制和偏见

原始语言模型是由PyTorch训练的,因此建议使用pytorch_model.bin权重文件。Tensorflow的h5文件是通过建议的 here 命令手动生成的。