模型:
Kyrmasch/t5-kazakh-qa
该模型基于google/mt5-large模型。使用3万个样本,在Kazakh语言版本的Stanford Question Answering Dataset(SQuAD)上进行了微调。
from transformers import T5Tokenizer, T5TokenizerFast from transformers import T5ForConditionalGeneration import sentencepiece tokenizer = T5Tokenizer.from_pretrained("Kyrmasch/t5-kazakh-qa") model = T5ForConditionalGeneration.from_pretrained("Kyrmasch/t5-kazakh-qa") context = "Қазақстан Еуразия құрлығының орталығында орналасқан және аумақтың көлемі бойынша (жер шарының бетінде 2%) әлемде тоғызыншы орынға ие. Қазақстан аумағы бүкіл Батыс Еуропадан үлкен." question = "Қазақстан жер көлемі жөнінен дүние жүзінде нешінші орында?" encoded = tokenizer.encode_plus(context, question, max_length=128, pad_to_max_length=True, truncation=True, return_tensors="pt") input_ids = encoded["input_ids"].to('cpu') attention_mask = encoded["attention_mask"].to('cpu') output = model.generate(input_ids=input_ids, attention_mask=attention_mask, max_length=128) answer = ''.join([tokenizer.decode(ids, skip_special_tokens=True) for ids in output])