模型:

kykim/gpt3-kor-small_based_on_gpt2

英文

韩文的 Bert base 模型

  • 使用了 70GB 的韩文文本数据集和 42000 个小写子单词
  • 检查该模型的性能以及其他韩文语言模型在 github 中的情况
from transformers import BertTokenizerFast, GPT2LMHeadModel
tokenizer_gpt3 = BertTokenizerFast.from_pretrained("kykim/gpt3-kor-small_based_on_gpt2")
input_ids = tokenizer_gpt3.encode("text to tokenize")[1:]  # remove cls token
        
model_gpt3 = GPT2LMHeadModel.from_pretrained("kykim/gpt3-kor-small_based_on_gpt2")