这个存储库提供了一个中等规模的日文GPT-2模型。该模型是使用来自Github存储库 rinnakk/japanese-pretrained-models 的代码由 rinna Co., Ltd. 训练的。
from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt2-medium", use_fast=False) tokenizer.do_lower_case = True # due to some bug of tokenizer config loading model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-medium")
一个24层,1024隐藏单元的基于transformer的语言模型。
该模型在8\*V100 GPU上使用 Japanese CC-100 和 Japanese Wikipedia 进行了约30天的传统语言建模目标优化训练。在相同数据的选择验证集上,模型的困惑度约为18。
该模型使用基于 sentencepiece 的分词器,词汇表是使用官方的sentencepiece训练脚本在日文维基百科上进行训练的。