这个仓库提供了一个超小型的日语GPT-2模型。该模型是使用来自Github仓库 rinnakk/japanese-pretrained-models 的代码进行训练的,由 rinna Co., Ltd. 创建。
from transformers import AutoTokenizer, AutoModelForCausalLM tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt2-xsmall", use_fast=False) tokenizer.do_lower_case = True # due to some bug of tokenizer config loading model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-xsmall")
一个具有6层、512隐藏单元的基于Transformer的语言模型。
该模型在8\*V100 GPU上使用 Japanese CC-100 和 Japanese Wikipedia 进行训练,优化传统的语言建模目标,训练时间约为4天。在选择的来自CC-100的验证集上,困惑度约为28。
该模型使用基于 sentencepiece 的分词器,词汇表是使用官方的sentencepiece训练脚本在日语维基百科上训练的。