英文

japanese-gpt2-medium

这个存储库提供了一个中等规模的日文GPT-2模型。该模型是使用来自Github存储库 rinnakk/japanese-pretrained-models 的代码由 rinna Co., Ltd. 训练的。

如何使用该模型

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt2-medium", use_fast=False)
tokenizer.do_lower_case = True  # due to some bug of tokenizer config loading

model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-medium")

模型架构

一个24层,1024隐藏单元的基于transformer的语言模型。

训练

该模型在8\*V100 GPU上使用 Japanese CC-100 Japanese Wikipedia 进行了约30天的传统语言建模目标优化训练。在相同数据的选择验证集上,模型的困惑度约为18。

词汇标记

该模型使用基于 sentencepiece 的分词器,词汇表是使用官方的sentencepiece训练脚本在日文维基百科上进行训练的。

许可证

The MIT license