英文

Japanese-gpt2-small

此存储库提供了一个小型的日语GPT-2模型。该模型是使用Github存储库 rinnakk/japanese-pretrained-models 的代码进行训练的,由 rinna Co., Ltd. 提供。

如何使用该模型

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt2-small", use_fast=False)
tokenizer.do_lower_case = True  # due to some bug of tokenizer config loading

model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-small")

模型架构

一个12层,768隐藏层的基于Transformer的语言模型。

训练

该模型在8\*V100 GPU上使用 Japanese CC-100 Japanese Wikipedia 进行训练,优化传统的语言建模目标,历时约15天。在来自CC-100的选择验证集上达到了约21的困惑度。

标记化

该模型使用基于 sentencepiece 的分词器,词汇表是使用官方的sentencepiece训练脚本在日文维基百科上训练的。

授权许可

The MIT license