英文

日语-GPT2-超小型

这个仓库提供了一个超小型的日语GPT-2模型。该模型是使用来自Github仓库 rinnakk/japanese-pretrained-models 的代码进行训练的,由 rinna Co., Ltd. 创建。

如何使用该模型

from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt2-xsmall", use_fast=False)
tokenizer.do_lower_case = True  # due to some bug of tokenizer config loading

model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt2-xsmall")

模型架构

一个具有6层、512隐藏单元的基于Transformer的语言模型。

训练

该模型在8\*V100 GPU上使用 Japanese CC-100 Japanese Wikipedia 进行训练,优化传统的语言建模目标,训练时间约为4天。在选择的来自CC-100的验证集上,困惑度约为28。

分词

该模型使用基于 sentencepiece 的分词器,词汇表是使用官方的sentencepiece训练脚本在日语维基百科上训练的。

许可证

The MIT license