日语-GPT-1B

本存储库提供了一个拥有13亿个参数的日语GPT模型。模型通过 rinna Co., Ltd. 进行了训练。

如何使用该模型

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-1b", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-1b")

if torch.cuda.is_available():
    model = model.to("cuda")

text = "西田幾多郎は、"
token_ids = tokenizer.encode(text, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        max_length=100,
        min_length=100,
        do_sample=True,
        top_k=500,
        top_p=0.95,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id,
        bad_words_ids=[[tokenizer.unk_token_id]]
    )

output = tokenizer.decode(output_ids.tolist()[0])
print(output)  
# sample output: 西田幾多郎は、その主著の「善の研究」などで、人間の内面に自然とその根源があると指摘し、その根源的な性格は、この西田哲学を象徴しているとして、カントの「純粋理性批判」と「判断力批判」を対比して捉えます。それは、「人が理性的存在であるかぎりにおいて、人はその当人に固有な道徳的に自覚された善悪の基準を持っている」とするもので、この理性的な善悪の観念を否定するのがカントの

模型架构

一个具有24层、2048隐藏大小的基于transformer的语言模型。

训练

该模型在 Japanese C4 、 Japanese CC-100 和 Japanese Wikipedia 上进行了训练，以优化传统的语言建模目标。在来自相同数据的验证集上达到约14的困惑度。

分词

该模型使用基于 sentencepiece 的分词器。词汇表是使用官方的sentencepiece训练脚本首先在训练数据的选择子集上进行训练，然后再加上表情符号和符号进行扩充。

许可证

The MIT license

作者:

rinna Co., Ltd.

数据集大小:

4.95 GB