英文

日本语GPT-NeoX 3.6b使用说明

概述

本仓库提供一个包含36亿个参数的日本语GPT-NeoX模型。该模型基于 rinna/japanese-gpt-neox-3.6b 构建,并通过微调用于指令跟随对话代理。

该模型与之前的SFT模型 rinna/japanese-gpt-neox-3.6b-instruction-sft 略有不同,使用了不同的数据分割进行了训练。

  • 模型架构

    一个包含36层、2816隐藏单元的基于Transformer的语言模型。

  • SFT与之前的SFT评估

    我们对100个提示进行了基于ChatGPT的自动化评估,以评估此SFT模型和之前的SFT模型之间的性能差异。

    1237321 vs. 1238321 win tie loss
    ChatGPT auto. evaluation 55 % 0% 45%
  • 微调

    微调数据是以下数据集的子集,并已翻译成日语。

    将不会发布这些数据。

  • 模型系列

    Variant Link
    3.6B PPO 12312321
    3.6B SFT-v2 12313321
    3.6B SFT 12314321
    3.6B pretrained 12315321
  • 作者

    Tianyu Zhao Kei Sawada

输入/输出格式

采用了一种特殊格式来构建输入。

  • 输入提示被格式化为“用户”和“系统”之间的对话。
  • 每个输入话语包括(1)说话者("用户"或"系统"),(2)冒号(":"),(3)空格(" "),以及(4)话语文本(例如"世界で一番高い山は?")。
  • 输入提示应以"系统:"结束,以告知模型生成响应。
  • 由于模型的分词器无法识别"\n",所以使用特殊的换行符号"<NL>"代替。
  • 输入和输出话语中的所有换行符都应替换为"<NL>"。
  • 输入提示中的所有话语应以"<NL>"分隔。

以下是根据对话构建输入的示例。

prompt = [
    {
        "speaker": "ユーザー",
        "text": "コンタクトレンズを慣れるにはどうすればよいですか?"
    },
    {
        "speaker": "システム",
        "text": "これについて具体的に説明していただけますか?何が難しいのでしょうか?"
    },
    {
        "speaker": "ユーザー",
        "text": "目が痛いのです。"
    },
    {
        "speaker": "システム",
        "text": "分かりました、コンタクトレンズをつけると目がかゆくなるということですね。思った以上にレンズを外す必要があるでしょうか?"
    },
    {
        "speaker": "ユーザー",
        "text": "いえ、レンズは外しませんが、目が赤くなるんです。"
    }
]
prompt = [
    f"{uttr['speaker']}: {uttr['text']}"
    for uttr in prompt
]
prompt = "<NL>".join(prompt)
prompt = (
    prompt
    + "<NL>"
    + "システム: "
)
print(prompt)
# "ユーザー: コンタクトレンズを慣れるにはどうすればよいですか?<NL>システム: これについて具体的に説明していただけますか?何が難しいのでしょうか?<NL>ユーザー: 目が痛いのです。<NL>システム: 分かりました、コンタクトレンズをつけると目がかゆくなるということですね。思った以上にレンズを外す必要があるでしょうか?<NL>ユーザー: いえ、レンズは外しませんが、目が赤くなるんです。<NL>システム: "

如何使用该模型

import torch
from transformers import AutoTokenizer, AutoModelForCausalLM

tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-neox-3.6b-instruction-sft-v2", use_fast=False)
model = AutoModelForCausalLM.from_pretrained("rinna/japanese-gpt-neox-3.6b-instruction-sft-v2")

if torch.cuda.is_available():
    model = model.to("cuda")

token_ids = tokenizer.encode(prompt, add_special_tokens=False, return_tensors="pt")

with torch.no_grad():
    output_ids = model.generate(
        token_ids.to(model.device),
        do_sample=True,
        max_new_tokens=128,
        temperature=0.7,
        repetition_penalty=1.1,
        pad_token_id=tokenizer.pad_token_id,
        bos_token_id=tokenizer.bos_token_id,
        eos_token_id=tokenizer.eos_token_id
    )

output = tokenizer.decode(output_ids.tolist()[0][token_ids.size(1):])
output = output.replace("<NL>", "\n")
print(output)
"""わかりました。まずは、コンタクトレンズを長時間着用することによる目の乾燥を防ぐことができます。また、毎日同じ時間帯にコンタクトレンズを着用してみることもできます。そして、コンタクトレンズが目に合わないような場合は、新しいものを試してみる必要があります。</s>"""

分词

该模型使用基于 sentencepiece 的分词器。

  • 分词器的词汇表大小为32,000。
  • 它使用句子片段的字节回退功能,将未知文本片段分解为UTF-8字节片段,并避免生成<UNK>标记。
  • 句子片段的--add_dummy_prefix选项被关闭,以便不自动添加前导空格。
      print(tokenizer.tokenize("吾輩は猫である"))
      # ['吾', '輩', 'は', '猫', 'である']
      # instead of ['▁', '吾', '輩', 'は', '猫', 'である'] as in rinna/japanese-gpt-1b
    
  • 句子片段的--remove_extra_whitespaces选项被关闭,以保留前导、尾随和重复的空格。
      print(tokenizer.tokenize("  吾輩は  猫である   "))
      # ['▁', '▁', '吾', '輩', 'は', '▁', '▁', '猫', 'である', '▁', '▁', '▁']
      # instead of ['▁', '吾', '輩', 'は', '▁猫', 'である'] as in rinna/japanese-gpt-1b
    
  • 不要忘记将use_fast=False设置为使上述功能正确运行。
      good_tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-neox-3.6b", use_fast=False)
      bad_tokenizer = AutoTokenizer.from_pretrained("rinna/japanese-gpt-neox-3.6b")
    
      print(good_tokenizer.decode(good_tokenizer.encode("გამარჯობა  吾輩は  猫である   ")))
      # 'გამარჯობა  吾輩は  猫である   </s>'
      print(bad_tokenizer.decode(bad_tokenizer.encode("გამარჯობა  吾輩は  猫である   ")))
      # 'გამარ[UNK]ობა 吾輩は 猫である </s>'
    

许可协议

The MIT license