这个存储库包含了对 CarperAI's StableVicuna 13B 进行了4位GPTQ格式量化的模型。

首先将上述存储库中的增量与原始的 Llama 13B 权重进行了合并,然后使用 GPTQ-for-LLaMa 进行了4位量化。




### Human: your prompt here
### Assistant:

如何轻松下载和在文本生成 WebUI 中使用这个模型

正常打开文本生成 WebUI UI。

  • 点击 Model 选项卡。
  • 在 Download custom model or LoRA 下,输入 TheBloke/stable-vicuna-13B-GPTQ 。
  • 点击 Download 。
  • 等待直到下载完成。
  • 点击 Model 顶部左侧的 Refresh 图标。
  • 在 Model 下拉菜单 中选择刚刚下载的模型,stable-vicuna-13B-GPTQ 。
  • 一旦显示加载完成,点击 Text Generation 选项卡并输入提示!
  • 提供的文件


    兼容文件 - stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors

    在 main 分支中 - 默认版本 - 您将找到 stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors


    它是在没有 --act-order 参数的情况下创建的。与其他文件相比,它可能具有稍低的推理质量,但保证在所有GPTQ-for-LLaMa和文本生成 WebUI 版本上工作。

    • stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors
      • 适用于GPTQ-for-LLaMa代码的所有版本,包括 Triton 和 CUDA 分支
      • 适用于文本生成 WebUI 的一键安装程序
      • 参数:Groupsize = 128g. 无 act-order
      • 用于创建 GPTQ 的命令:
        CUDA_VISIBLE_DEVICES=0 python3 llama.py stable-vicuna-13B-HF c4 --wbits 4 --true-sequential --groupsize 128 --save_safetensors stable-vicuna-13B-GPTQ-4bit.no-act-order.safetensors

    最新文件 - stable-vicuna-13B-GPTQ-4bit.latest.act-order.safetensors

    为最近版本的 GPTQ-for-LLaMa 创建,并使用 --act-order 标志以达到最大的理论性能。

    要访问此文件,请切换到此存储库的 latest 分支并从那里下载。

    • stable-vicuna-13B-GPTQ-4bit.latest.act-order.safetensors
      • 仅适用于最新的 GPTQ-for-LLaMa 代码
      • 不适用于文本生成 WebUI 的一键安装程序
      • 参数:Groupsize = 128g. act-order 。
      • 提供最高质量的量化,但需要使用最新的 GPTQ-for-LLaMa 代码
      • 用于创建 GPTQ 的命令:
        CUDA_VISIBLE_DEVICES=0 python3 llama.py stable-vicuna-13B-HF c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save_safetensors stable-vicuna-13B-GPTQ-4bit.act-order.safetensors

    文本生成 WebUI 的手动说明

    文件 stable-vicuna-13B-GPTQ-4bit.compat.no-act-order.safetensors 可以像其他 GPTQ 文件一样加载,不需要对 oobaboogas text-generation-webui 进行任何更新。

    Instructions on using GPTQ 4bit files in text-generation-webui are here

    另一个 safetensors 模型文件是使用 --act-order 创建的,以提供可能的最高量化质量,但这意味着需要在 UI 中使用最新的 GPTQ-for-LLaMa。

    如果要使用 act-order safetensors 文件并需要更新 GPTQ-for-LLaMa 的 Triton 分支,请按照以下命令克隆 Triton 分支的 GPTQ-for-LLaMa ,克隆文本生成 WebUI ,并将 GPTQ 安装到 UI 中:

    # Clone text-generation-webui, if you don't already have it
    git clone https://github.com/oobabooga/text-generation-webui
    # Make a repositories directory
    mkdir text-generation-webui/repositories
    cd text-generation-webui/repositories
    # Clone the latest GPTQ-for-LLaMa code inside text-generation-webui
    git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa

    然后将此模型安装到 text-generation-webui/models 中,并按以下方式启动 UI:

    cd text-generation-webui
    python server.py --model stable-vicuna-13B-GPTQ --wbits 4 --groupsize 128 --model_type Llama # add any other command line args you want

    以上命令假定您已安装了 GPTQ-for-LLaMa 和文本生成 WebUI 的所有依赖项。有关详细信息,请参阅它们各自的存储库。

    如果无法更新 GPTQ-for-LLaMa 或不想更新,可以使用如上所述的 stable-vicuna-13B-GPTQ-4bit.no-act-order.safetensors ,它应该可以在不升级文本生成 WebUI 的情况下正常工作。


    原始 StableVicuna-13B 模型卡片


    StableVicuna-13B 是通过 Proximal Policy Optimization (PPO) 在各种对话和教学数据集上使用强化学习从人类反馈 (RLHF) 进行微调的 Vicuna-13B v0 模型。


    Hyperparameter Value
    n parameters n_\text{parameters} n parameters ​ 13B
    d model d_\text{model} d model ​ 5120
    n layers n_\text{layers} n layers ​ 40
    n heads n_\text{heads} n heads ​ 40



    StableVicuna-13B 在三个数据集的混合中进行微调。 OpenAssistant Conversations Dataset (OASST1) ,一个由人类生成、人类注释的助手式对话语料库,包含66,497个对话树中的161,443条消息,涵盖了35种不同的语言; GPT4All Prompt Generations ,由 GPT-4 生成的400k个提示和回答的数据集;以及 Alpaca ,由OpenAI的 text-davinci-003 引擎生成的52,000个说明和演示的数据集。

    在 RLHF 过程中使用的奖励模型也是在 OpenAssistant Conversations Dataset (OASST1) 上训练的,还使用了其他两个数据集: Anthropic HH-RLHF ,一个关于 AI 助手的有助益和无害性的偏好数据集;以及 Stanford Human Preferences Dataset ,一个包含18个不同主题领域的385,000个人类对于问题/指令回答的集体偏好数据集,涉及烹饪到法律咨询等领域。


    CarperAI/stable-vicuna-13b-delta 使用 PPO 进行训练,使用配置如下的 trlX 实现:

    Hyperparameter Value
    num_rollouts 128
    chunk_size 16
    ppo_epochs 4
    init_kl_coef 0.1
    target 6
    horizon 10000
    gamma 1
    lam 0.95
    cliprange 0.2
    cliprange_value 0.2
    vf_coef 1.0
    scale_reward None
    cliprange_reward 10
    max_length 512
    min_length 48
    top_k 0.0
    top_p 1.0
    do_sample True
    temperature 1.0





    基本的 LLaMA 模型是基于各种数据进行训练的,其中一些数据可能包含冒犯性、有害和有偏见的内容,可能导致有害行为。请参阅 LLaMA paper 的第5.1节。我们没有进行任何研究来确定对上述数据集进行微调对模型行为和毒性的影响。不要将该模型产生的聊天回复视为人类判断的替代品或真实信息的来源。请负责任地使用。


    感谢 Stability AI 的支持。


