模型:

TheBloke/vicuna-13B-1.1-GPTQ-4bit-128g

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

# Vicuna 13B 1.1 GPTQ 4bit 128g

这是一个4位GPTQ版本的 Vicuna 13B 1.1 model

它是通过将上述存储库中提供的增量与原始的Llama 13B模型 using the code provided on their Github page 合并而创建的。

然后,使用 GPTQ-for-LLaMa 进行了4位量化。

想免费在Colab中尝试吗?

查看此由 eucdee 提供的Google Colab: Google Colab for Vicuna 1.1

我的Vicuna 1.1模型存储库

我有以下Vicuna 1.1存储库可用:

13B模型:

7B模型:

如何轻松下载和使用此模型在text-generation-webui中

正常打开text-generation-webui界面。

  • 点击“模型”标签。
  • 在“下载自定义模型或LoRA”下方,输入“TheBloke/vicuna-13B-1.1-GPTQ-4bit-128g”。
  • 点击“下载”。
  • 等待直到显示下载完成。
  • 点击左上角的“模型”旁边的“刷新”图标。
  • 在“模型下拉框”中选择刚刚下载的模型“vicuna-13B-1.1-GPTQ-4bit-128g”。
  • 如果在右下角看到错误,请忽略它-它是暂时的。
  • 在右侧检查GPTQ参数是否正确: 位数=4 , 组大小=128 , 模型类型=Llama
  • 点击右上角的“保存此模型的设置”。
  • 点击右上角的“重新加载模型”。
  • 一旦显示加载完成,点击“文本生成”标签并输入提示!
  • 无意义的输出

    如果您得到无意义的输出,那是因为您正在使用未更新的GPTQ-for-LLaMA中的safetensors文件。

    如果您使用safetensors文件,则必须在text-generation-webui内部使用最新版本的GPTQ-for-LLaMa。

    如果您不想更新或无法更新,请改用pt文件。

    无论哪种方式,请仔细阅读下面的说明。

    提供的文件

    提供了两个模型文件。理想情况下,使用safetensors文件。详细信息如下:

    提供文件的详细信息:

    • vicuna-13B-1.1-GPTQ-4bit-128g.compat.no-act-order.pt

      • pt格式文件,使用--act-order标志创建。
      • 该文件的质量可能稍低,但包含在内是因为它可以在不需要编译最新的GPTQ-for-LLaMa代码的情况下使用。
      • 因此,它将与包括旧版GPTQ-for-LLaMa代码的一键安装程序一起在Windows上工作。
      • 创建命令:
        • python3 llama.py vicuna-13B-1.1-HF c4 --wbits 4 --true-sequential --groupsize 128 --save_safetensors vicuna-13B-1.1-GPTQ-4bit-128g.no-act-order.pt
    • vicuna-13B-1.1-GPTQ-4bit-128g.latest.safetensors

      • safetensors格式,具有改进的文件安全性,使用最新的 GPTQ-for-LLaMa 代码创建。
      • 创建命令:
        • python3 llama.py vicuna-13B-1.1-HF c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save_safetensors vicuna-13B-1.1-GPTQ-4bit-128g.safetensors

    text-generation-webui的手动说明

    文件vicuna-13B-1.1-GPTQ-4bit-128g.compat.no-act-order.pt可以像其他GPTQ文件一样加载,而无需对 oobaboogas text-generation-webui 进行任何更新。

    Instructions on using GPTQ 4bit files in text-generation-webui are here

    另一个safetensors模型文件使用--act-order创建,以获得可能的最大量化质量,但这意味着需要在UI中使用最新的GPTQ-for-LLaMa。

    如果您想使用act-order safetensors文件并且需要更新GPTQ-for-LLaMa的Triton分支,请使用以下命令克隆GPTQ-for-LLaMa的Triton分支,克隆text-generation-webui,并将GPTQ安装到UI中:

    # Clone text-generation-webui, if you don't already have it
    git clone https://github.com/oobabooga/text-generation-webui
    # Make a repositories directory
    mkdir text-generation-webui/repositories
    cd text-generation-webui/repositories
    # Clone the latest GPTQ-for-LLaMa code inside text-generation-webui
    git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa
    

    然后将此模型安装到text-generation-webui/models中,并按以下方式启动UI:

    cd text-generation-webui
    python server.py --model vicuna-13B-1.1-GPTQ-4bit-128g --wbits 4 --groupsize 128 --model_type Llama # add any other command line args you want
    

    上述命令假设您已安装了GPTQ-for-LLaMa和text-generation-webui的所有依赖项。有关更多信息,请参阅它们各自的存储库。

    如果您使用Windows或由于其他原因无法使用GPTQ的Triton分支,您可以使用CUDA分支:

    git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa -b cuda
    cd GPTQ-for-LLaMa
    python setup_cuda.py install
    

    然后将其链接到text-generation-webui/repositories中,如上所述。

    或者,只需使用上述提到的vicuna-13B-1.1-GPTQ-4bit-128g.compat.no-act-order.pt,它应该可以在不升级text-generation-webui的情况下正常工作。

    Discord

    如需进一步支持以及有关这些模型和人工智能的讨论,请加入我们的群组:

    TheBloke AI's Discord server

    感谢以及如何做出贡献。

    感谢 chirper.ai 团队!

    很多人问我是否可以做出贡献。我喜欢提供模型和帮助别人,并非常愿意能够投入更多时间进行这些工作,以及扩展到新的项目,如微调/训练。

    如果您能够并愿意做出贡献,我将非常感激,并将有助于我继续提供更多模型,并开始进行新的人工智能项目。

    捐赠者将获得在任何人工智能/LLM/模型问题和请求上的优先支持,访问私人Discord房间以及其他福利。

    Patreon特别感谢 :Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V.Lukas,Joseph William Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。

    感谢所有慷慨的赞助者和捐赠者!

    Vicuna模型卡片

    模型详情

    模型类型:Vicuna是一个开源聊天机器人,通过对从ShareGPT收集的用户共享对话进行精细调整LLaMA进行训练。它是基于Transformer架构的自回归语言模型。

    模型日期:Vicuna的训练时间为2023年3月至2023年4月。

    开发该模型的组织:Vicuna团队,成员来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校。

    获取更多信息的论文或资源: https://vicuna.lmsys.org/

    许可证:Apache License 2.0

    有关发送问题或意见的模型的位置: https://github.com/lm-sys/FastChat/issues

    预期使用

    主要预期用途:Vicuna主要用于大型语言模型和聊天机器人的研究。

    主要预期用户:模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

    训练数据集

    收集自ShareGPT.com的70,000个对话。

    评估数据集

    通过创建一组80个多样化的问题并利用GPT-4来评估模型输出进行了初步评估。有关更多详细信息,请参阅 https://vicuna.lmsys.org/

    权重v1.1的主要更新

    • 重构标记化和分隔符。在Vicuna v1.1中,分隔符已从“###”更改为EOS标记“</s>”。此更改使确定生成停止条件变得更容易,并且能够更好地与其他库兼容。
    • 修复了监督式微调损失计算,以提高模型质量。