模型:

TheBloke/vicuna-7B-1.1-GPTQ-4bit-128g

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

# Vicuna 7B 1.1 GPTQ 4bit 128g

这是一个4位GPTQ版本的 Vicuna 7B 1.1 model

它是通过将上述存储库中提供的增量与原始Llama 7B模型 using the code provided on their Github page 合并而创建的。

然后,使用 GPTQ-for-LLaMa 进行4位量化。

我的Vicuna 1.1模型存储库

我有以下Vicuna 1.1存储库可用:

13B模型:

7B模型:

提供的文件

提供了两个模型文件。理想情况下,使用 safetensors 文件。以下是完整的详细信息:

提供文件的详细信息:

  • vicuna-7B-1.1-GPTQ-4bit-128g.safetensors
    • safetensors 格式,带有更好的文件安全性,是使用最新的 GPTQ-for-LLaMa 代码创建的。
    • 创建的命令:
      • python3 llama.py vicuna-7B-1.1-HF c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save_safetensors vicuna-7B-1.1-GPTQ-4bit-128g.safetensors
  • vicuna-7B-1.1-GPTQ-4bit-128g.no-act-order.pt
    • pt 格式文件,没有使用 --act-order 标志创建。
    • 此文件可能具有稍低的质量,但包含它是因为它可以在不需要编译最新的GPTQ-for-LLaMa代码的情况下使用。
    • 命令创建:
      • python3 llama.py vicuna-7B-1.1-HF c4 --wbits 4 --true-sequential --groupsize 128 --save_safetensors vicuna-7B-1.1-GPTQ-4bit-128g.no-act-order.pt

如何在文本生成WebUI中运行

文件 vicuna-7B-1.1-GPTQ-4bit-128g.no-act-order.pt 可以像其他GPTQ文件一样加载,而不需要对 oobaboogas text-generation-webui 进行任何更新。

safetensors 模型文件是使用最新的GPTQ代码创建的,可能具有更高的质量,但需要在UI中使用最新的GPTQ-for-LLaMa。

这是我用来克隆GPTQ-for-LLaMa的Triton分支,克隆text-generation-webui,并将GPTQ安装到UI中的命令:

git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa
git clone https://github.com/oobabooga/text-generation-webui
mkdir -p text-generation-webui/repositories
ln -s GPTQ-for-LLaMa text-generation-webui/repositories/GPTQ-for-LLaMa

然后按照以下方式将此模型安装到 text-generation-webui/models 中并启动UI:

cd text-generation-webui
python server.py --model vicuna-7B-1.1-GPTQ-4bit-128g --wbits 4 --groupsize 128 --model_type Llama # add any other command line args you want

以上命令假定您已安装了GPTQ-for-LLaMa和text-generation-webui的所有依赖项。有关更多信息,请参阅它们各自的存储库。

如果您使用的是Windows,或者由于其他原因无法使用GPTQ的Triton分支,您可以改用CUDA分支:

git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa -b cuda
cd GPTQ-for-LLaMa
python setup_cuda.py install

然后按照上述方式将其连接到 text-generation-webui/repositories 中。

或者,只需如上所述使用 vicuna-7B-1.1-GPTQ-4bit-128g.no-act-order.pt 。

Discord

如需进一步支持以及有关这些模型和AI的讨论,请加入我们:

TheBloke AI's Discord server

感谢和如何贡献。

感谢 chirper.ai 团队!

我有很多人问我是否可以做出贡献。我喜欢提供模型和帮助人们,非常希望能够更多地花时间提供帮助,并扩展到新的项目,如精细调整/训练。

如果您能够并愿意进行贡献,我将不胜感激,并将帮助我继续提供更多模型,并开始进行新的AI项目。

捐赠者将优先获得有关任何和所有AI/LLM/模型问题和请求的支持,以及访问私人Discord房间和其他福利。

Patreon特别提及:Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V. Lukas,Joseph William Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。

感谢所有慷慨的赞助者和捐赠者!

Vicuna模型卡片

模型详细信息

模型类型:Vicuna是一个开源的聊天机器人,通过对从ShareGPT收集的用户共享对话进行精调LLaMA训练而得到。它是基于Transformer架构的自回归语言模型。

模型日期:Vicuna在2023年3月至2023年4月之间进行训练。

开发模型的组织:Vicuna团队,成员来自UC Berkeley,CMU,Stanford和UC San Diego。

获取更多信息的论文或资源: https://vicuna.lmsys.org/

许可证:Apache许可证2.0

发送有关模型的问题或评论的位置: https://github.com/lm-sys/FastChat/issues

预期的用途

主要预期用途:Vicuna的主要用途是进行大型语言模型和聊天机器人方面的研究。

主要预期用户:该模型的主要预期用户是自然语言处理,机器学习和人工智能领域的研究人员和爱好者。

训练数据集

来自ShareGPT.com的70000个对话。

评估数据集

通过创建一组80个不同的问题并利用GPT-4来评估模型输出,对模型质量进行初步评估。有关更多详细信息,请参见 https://vicuna.lmsys.org/

权重v1.1的重大更新

  • 重新设计标记化和分隔符。在Vicuna v1.1中,分隔符从 "###" 改为EOS标记 "</s>" 。此更改使确定生成停止条件变得更容易,并且与其他库更兼容。
  • 修复了有监督的精调损失计算,以获得更好的模型质量。