模型:

TheBloke/vicuna-AlekseyKorshuk-7B-GPTQ-4bit-128g

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

# Vicuna 7B GPTQ 4位 128g

此存储库包含使用 GPTQ-for-LLaMa 进行量化的 Aleksey Korshuk's Vicuna 7B model

Aleksey的模型是原始 Vicuna 7B model 的替代品。它使用相同的ShareGPT源数据,但没有进行“伦理过滤”。

可用的其他版本

获取到了无意义的输出?

请仔细阅读下面的两个部分。您需要升级到最新的 QwopQwop GPTQ-for-LLaMa code ,或者使用 vicuna-AlekseyKorshuk-7B-GPTQ-4bit-128g.no-act-order.pt 。

提供的文件

提供了两个模型文件。如果可以,请使用 safetensors 文件,否则使用 pt 文件。

提供文件的详细信息如下:

  • vicuna-AlekseyKorshuk-7B-GPTQ-4bit-128g.safetensors
    • 最新的safetensors格式,具有改进的文件安全性,使用最新的 GPTQ-for-LLaMa 代码创建。
    • 它具有 --act-order GPTQ参数,应该可以提供稍高的推理质量。
    • 创建命令:
      • python3 llama.py vicuna-AlekseyKorshuk-7B c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save_safetensors vicuna-AlekseyKorshuk-7B-GPTQ-4bit-128g.safetensors
  • vicuna-AlekseyKorshuk-7B-GPTQ-4bit-128g.no-act-order.pt
    • pt格式文件,没有使用 --act-order 标志创建。
    • 此文件的质量可能稍低,但包含此文件可以无需更新GPTQ-for-LLaMa的最新代码使用。
    • 它应该可以在Windows上使用一键安装程序,因为它包括较旧的GPTQ-for-LLaMa代码。
    • 创建命令:
      • python3 llama.py vicuna-AlekseyKorshuk-7B c4 --wbits 4 --true-sequential --groupsize 128 --save vicuna-AlekseyKorshuk-7B-GPTQ-4bit-128g.no-act-order.pt

如何在 text-generation-webui 中运行这些GPTQ模型

生成 safetensors 模型文件时,使用了 --act-order 来增加量化质量。但这需要在UI中使用最新的GPTQ代码。

如果您不想或无法更新到最新的GPTQ代码,请使用文件 vicuna-AlekseyKorshuk-7B-GPTQ-4bit-128g.no-act-order.pt 。

要使用质量最高的 safetensors 模型,以下是我用来克隆GPTQ-for-LLaMa的Triton分支、克隆text-generation-webui并将GPTQ安装到UI中的命令:

git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa
git clone https://github.com/oobabooga/text-generation-webui
mkdir -p text-generation-webui/repositories
ln -s GPTQ-for-LLaMa text-generation-webui/repositories/GPTQ-for-LLaMa

然后将此模型安装到 text-generation-webui/models 并按以下方式启动UI:

cd text-generation-webui
python server.py --model vicuna-AlekseyKorshuk-7B-GPTQ-4bit-128g --wbits 4 --groupsize 128  # add any other command line args you want

以上命令假设您已安装了GPTQ-for-LLaMa和text-generation-webui的所有依赖项。有关更多信息,请参阅它们各自的存储库。

如果您使用的是Windows,或因其他原因无法使用GPTQ的Triton分支,则可以使用CUDA分支:

pip uninstall -qy quant_cuda # Uninstall the existing CUDA kernel, if present
git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa -b cuda # Clone the CUDA branch of qwopqwop's GPTQ-for-LLaMa
cd GPTQ-for-LLaMa
python setup_cuda.py install  # Compile and install the CUDA kernel. Requires that a C/C++ compiler is installed.

然后按上述链接将其链接到 text-generation-webui/repositories 中。

或者,如果您无法或不愿执行所有这些操作,只需使用 vicuna-AlekseyKorshuk-7B-GPTQ-4bit-128g.no-act-order.pt ,它无需更新GPTQ-for-LLaMa。

Discord

如需进一步支持以及有关这些模型和AI的讨论,请加入:

TheBloke AI's Discord server

感谢以及如何贡献

感谢 chirper.ai 团队!

我接到很多人问是否可以做贡献。我喜欢提供模型和帮助人们,非常乐意将更多时间用于此,并开始进行新的项目,如微调/训练。

如果您能够并且愿意做出贡献,我将非常感激,并将帮助我继续提供更多模型,并开始新的AI项目。

捐款人将优先获得有关所有AI/LLM/模型问题和请求的支持,可以访问私人Discord房间,以及其他福利。

Patreon 特别感谢: Aemon Algiz, Dmitriy Samsonov, Nathan LeClaire, Trenton Dambrowitz, Mano Prime, David Flickinger, vamX, Nikolai Manek, senxiiz, Khalefa Al-Ahmad, Illia Dulskyi, Jonathan Leane, Talal Aujan, V. Lukas, Joseph William Delisle, Pyrater, Oscar Rangel, Lone Striker, Luke Pendergrass, Eugene Pentland, Sebastain Graf, Johann-Peter Hartman.

感谢所有慷慨的赞助者和捐助者!

原始Vicuna模型卡片

模型详情

模型类型:Vicuna是一个由LLaMA在从ShareGPT收集的用户共享对话中进行微调训练的开源聊天机器人。它是一个基于Transformer架构的自回归语言模型。

模型日期:Vicuna的训练时间为2023年3月至2023年4月。

开发此模型的组织:Vicuna团队,成员来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校。

获取更多信息的论文或资源: https://vicuna.lmsys.org/

许可证: Apache许可证2.0

有关模型的问题或评论应发送至: https://github.com/lm-sys/FastChat/issues

预期用途

主要预期用途:Vicuna的主要用途是在大型语言模型和聊天机器人的研究上。

主要预期用户:该模型的主要预期用户是自然语言处理、机器学习和人工智能的研究人员和爱好者。

训练数据集

从ShareGPT.com收集的70K个对话。

评估数据集

通过创建一组80个多样化的问题,并利用GPT-4来评估模型输出的质量进行初步评估。有关详细信息,请参阅 https://vicuna.lmsys.org/