模型:

TheBloke/vicuna-7B-GPTQ-4bit-128g

任务:

文本生成

类库:

PyTorch Transformers

其他:

llama text-generation-inference

许可:

other

模型介绍文件清单

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

# Vicuna 7B GPTQ 4-bit 128g

此存储库包含使用 GPTQ-for-LLaMa 进行量化的 Vicuna 7B model 。

原始的Vicuna 7B存储库包含的是增量而不是权重。我没有自己合并增量，而是使用了来自 https://huggingface.co/helloollel/vicuna-7b 的模型文件。

提供的文件

提供了两个模型文件。您不需要两个，选择您喜欢的一个即可。

提供的文件详情:

vicuna-7B-GPTQ-4bit-128g.pt
- pt格式文件，使用最新的 GPTQ-for-LLaMa 代码创建。
- 创建命令:
  - python3 llama.py vicuna-7B c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save vicuna-7B-GPTQ-4bit-128g.pt
vicuna-7B-GPTQ-4bit-128g.safetensors
- 较新的safetensors格式，具有较好的文件安全性，使用最新的 GPTQ-for-LLaMa 代码创建。
- 创建命令:
  - python3 llama.py vicuna-7B c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save_safetensors vicuna-7B-GPTQ-4bit-128g.safetensors

如何在text-generation-webui中运行这些GPTQ模型

这些模型文件是使用最新的GPTQ代码创建的，需要在UI中使用最新的GPTQ-for-LLaMa。

这是我用来克隆GPTQ-for-LLaMa的Triton分支、克隆text-generation-webui并将GPTQ安装到UI中的命令:

git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa
git clone https://github.com/oobabooga/text-generation-webui
mkdir -p text-generation-webui/repositories
ln -s GPTQ-for-LLaMa text-generation-webui/repositories/GPTQ-for-LLaMa

然后将此模型安装到text-generation-webui/models中，并按以下方式启动UI:

cd text-generation-webui
python server.py --model vicuna-7B-GPTQ-4bit-128g --wbits 4 --groupsize 128  # add any other command line args you want

以上命令假设您已安装了GPTQ-for-LLaMa和text-generation-webui的所有依赖项。有关更多信息，请参阅它们各自的存储库。

如果您使用的是Windows，或者因其他原因无法使用GPTQ的Triton分支，您可以改用CUDA分支:

git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa -b cuda
cd GPTQ-for-LLaMa
python setup_cuda.py install

然后按照上面的描述将其链接到text-generation-webui/repositories中。

Discord

如需进一步支持以及有关这些模型和AI的讨论，请加入我们:

TheBloke AI's Discord server

感谢以及如何贡献

感谢 chirper.ai 团队！

很多人都问我是否可以做出贡献。我喜欢提供模型和帮助别人，而且很乐意能在这方面花更多时间，也希望能扩展到新的项目，如微调/训练。

如果您有能力和意愿做出贡献，我将非常感激，并将帮助我继续提供更多模型，并开始新的AI项目。

捐助者将优先获得与AI/LLM/模型相关的任何问题和请求的支持，可以进入私人Discord聊天室，并享受其他好处。

Patreon: https://patreon.com/TheBlokeAI
Ko-Fi: https://ko-fi.com/TheBlokeAI

Patreon特别感谢: Aemon Algiz、Dmitriy Samsonov、Nathan LeClaire、Trenton Dambrowitz、Mano Prime、David Flickinger、vamX、Nikolai Manek、senxiiz、Khalefa Al-Ahmad、Illia Dulskyi、Jonathan Leane、Talal Aujan、V. Lukas、Joseph William Delisle、Pyrater、Oscar Rangel、Lone Striker、Luke Pendergrass、Eugene Pentland、Sebastain Graf、Johann-Peter Hartman。

感谢所有慷慨的资助者和捐助者！

Vicuna模型卡

模型详情

模型类型: Vicuna是一个由从ShareGPT收集的用户共享对话进行细调LLaMA的开源聊天机器人。它是一个基于变压器架构的自回归语言模型。

模型日期: Vicuna训练于2023年3月至2023年4月之间。

开发该模型的组织: Vicuna团队，由来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校的成员组成。

获取更多信息的论文或资源: https://vicuna.lmsys.org/

许可证: Apache License 2.0

如何发送问题或评论关于模型: https://github.com/lm-sys/FastChat/issues

预期使用

主要预期用途: Vicuna的主要用途是用于大型语言模型和聊天机器人的研究。

主要预期用户: 该模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员和爱好者。

训练数据集

从ShareGPT.com收集的70K个对话。

评估数据集

通过创建一组80个多样化问题并利用GPT-4来判断模型输出，对模型质量进行了初步评估。详情请参阅 https://vicuna.lmsys.org/ 。

作者:

Tom Jobbins

数据集大小:

7.25 GB