模型:
TheBloke/vicuna-13B-1.1-GPTQ-4bit-128g
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
# Vicuna 13B 1.1 GPTQ 4bit 128g这是一个4位GPTQ版本的 Vicuna 13B 1.1 model 。
它是通过将上述存储库中提供的增量与原始的Llama 13B模型 using the code provided on their Github page 合并而创建的。
然后,使用 GPTQ-for-LLaMa 进行了4位量化。
查看此由 eucdee 提供的Google Colab: Google Colab for Vicuna 1.1
我有以下Vicuna 1.1存储库可用:
13B模型:
7B模型:
正常打开text-generation-webui界面。
如果您得到无意义的输出,那是因为您正在使用未更新的GPTQ-for-LLaMA中的safetensors文件。
如果您使用safetensors文件,则必须在text-generation-webui内部使用最新版本的GPTQ-for-LLaMa。
如果您不想更新或无法更新,请改用pt文件。
无论哪种方式,请仔细阅读下面的说明。
提供了两个模型文件。理想情况下,使用safetensors文件。详细信息如下:
提供文件的详细信息:
vicuna-13B-1.1-GPTQ-4bit-128g.compat.no-act-order.pt
vicuna-13B-1.1-GPTQ-4bit-128g.latest.safetensors
文件vicuna-13B-1.1-GPTQ-4bit-128g.compat.no-act-order.pt可以像其他GPTQ文件一样加载,而无需对 oobaboogas text-generation-webui 进行任何更新。
Instructions on using GPTQ 4bit files in text-generation-webui are here 。
另一个safetensors模型文件使用--act-order创建,以获得可能的最大量化质量,但这意味着需要在UI中使用最新的GPTQ-for-LLaMa。
如果您想使用act-order safetensors文件并且需要更新GPTQ-for-LLaMa的Triton分支,请使用以下命令克隆GPTQ-for-LLaMa的Triton分支,克隆text-generation-webui,并将GPTQ安装到UI中:
# Clone text-generation-webui, if you don't already have it git clone https://github.com/oobabooga/text-generation-webui # Make a repositories directory mkdir text-generation-webui/repositories cd text-generation-webui/repositories # Clone the latest GPTQ-for-LLaMa code inside text-generation-webui git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa
然后将此模型安装到text-generation-webui/models中,并按以下方式启动UI:
cd text-generation-webui python server.py --model vicuna-13B-1.1-GPTQ-4bit-128g --wbits 4 --groupsize 128 --model_type Llama # add any other command line args you want
上述命令假设您已安装了GPTQ-for-LLaMa和text-generation-webui的所有依赖项。有关更多信息,请参阅它们各自的存储库。
如果您使用Windows或由于其他原因无法使用GPTQ的Triton分支,您可以使用CUDA分支:
git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa -b cuda cd GPTQ-for-LLaMa python setup_cuda.py install
然后将其链接到text-generation-webui/repositories中,如上所述。
或者,只需使用上述提到的vicuna-13B-1.1-GPTQ-4bit-128g.compat.no-act-order.pt,它应该可以在不升级text-generation-webui的情况下正常工作。
如需进一步支持以及有关这些模型和人工智能的讨论,请加入我们的群组:
感谢 chirper.ai 团队!
很多人问我是否可以做出贡献。我喜欢提供模型和帮助别人,并非常愿意能够投入更多时间进行这些工作,以及扩展到新的项目,如微调/训练。
如果您能够并愿意做出贡献,我将非常感激,并将有助于我继续提供更多模型,并开始进行新的人工智能项目。
捐赠者将获得在任何人工智能/LLM/模型问题和请求上的优先支持,访问私人Discord房间以及其他福利。
Patreon特别感谢 :Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V.Lukas,Joseph William Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。
感谢所有慷慨的赞助者和捐赠者!
模型类型:Vicuna是一个开源聊天机器人,通过对从ShareGPT收集的用户共享对话进行精细调整LLaMA进行训练。它是基于Transformer架构的自回归语言模型。
模型日期:Vicuna的训练时间为2023年3月至2023年4月。
开发该模型的组织:Vicuna团队,成员来自加州大学伯克利分校、卡内基梅隆大学、斯坦福大学和加州大学圣地亚哥分校。
获取更多信息的论文或资源: https://vicuna.lmsys.org/
许可证:Apache License 2.0
有关发送问题或意见的模型的位置: https://github.com/lm-sys/FastChat/issues
主要预期用途:Vicuna主要用于大型语言模型和聊天机器人的研究。
主要预期用户:模型的主要预期用户是自然语言处理、机器学习和人工智能领域的研究人员和爱好者。
收集自ShareGPT.com的70,000个对话。
通过创建一组80个多样化的问题并利用GPT-4来评估模型输出进行了初步评估。有关更多详细信息,请参阅 https://vicuna.lmsys.org/ 。