模型:
TheBloke/alpaca-lora-65B-GPTQ-4bit
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
这是 GPTQ-for-LLaMa 的4位量化结果
我还有可用于CPU推理的4位和2位GGML文件,可以在此处找到: TheBloke/alpaca-lora-65B-GGML 。
我相信它们可以在2张24GB的显卡上运行,并且我希望至少1024g文件可以在A100 40GB上运行。
我不能保证两个128g文件是否可以在只有40GB VRAM的设备上运行。
我还没有具体测试过VRAM要求,但将在某个时间点进行测试。如果您有任何经验可分享,请在评论中提供。
如果您想尝试使用CPU推理,请查看我的GGML存储库: TheBloke/alpaca-lora-65B-GGML 。
请阅读下面的提供的文件部分。除非您能够使用最新的GPTQ-for-LLaMa的Triton分支,否则请使用alpaca-lora-65B-GPTQ-4bit-128g.no-act-order.safetensors。
提供了三个文件。除非您使用最新的Triton分支的GPTQ-for-LLaMa,否则后两个文件将无法工作。
特别地,后两个文件使用 --act-order 来获得最大的量化质量,并且无法与oobabooga的GPTQ-for-LLaMa分支一起使用。因此,此时它也将无法与GPTQ-for-LLaMa的CUDA分支或text-generation-webui的一键安装程序一起使用。
除非您能够使用最新的Triton GPTQ-for-LLaMa代码,请使用medalpaca-13B-GPTQ-4bit-128g.no-act-order.safetensors
CUDA_VISIBLE_DEVICES=0 python3 llama.py alpaca-lora-65B-HF c4 --wbits 4 --true-sequential --groupsize 128 --save_safetensors alpaca-lora-65B-GPTQ-4bit-128g.no-act-order.safetensors
CUDA_VISIBLE_DEVICES=0 python3 llama.py alpaca-lora-65B-HF c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save_safetensors alpaca-lora-65B-GPTQ-4bit-128g.safetensors
CUDA_VISIBLE_DEVICES=0 python3 llama.py alpaca-lora-65B-HF c4 --wbits 4 --true-sequential --act-order --groupsize 1024 --save_safetensors alpaca-lora-65B-GPTQ-4bit-1024g.safetensors
可以像加载其他GPTQ文件一样加载alpaca-lora-65B-GPTQ-4bit-128g.no-act-order.safetensors,无需对 oobaboogas text-generation-webui 进行任何更新。
Instructions on using GPTQ 4bit files in text-generation-webui are here .
另外两个safetensors模型文件使用了 --act-order 来获得最大的量化质量,但这意味着需要在UI中使用最新版的Triton GPTQ-for-LLaMa。
如果要使用 act-order safetensors 文件并且需要更新GPTQ-for-LLaMa的Triton分支,下面是我用来克隆Triton分支的GPTQ-for-LLaMa,克隆text-generation-webui并将GPTQ安装到UI中的命令:
# Clone text-generation-webui, if you don't already have it git clone https://github.com/oobabooga/text-generation-webui # Make a repositories directory mkdir text-generation-webui/repositories cd text-generation-webui/repositories # Clone the latest GPTQ-for-LLaMa code inside text-generation-webui git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa
然后将此模型安装到 text-generation-webui/models 中,并按以下方式启动UI:
cd text-generation-webui python server.py --model alpaca-lora-65B-GPTQ-4bit --wbits 4 --groupsize 128 --model_type Llama # add any other command line args you want
上述命令假设您已经安装了GPTQ-for-LLaMa和text-generation-webui的所有依赖。有关更多信息,请参阅它们各自的存储库。
如果无法将GPTQ-for-LLaMa更新到最新的Triton分支,或者不想更新,请使用上面提到的alpaca-lora-65B-GPTQ-4bit-128g.no-act-order.safetensors,无需对text-generation-webui进行任何升级,应该可以正常工作。
欢迎加入我们的Discord,获取更多支持和讨论关于这些模型和人工智能的内容:
感谢 chirper.ai 团队!
很多人问我是否可以贡献。我喜欢提供模型并帮助人们,非常感谢您的贡献,将帮助我更多地投入到提供更多模型和开始新的AI项目中。
捐赠者将在所有AI/LLM/模型问题和请求上获得优先支持,并获得私人Discord房间以及其他福利。
Patreon 特别感谢:Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V. Lukas,Joseph Willliam Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。
感谢所有慷慨的赞助者和捐赠者!
未提供 changsung's original repository 中的模型卡片。
根据名称,我推测这是在使用原始GPT 3.5 Alpaca数据集进行微调的结果。目前不确定是否使用了原始的Stanford数据或 cleaned tloen/alpaca-lora variant 。