模型:

TheBloke/alpaca-lora-65B-GPTQ-4bit

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Alpaca LoRA 65B GPTQ 4bit

这是 GPTQ-for-LLaMa 的4位量化结果

我还有可用于CPU推理的4位和2位GGML文件,可以在此处找到: TheBloke/alpaca-lora-65B-GGML

这些文件需要大量VRAM!

我相信它们可以在2张24GB的显卡上运行,并且我希望至少1024g文件可以在A100 40GB上运行。

我不能保证两个128g文件是否可以在只有40GB VRAM的设备上运行。

我还没有具体测试过VRAM要求,但将在某个时间点进行测试。如果您有任何经验可分享,请在评论中提供。

如果您想尝试使用CPU推理,请查看我的GGML存储库: TheBloke/alpaca-lora-65B-GGML

在text-generation-webui中输出的无意义的内容?

请阅读下面的提供的文件部分。除非您能够使用最新的GPTQ-for-LLaMa的Triton分支,否则请使用alpaca-lora-65B-GPTQ-4bit-128g.no-act-order.safetensors。

提供的文件

提供了三个文件。除非您使用最新的Triton分支的GPTQ-for-LLaMa,否则后两个文件将无法工作。

特别地,后两个文件使用 --act-order 来获得最大的量化质量,并且无法与oobabooga的GPTQ-for-LLaMa分支一起使用。因此,此时它也将无法与GPTQ-for-LLaMa的CUDA分支或text-generation-webui的一键安装程序一起使用。

除非您能够使用最新的Triton GPTQ-for-LLaMa代码,请使用medalpaca-13B-GPTQ-4bit-128g.no-act-order.safetensors

  • alpaca-lora-65B-GPTQ-4bit-128g.no-act-order.safetensors
    • 适用于所有版本的GPTQ-for-LLaMa代码,包括Triton和CUDA分支
    • 适用于text-generation-webui一键安装程序
    • 在Windows上工作
    • 需要约40GB的VRAM,这意味着您需要A100或2x24GB的显卡。
    • 我尚未测试确切的VRAM需求,所以在A100 40GB上可能无法运行。
    • 参数:Groupsize = 128g. 无 act-order.
    • 用于创建GPTQ的命令:
      CUDA_VISIBLE_DEVICES=0 python3 llama.py alpaca-lora-65B-HF c4 --wbits 4 --true-sequential --groupsize 128 --save_safetensors alpaca-lora-65B-GPTQ-4bit-128g.no-act-order.safetensors
      
  • alpaca-lora-65B-GPTQ-4bit-128g.safetensors
    • 仅适用于最新的Triton GPTQ-for-LLaMa分支
    • 无法与text-generation-webui的一键安装程序一起使用
    • 无法在Windows上工作
    • 需要40GB以上的VRAM,这意味着您需要A100或2x24GB的显卡。
    • 我尚未测试确切的VRAM需求,所以在A100 40GB上可能无法运行。
    • 参数:Groupsize = 128g. act-order.
    • 提供最高质量的量化,但需要使用最新的Triton GPTQ-for-LLaMa代码和更多的VRAM
    • 用于创建GPTQ的命令:
      CUDA_VISIBLE_DEVICES=0 python3 llama.py alpaca-lora-65B-HF c4 --wbits 4 --true-sequential --act-order --groupsize 128 --save_safetensors alpaca-lora-65B-GPTQ-4bit-128g.safetensors
      
  • alpaca-lora-65B-GPTQ-4bit-1024g.safetensors
    • 仅适用于最新的Triton GPTQ-for-LLaMa分支
    • 无法与text-generation-webui的一键安装程序一起使用
    • 无法在Windows上工作
    • 应该需要比128g文件更少的VRAM,所以希望可以在A100 40GB上运行
    • 我尚未测试确切的VRAM需求
    • 参数:Groupsize = 1024g. act-order.
    • 在减少VRAM需求的同时提供了act-order的好处
    • 用于创建GPTQ的命令:
      CUDA_VISIBLE_DEVICES=0 python3 llama.py alpaca-lora-65B-HF c4 --wbits 4 --true-sequential --act-order --groupsize 1024 --save_safetensors alpaca-lora-65B-GPTQ-4bit-1024g.safetensors
      

如何在text-generation-webui中运行

可以像加载其他GPTQ文件一样加载alpaca-lora-65B-GPTQ-4bit-128g.no-act-order.safetensors,无需对 oobaboogas text-generation-webui 进行任何更新。

Instructions on using GPTQ 4bit files in text-generation-webui are here .

另外两个safetensors模型文件使用了 --act-order 来获得最大的量化质量,但这意味着需要在UI中使用最新版的Triton GPTQ-for-LLaMa。

如果要使用 act-order safetensors 文件并且需要更新GPTQ-for-LLaMa的Triton分支,下面是我用来克隆Triton分支的GPTQ-for-LLaMa,克隆text-generation-webui并将GPTQ安装到UI中的命令:

# Clone text-generation-webui, if you don't already have it
git clone https://github.com/oobabooga/text-generation-webui
# Make a repositories directory
mkdir text-generation-webui/repositories
cd text-generation-webui/repositories
# Clone the latest GPTQ-for-LLaMa code inside text-generation-webui
git clone https://github.com/qwopqwop200/GPTQ-for-LLaMa

然后将此模型安装到 text-generation-webui/models 中,并按以下方式启动UI:

cd text-generation-webui
python server.py --model alpaca-lora-65B-GPTQ-4bit --wbits 4 --groupsize 128 --model_type Llama # add any other command line args you want

上述命令假设您已经安装了GPTQ-for-LLaMa和text-generation-webui的所有依赖。有关更多信息,请参阅它们各自的存储库。

如果无法将GPTQ-for-LLaMa更新到最新的Triton分支,或者不想更新,请使用上面提到的alpaca-lora-65B-GPTQ-4bit-128g.no-act-order.safetensors,无需对text-generation-webui进行任何升级,应该可以正常工作。

Discord

欢迎加入我们的Discord,获取更多支持和讨论关于这些模型和人工智能的内容:

TheBloke AI's Discord server

感谢,以及如何贡献

感谢 chirper.ai 团队!

很多人问我是否可以贡献。我喜欢提供模型并帮助人们,非常感谢您的贡献,将帮助我更多地投入到提供更多模型和开始新的AI项目中。

捐赠者将在所有AI/LLM/模型问题和请求上获得优先支持,并获得私人Discord房间以及其他福利。

Patreon 特别感谢:Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V. Lukas,Joseph Willliam Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。

感谢所有慷慨的赞助者和捐赠者!

尚未提供原始模型卡片

未提供 changsung's original repository 中的模型卡片。

根据名称,我推测这是在使用原始GPT 3.5 Alpaca数据集进行微调的结果。目前不确定是否使用了原始的Stanford数据或 cleaned tloen/alpaca-lora variant