英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

GPT4-Alpaca-LoRA_MLP-65B GPTQ

这些文件是将 LoRA weights of chtan's gpt4-alpaca-lora_mlp-65B 与原始的Llama 65B模型合并后的结果。

然后使用 GPTQ-for-LLaMa 进行了4位量化。

可用的存储库

VRAM

我使用了2张24GB 4090 GPU进行了该模型的测试,在其中一张卡OOM之前,该模型能够返回1500个标记。

所以你可能需要预加载一些层到CPU RAM上,或者在拥有超过48GB VRAM的系统上运行。

或者,如果你可以将回复限制在