模型:
TheBloke/gpt4-alpaca-lora_mlp-65B-GPTQ
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
这些文件是将 LoRA weights of chtan's gpt4-alpaca-lora_mlp-65B 与原始的Llama 65B模型合并后的结果。
然后使用 GPTQ-for-LLaMa 进行了4位量化。
我使用了2张24GB 4090 GPU进行了该模型的测试,在其中一张卡OOM之前,该模型能够返回1500个标记。
所以你可能需要预加载一些层到CPU RAM上,或者在拥有超过48GB VRAM的系统上运行。
或者,如果你可以将回复限制在