模型:

TheBloke/LLaMa-65B-GPTQ-3bit

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

# LLaMa 65B 3bit GPTQ

这是LLaMa 65B的变压器量化3位模型。

这是使用 GPTQ-for-LLaMa 进行3位量化的结果。

如何轻松下载并在文本生成WebUI中使用此模型

像往常一样打开文本生成WebUI用户界面。

  • 点击模型选项卡。
  • 在下载自定义模型或LoRA下方,输入TheBloke/LLaMa-65B-GPTQ-3bit。
  • 点击下载。
  • 等待直到显示下载完成。
  • 在左上角的“模型”旁边,点击刷新图标。
  • 在“模型”下拉菜单中选择刚刚下载的模型LLaMa-65B-GPTQ-3bit。
  • 如果在右下角看到错误信息,请忽略它 - 这是暂时的。
  • 在右侧填写GPTQ参数:位数 = 3,分组大小 = 无,模型类型 = Llama
  • 点击右上方的“保存此模型的设置”。
  • 点击右上方的“重新加载模型”。
  • 一旦显示加载完成,点击“文本生成”选项卡并输入提示!
  • 提供的文件

    兼容文件 - LLaMa-65B-GPTQ-3bit.safetensors

    这适用于所有版本的GPTQ for LLaMa。具有最大的兼容性。

    它是使用 --act-order参数创建的,以最大化推断质量,并使用group_size = None来最小化VRAM需求。

    • Wizard-Vicuna-13B-Uncensored-GPTQ-4bit-128g.compat.no-act-order.safetensors
      • 适用于GPTQ for LLaMa代码的所有版本,包括Triton和CUDA分支
      • 适用于AutoGPTQ。
      • 适用于文本生成WebUI的一键安装程序
      • 参数:Groupsize = None。act-order。
      • 用于创建GPTQ的命令:
        python llama.py /workspace/models/huggyllama_llama-65b wikitext2 --wbits 3 --true-sequential --act-order   --save_safetensors /workspace/llama-3bit/LLaMa-65B-GPTQ-3bit.safetensors
        

    Discord

    有关这些模型和人工智能的进一步支持和讨论,请加入我们:

    TheBloke AI's Discord server

    感谢和如何贡献

    感谢 chirper.ai 团队!

    我已经有很多人问是否可以做出贡献。我喜欢提供模型并帮助人们,也很愿意花更多的时间提供帮助,并扩展到新的项目,如微调/训练。

    如果您能够并愿意做出贡献,我将非常感激,并将帮助我继续提供更多的模型,并开始进行新的人工智能项目。

    捐赠者将优先得到关于AI / LLM / model问题和请求的支持,可以进入私人Discord房间,并享受其他福利。

    特别感谢我的所有慷慨赞助者和捐赠者!