TheBloke/LLaMa-65B-GPTQ-3bit | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

模型:

TheBloke/LLaMa-65B-GPTQ-3bit

任务:

文本生成

类库:

Transformers

其他:

llama GPTQ 3-bit quantized text-generation-inference

许可:

other

模型介绍文件清单

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

# LLaMa 65B 3bit GPTQ

这是LLaMa 65B的变压器量化3位模型。

这是使用 GPTQ-for-LLaMa 进行3位量化的结果。

如何轻松下载并在文本生成WebUI中使用此模型

像往常一样打开文本生成WebUI用户界面。

点击模型选项卡。

在下载自定义模型或LoRA下方，输入TheBloke/LLaMa-65B-GPTQ-3bit。

点击下载。

等待直到显示下载完成。

在左上角的“模型”旁边，点击刷新图标。

在“模型”下拉菜单中选择刚刚下载的模型LLaMa-65B-GPTQ-3bit。

如果在右下角看到错误信息，请忽略它 - 这是暂时的。

在右侧填写GPTQ参数：位数 = 3，分组大小 = 无，模型类型 = Llama

点击右上方的“保存此模型的设置”。

点击右上方的“重新加载模型”。

一旦显示加载完成，点击“文本生成”选项卡并输入提示！

提供的文件

兼容文件 - LLaMa-65B-GPTQ-3bit.safetensors

这适用于所有版本的GPTQ for LLaMa。具有最大的兼容性。

它是使用 --act-order参数创建的，以最大化推断质量，并使用group_size = None来最小化VRAM需求。

Wizard-Vicuna-13B-Uncensored-GPTQ-4bit-128g.compat.no-act-order.safetensors
- 适用于GPTQ for LLaMa代码的所有版本，包括Triton和CUDA分支
- 适用于AutoGPTQ。
- 适用于文本生成WebUI的一键安装程序
- 参数：Groupsize = None。act-order。
- 用于创建GPTQ的命令：
```
python llama.py /workspace/models/huggyllama_llama-65b wikitext2 --wbits 3 --true-sequential --act-order   --save_safetensors /workspace/llama-3bit/LLaMa-65B-GPTQ-3bit.safetensors
```

Discord

有关这些模型和人工智能的进一步支持和讨论，请加入我们：

TheBloke AI's Discord server

感谢和如何贡献

感谢 chirper.ai 团队！

我已经有很多人问是否可以做出贡献。我喜欢提供模型并帮助人们，也很愿意花更多的时间提供帮助，并扩展到新的项目，如微调/训练。

如果您能够并愿意做出贡献，我将非常感激，并将帮助我继续提供更多的模型，并开始进行新的人工智能项目。

捐赠者将优先得到关于AI / LLM / model问题和请求的支持，可以进入私人Discord房间，并享受其他福利。

Patreon： https://patreon.com/TheBlokeAI
Ko-Fi： https://ko-fi.com/TheBlokeAI

特别感谢我的所有慷慨赞助者和捐赠者！

作者:

Tom Jobbins

数据集大小:

23.65 GB