模型:
TheBloke/WizardLM-Uncensored-Falcon-40B-3bit-GPTQ
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
此存储库包含一个实验性的GPTQ 3位模型,用于 Eric Hartford's WizardLM Uncensored Falcon 40B .
这是使用 AutoGPTQ 进行3位量化的结果。
提示格式为WizardLM。
What is a falcon? Can I keep one as a pet? ### Response:
请注意,这是一个实验性的GPTQ模型,目前对它的支持非常有限。
它的速度预计会非常慢。目前无法避免这个问题,但正在研究中。
这需要text-generation-webui的版本为commit 204731952ae59d79ea3805a425c73dd171d943c3或更新版本。
因此,请先更新text-generation-webui到最新版本。
使用它,您需要安装以下内容:
您应该安装版本为v0.2.1的AutoGPTQ。使用pip install auto-gptq进行自动安装目前存在问题。
因此,建议您手动从源代码进行编译:
git clone https://github.com/PanQiWei/AutoGPTQ cd AutoGPTQ git checkout v0.2.1 pip install . --no-cache-dir # This step requires CUDA toolkit installed
手动安装步骤需要您已安装 Nvidia CUDA toolkit .
要运行此代码,您需要安装先决条件。
您可以运行以下示例代码:
import torch from transformers import AutoTokenizer from auto_gptq import AutoGPTQForCausalLM # If you've already downloaded the model, reference its location here: quantized_model_dir = "/path/to/TheBloke_WizardLM-Uncensored-Falcon-40B-3bit-GPTQ" # Or to download it from the hub and store it in the Hugging Face cache directory: #quantized_model_dir = "TheBloke/WizardLM-Uncensored-Falcon-40B-3bit-GPTQ" from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir, use_fast=False) model = AutoGPTQForCausalLM.from_quantized(quantized_model_dir, device="cuda:0", use_triton=False, use_safetensors=True, torch_dtype=torch.bfloat16, trust_remote_code=True) prompt = "What is a falcon? Can I keep one as a pet?" prompt_template = f"{prompt}\n### Response:" tokens = tokenizer(prompt_template, return_tensors="pt").to("cuda:0").input_ids output = model.generate(input_ids=tokens, max_new_tokens=100, do_sample=True, temperature=0.8) print(tokenizer.decode(output[0]))
gptq_model-3bit--1g.safetensors
它适用于AutoGPTQ 0.2.0及更高版本。
它使用了无组大小的设置以减少VRAM使用,并使用了desc_act(动作顺序)以提高推断准确性。
请注意,此命令行参数会导致Falcon提供的Python代码在您的机器上执行。
目前由于Falcon太新,尚不支持Hugging Face transformers。将来transformers将原生支持该模型,然后将不再需要trust_remote_code。
在此存储库中,您可以看到两个.py文件 - 这些文件将被复制并执行。它们从基本存储库复制而来,位于 Falcon-40B-Instruct .
如需进一步支持,并讨论这些模型和人工智能,请加入我们:
感谢 chirper.ai 赞助我的一部分计算资源!
有很多人问我是否可以做贡献。我喜欢提供模型和帮助人们,并且愿意能够花更多时间这样做,以及扩大到新的项目,如微调/训练。
如果您有能力和愿意做出贡献,我将非常感激,并将帮助我继续提供更多模型,并开始进行新的AI项目。
捐赠者将优先获得在任何和所有的AI/LLM/模型问题和请求方面的支持,访问私人Discord房间以及其他福利。
Patreon特别感谢:Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V. Lukas,Joseph William Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。
感谢所有慷慨的赞助者和捐赠者!
这是在tiiuae/falcon-40b之上训练的WizardLM模型,数据集的一部分 - 包含了不包含对齐/道德化的回答。其目的是训练一个不带有对齐的WizardLM模型,以便可以单独添加任何形式的对齐,例如使用RLHF LoRA。
向开源AI/ML社区和帮助过我的每个人致敬。
注意:无保留模型没有防护措施。您对模型的使用负有责任,就像您对使用刀、枪、打火机或汽车等危险物品负责一样。发布由该模型生成的任何内容与您自己发布的内容相同。您对所发布内容负责,您无法将责任归咎于模型,就像您不能将责任归咎于刀具、枪支、打火机或汽车因您的使用而导致的情况一样。
提示格式为WizardLM。
What is a falcon? Can I keep one as a pet? ### Response:
感谢 chirper.ai 赞助我的一部分计算资源!