模型:
TheBloke/WizardLM-Uncensored-Falcon-40B-GPTQ
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
此存储库包含一个实验性的GPTQ 4bit模型 Eric Hartford's WizardLM Uncensored Falcon 40B 。
它是使用 AutoGPTQ 进行4bit量化的结果。
提示格式为WizardLM。
What is a falcon? Can I keep one as a pet? ### Response:
请注意,这是一个实验性的GPTQ模型。目前支持该模型的功能非常有限。
运行速度也会非常慢 。目前无法避免这个问题,但正在进行调查。
这需要text-generation-webui版本为 204731952ae59d79ea3805a425c73dd171d943c3 或更高版本。
因此,请首先将text-generation-webui更新到最新版本。
使用该模型您需要以下资源:
您应该安装版本为v0.2.1的AutoGPTQ。目前通过 pip install auto-gptq 进行自动安装存在问题。
因此,建议您手动从源代码进行编译:
git clone https://github.com/PanQiWei/AutoGPTQ cd AutoGPTQ git checkout v0.2.1 pip install . --no-cache-dir # This step requires CUDA toolkit installed
手动安装步骤将需要您安装 Nvidia CUDA toolkit .
要运行此代码,您需要安装前提条件。
您可以运行以下示例代码:
import torch from transformers import AutoTokenizer from auto_gptq import AutoGPTQForCausalLM # If you've already downloaded the model, reference its location here: quantized_model_dir = "/path/to/TheBloke_WizardLM-Uncensored-Falcon-40B-GPTQ" # Or to download it from the hub and store it in the Hugging Face cache directory: #quantized_model_dir = "TheBloke/WizardLM-Uncensored-Falcon-40B-GPTQ" from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir, use_fast=False) model = AutoGPTQForCausalLM.from_quantized(quantized_model_dir, device="cuda:0", use_triton=False, use_safetensors=True, torch_dtype=torch.bfloat16, trust_remote_code=True) prompt = "What is a falcon? Can I keep one as a pet?" prompt_template = f"{prompt}\n### Response:" tokens = tokenizer(prompt_template, return_tensors="pt").to("cuda:0").input_ids output = model.generate(input_ids=tokens, max_new_tokens=100, do_sample=True, temperature=0.8) print(tokenizer.decode(output[0]))
gptq_model-4bit--1g.safetensors
此文件可与AutoGPTQ 0.2.0及更高版本一起使用。
它是不包含group_size以减少VRAM使用的,并且使用desc_act(动作顺序)以提高推断准确性。
请注意,此命令行参数会导致Falcon提供的Python代码在您的机器上执行。
目前由于Hugging Face transformers尚不支持Falcon,因此需要执行此代码。在将来的某个时候,transformers将原生支持该模型,然后将不再需要 trust_remote_code 。
在这个存储库中,您可以看到两个 .py 文件 - 这些文件将被执行。它们是从 Falcon-40B-Instruct 的基本存储库中复制的。
如需进一步的支持以及关于这些模型和人工智能的讨论,请加入我们:
感谢 chirper.ai 赞助部分的计算资源!
我收到很多人的要求,询问是否可以做出贡献。我喜欢提供模型和帮助他人,也很愿意能够花更多的时间提供支持,并扩大到新的项目,如微调/训练。
如果您能够并且愿意进行贡献,我将非常感激,并将有助于我继续提供更多的模型,并开始新的人工智能项目。
捐赠者将优先获得有关AI/LLM/模型问题和请求的支持、访问一个私人Discord房间以及其他福利。
Patreon特别提及:Aemon Algiz、Dmitriy Samsonov、Nathan LeClaire、Trenton Dambrowitz、Mano Prime、David Flickinger、vamX、Nikolai Manek、senxiiz、Khalefa Al-Ahmad、Illia Dulskyi、Jonathan Leane、Talal Aujan、V. Lukas、Joseph William Delisle、Pyrater、Oscar Rangel、Lone Striker、Luke Pendergrass、Eugene Pentland、Sebastain Graf、Johann-Peter Hartman。
感谢我所有慷慨的赞助者和捐赠者!
这是在tiiuae/falcon-40b之上训练的WizardLM,使用了数据集的子集 - 去除了包含对齐/道德化的回答。目的是训练一个没有内置对齐的WizardLM,以便可以单独添加对齐(任何类型)例如 使用RLHF LoRA。
向开源AI/ML社区和每一个帮助我的人致敬。
注意:未经审查的模型没有安全限制。您对使用模型的任何行为负责,就像您对使用刀具、枪支、打火机或汽车等任何危险物品所做的任何事情负责一样。发布模型生成的任何内容就像您亲自发布内容一样。您对发布的内容负责,您无法将模型的责任归咎于刀、枪、打火机或汽车,就像您无法将自己对其所做的任何事情归咎于刀、枪、打火机或汽车一样。
提示格式为WizardLM。
What is a falcon? Can I keep one as a pet? ### Response:
感谢 chirper.ai 对我计算资源的赞助!