模型:
TheBloke/WizardLM-Uncensored-Falcon-7B-GPTQ
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
这个存储库包含了一个实验性的GPTQ 4bit模型,用于 Eric Hartford's WizardLM-Uncensored-Falcon-7B 。
这是使用 AutoGPTQ 进行四位量化的结果。
提示格式是WizardLM:
What is a falcon? Can I keep one as a pet? ### Response:
请注意,这是一个实验性的GPTQ模型。目前对它的支持非常有限。
它的速度也很慢。这是目前不可避免的,但正在研究中。
需要AutoGPTQ 0.2.0:pip install auto-gptq
AutoGPTQ提供了适用于Windows和Linux的预编译的wheels,带有CUDA toolkit 11.7或11.8。
如果你正在使用CUDA toolkit 12.x,你需要按照以下说明自行编译:
git clone https://github.com/PanQiWei/AutoGPTQ cd AutoGPTQ pip install .
这些手动步骤需要你安装 Nvidia CUDA toolkit 。
在text-generation-webui中有临时的AutoGPTQ支持。
这需要text-generation-webui的最新版本commit 204731952ae59d79ea3805a425c73dd171d943c3。
所以请先将text-generation-webui更新到最新版本。
感谢用户 lucianosb ,这是一个可以免费尝试这个模型的Google Colab笔记本:
https://colab.research.google.com/drive/16C4H9heewOrgUMFYNhxz1AvO12yPHyEq?usp=sharing
请注意,这个命令行参数会导致Falcon提供的Python代码在你的机器上执行。
目前,由于Falcon太新,无法得到Hugging Face transformers的支持,所以这段代码是必需的。在将来的某个时候,transformers将会原生支持该模型,然后就不再需要trust_remote_code了。
在这个存储库中,你可以看到两个.py文件-这些文件会被复制并执行。它们是从基础存储库 Falcon-7B-Instruct 复制而来的。
要运行这段代码,你需要安装AutoGPTQ和einops:
pip install auto-gptq pip install einops
然后你可以运行这个示例代码:
import torch from transformers import AutoTokenizer from auto_gptq import AutoGPTQForCausalLM # Download the model from HF and store it locally, then reference its location here: quantized_model_dir = "/path/to/TheBloke_WizardLM-Uncensored-Falcon-7B-GPTQ" from transformers import AutoTokenizer tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir, use_fast=False) model = AutoGPTQForCausalLM.from_quantized(quantized_model_dir, device="cuda:0", use_triton=False, use_safetensors=True, torch_dtype=torch.float32, trust_remote_code=True) prompt = "Write a story about llamas" prompt_template = f"### Instruction: {prompt}\n### Response:" tokens = tokenizer(prompt_template, return_tensors="pt").to("cuda:0").input_ids output = model.generate(input_ids=tokens, max_new_tokens=100, do_sample=True, temperature=0.8) print(tokenizer.decode(output[0]))
gptq_model-4bit-64g.safetensors
这将与最新的AutoGPTQ CUDA一起工作,编译源码是commit 3cb1bf5 (3cb1bf5a6d43a06dc34c6442287965d1838303d3)
它是使用Groupsize 64创建的,以提供更高质量的推理,并且没有desc_act (act-order)以增加推理速度。
欢迎加入我们的 Discord ,进行进一步的支持和讨论有关这些模型和人工智能的问题:
感谢 chirper.ai 团队!
我有很多人问我是否可以贡献。我喜欢提供模型和帮助别人,非常乐意能够花更多时间做这些事情,并扩展到新的项目,如微调/训练。
如果您有能力和意愿进行贡献,我将非常感激,并将帮助我继续提供更多的模型,并开始新的人工智能项目。
捐助者将在任何有关AI/LLM/模型的问题和请求上获得优先支持,还可以进入一个私人的Discord房间,以及其他好处。
感谢所有慷慨的赞助者和捐助者!
这是在tiiuae/falcon-7b基础上训练的WizardLM,使用数据集的一个子集 - 带有对齐/道德化的回答被删除。目的是训练一个没有内置对齐的WizardLM,以便可以单独添加任何类型的对齐,例如通过RLHF LoRA。
向开源AI/ML社区和帮助过我的所有人致敬。
注意:未经审查的模型没有防护措施。你对模型的使用负有责任,就像你对刀具、枪支、打火机或汽车等任何危险物品的使用一样。发布模型生成的任何内容与自己发布相同。你对你发布的内容负责,不能把模型的责任归咎于它,就像你不能把刀具、枪支、打火机或汽车的责任归咎于它们的使用一样。
提示格式是Wizardlm。
What is a falcon? Can I keep one as a pet? ### Response: