模型:

TheBloke/WizardLM-Uncensored-Falcon-40B-3bit-GPTQ

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Eric Hartford的WizardLM无保留Falcon 40B GPTQ

此存储库包含一个实验性的GPTQ 3位模型,用于 Eric Hartford's WizardLM Uncensored Falcon 40B .

这是使用 AutoGPTQ 进行3位量化的结果。

可用的存储库

提示模板

提示格式为WizardLM。

What is a falcon?  Can I keep one as a pet?
### Response:

实验性

请注意,这是一个实验性的GPTQ模型,目前对它的支持非常有限。

它的速度预计会非常慢。目前无法避免这个问题,但正在研究中。

text-generation-webui

这需要text-generation-webui的版本为commit 204731952ae59d79ea3805a425c73dd171d943c3或更新版本。

因此,请先更新text-generation-webui到最新版本。

如何下载和使用此模型在text-generation-webui中

  • 启动text-generation-webui
  • 点击“模型”选项卡。
  • 取消选择“自动加载模型”。
  • 在“下载自定义模型或LoRA”下,输入“TheBloke/WizardLM-Uncensored-Falcon-40B-3bit-GPTQ”。
  • 点击“下载”。
  • 等待下载完成。
  • 点击左上方“模型”旁边的“刷新”图标。
  • 在“模型下拉菜单”中选择刚刚下载的模型“WizardLM-Uncensored-Falcon-40B-3bit-GPTQ”。
  • 确保“加载器”设置为“AutoGPTQ”。该模型将无法与ExLlama或GPTQ-for-LLaMa一起使用。
  • 选中“信任远程代码”,然后点击“保存设置”。
  • 点击“重新加载”。
  • 一旦加载完成,点击“文本生成”选项卡并输入提示!
  • Python推理

    使用它,您需要安装以下内容:

  • AutoGPTQ v0.2.1(见下文)
  • pytorch 2.0.0与CUDA 11.7或11.8(例如pip install torch --index-url https://download.pytorch.org/whl/cu118 )
  • einops(pip install einops)
  • AutoGPTQ

    您应该安装版本为v0.2.1的AutoGPTQ。使用pip install auto-gptq进行自动安装目前存在问题。

    因此,建议您手动从源代码进行编译:

    git clone https://github.com/PanQiWei/AutoGPTQ
    cd AutoGPTQ
    git checkout v0.2.1
    pip install . --no-cache-dir # This step requires CUDA toolkit installed
    

    手动安装步骤需要您已安装 Nvidia CUDA toolkit .

    简单的Python示例代码

    要运行此代码,您需要安装先决条件。

    您可以运行以下示例代码:

    import torch
    from transformers import AutoTokenizer
    from auto_gptq import AutoGPTQForCausalLM
    
    # If you've already downloaded the model, reference its location here:
    quantized_model_dir = "/path/to/TheBloke_WizardLM-Uncensored-Falcon-40B-3bit-GPTQ"
    # Or to download it from the hub and store it in the Hugging Face cache directory:
    #quantized_model_dir = "TheBloke/WizardLM-Uncensored-Falcon-40B-3bit-GPTQ"
    
    from transformers import AutoTokenizer
    tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir, use_fast=False)
    
    model = AutoGPTQForCausalLM.from_quantized(quantized_model_dir, device="cuda:0", use_triton=False, use_safetensors=True, torch_dtype=torch.bfloat16, trust_remote_code=True)
    
    prompt = "What is a falcon? Can I keep one as a pet?"
    prompt_template = f"{prompt}\n### Response:"
    
    tokens = tokenizer(prompt_template, return_tensors="pt").to("cuda:0").input_ids
    output = model.generate(input_ids=tokens, max_new_tokens=100, do_sample=True, temperature=0.8)
    print(tokenizer.decode(output[0]))
    

    提供的文件

    gptq_model-3bit--1g.safetensors

    它适用于AutoGPTQ 0.2.0及更高版本。

    它使用了无组大小的设置以减少VRAM使用,并使用了desc_act(动作顺序)以提高推断准确性。

    • gptq_model-3bit--1g.safetensors
      • 适用于AutoGPTQ CUDA版本0.2.0及更高版本。
        • 目前它不支持AutoGPTQ Triton,但希望以后会添加支持。
      • 适用于使用--trust_remote_code的text-generation-webui
      • 不适用于任何版本的GPTQ-for-LLaMa
      • 参数:组大小为None。具有act-order / desc_act。

    常见问题解答

    关于 trust-remote-code

    请注意,此命令行参数会导致Falcon提供的Python代码在您的机器上执行。

    目前由于Falcon太新,尚不支持Hugging Face transformers。将来transformers将原生支持该模型,然后将不再需要trust_remote_code。

    在此存储库中,您可以看到两个.py文件 - 这些文件将被复制并执行。它们从基本存储库复制而来,位于 Falcon-40B-Instruct .

    Discord

    如需进一步支持,并讨论这些模型和人工智能,请加入我们:

    TheBloke AI's Discord server

    非常感谢,以及如何贡献

    感谢 chirper.ai 赞助我的一部分计算资源!

    有很多人问我是否可以做贡献。我喜欢提供模型和帮助人们,并且愿意能够花更多时间这样做,以及扩大到新的项目,如微调/训练。

    如果您有能力和愿意做出贡献,我将非常感激,并将帮助我继续提供更多模型,并开始进行新的AI项目。

    捐赠者将优先获得在任何和所有的AI/LLM/模型问题和请求方面的支持,访问私人Discord房间以及其他福利。

    Patreon特别感谢:Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V. Lukas,Joseph William Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。

    感谢所有慷慨的赞助者和捐赠者!

    原始模型卡:Eric Hartford的WizardLM无保留Falcon 40B

    这是在tiiuae/falcon-40b之上训练的WizardLM模型,数据集的一部分 - 包含了不包含对齐/道德化的回答。其目的是训练一个不带有对齐的WizardLM模型,以便可以单独添加任何形式的对齐,例如使用RLHF LoRA。

    向开源AI/ML社区和帮助过我的每个人致敬。

    注意:无保留模型没有防护措施。您对模型的使用负有责任,就像您对使用刀、枪、打火机或汽车等危险物品负责一样。发布由该模型生成的任何内容与您自己发布的内容相同。您对所发布内容负责,您无法将责任归咎于模型,就像您不能将责任归咎于刀具、枪支、打火机或汽车因您的使用而导致的情况一样。

    提示格式为WizardLM。

    What is a falcon?  Can I keep one as a pet?
    ### Response:
    

    感谢 chirper.ai 赞助我的一部分计算资源!