模型:

TheBloke/WizardLM-Uncensored-Falcon-40B-GPTQ

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Eric Hartford的WizardLM不受审查的Falcon 40B GPTQ

此存储库包含一个实验性的GPTQ 4bit模型 Eric Hartford's WizardLM Uncensored Falcon 40B

它是使用 AutoGPTQ 进行4bit量化的结果。

可用的存储库

提示模板

提示格式为WizardLM。

What is a falcon?  Can I keep one as a pet?
### Response:

实验性

请注意,这是一个实验性的GPTQ模型。目前支持该模型的功能非常有限。

运行速度也会非常慢 。目前无法避免这个问题,但正在进行调查。

text-generation-webui

这需要text-generation-webui版本为 204731952ae59d79ea3805a425c73dd171d943c3 或更高版本。

因此,请首先将text-generation-webui更新到最新版本。

如何下载和使用此模型在text-generation-webui中

  • 启动text-generation-webui
  • 点击 模型 选项卡。
  • 取消勾选 自动加载模型
  • 在 下载自定义模型或LoRA 下输入 TheBloke/WizardLM-Uncensored-Falcon-40B-GPTQ .
  • 点击 下载 .
  • 等待直到它显示下载完成。
  • 点击左上角的 刷新 图标旁边的 模型 。
  • 在 模型下拉菜单 中选择你刚刚下载的模型, WizardLM-Uncensored-Falcon-40B-GPTQ 。
  • 确保 加载器 设置为 AutoGPTQ 。该模型将不能与ExLlama或GPTQ-for-LLaMa一起工作。
  • 勾选 信任远程代码 , 然后 保存设置
  • 点击 重新加载 .
  • 一旦它显示已加载,点击 文本生成 选项卡并输入提示!
  • Python推理

    使用该模型您需要以下资源:

  • AutoGPTQ v0.2.1(参见下文)
  • 带有CUDA 11.7或11.8的pytorch 2.0.0(例如 pip install torch --index-url https://download.pytorch.org/whl/cu118 )
  • einops( pip install einops )
  • AutoGPTQ

    您应该安装版本为v0.2.1的AutoGPTQ。目前通过 pip install auto-gptq 进行自动安装存在问题。

    因此,建议您手动从源代码进行编译:

    git clone https://github.com/PanQiWei/AutoGPTQ
    cd AutoGPTQ
    git checkout v0.2.1
    pip install . --no-cache-dir # This step requires CUDA toolkit installed
    

    手动安装步骤将需要您安装 Nvidia CUDA toolkit .

    简单的Python示例代码

    要运行此代码,您需要安装前提条件。

    您可以运行以下示例代码:

    import torch
    from transformers import AutoTokenizer
    from auto_gptq import AutoGPTQForCausalLM
    
    # If you've already downloaded the model, reference its location here:
    quantized_model_dir = "/path/to/TheBloke_WizardLM-Uncensored-Falcon-40B-GPTQ"
    # Or to download it from the hub and store it in the Hugging Face cache directory:
    #quantized_model_dir = "TheBloke/WizardLM-Uncensored-Falcon-40B-GPTQ"
    
    from transformers import AutoTokenizer
    tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir, use_fast=False)
    
    model = AutoGPTQForCausalLM.from_quantized(quantized_model_dir, device="cuda:0", use_triton=False, use_safetensors=True, torch_dtype=torch.bfloat16, trust_remote_code=True)
    
    prompt = "What is a falcon? Can I keep one as a pet?"
    prompt_template = f"{prompt}\n### Response:"
    
    tokens = tokenizer(prompt_template, return_tensors="pt").to("cuda:0").input_ids
    output = model.generate(input_ids=tokens, max_new_tokens=100, do_sample=True, temperature=0.8)
    print(tokenizer.decode(output[0]))
    

    提供的文件

    gptq_model-4bit--1g.safetensors

    此文件可与AutoGPTQ 0.2.0及更高版本一起使用。

    它是不包含group_size以减少VRAM使用的,并且使用desc_act(动作顺序)以提高推断准确性。

    • gptq_model-4bit--1g.safetensors
      • 仅适用于最新的AutoGPTQ CUDA,编译自从提交的源代码中 3cb1bf5
        • 目前它无法与AutoGPTQ Triton一起使用,但希望将来会支持。
      • 可在text-generation-webui中使用 --trust-remote-code
      • 无法与GPTQ-for-LLaMa的任何版本一起使用
      • 参数:Groupsize = None。使用act-order / desc_act。

    常见问题解答

    关于 trust-remote-code

    请注意,此命令行参数会导致Falcon提供的Python代码在您的机器上执行。

    目前由于Hugging Face transformers尚不支持Falcon,因此需要执行此代码。在将来的某个时候,transformers将原生支持该模型,然后将不再需要 trust_remote_code 。

    在这个存储库中,您可以看到两个 .py 文件 - 这些文件将被执行。它们是从 Falcon-40B-Instruct 的基本存储库中复制的。

    Discord

    如需进一步的支持以及关于这些模型和人工智能的讨论,请加入我们:

    TheBloke AI's Discord server

    感谢和如何贡献

    感谢 chirper.ai 赞助部分的计算资源!

    我收到很多人的要求,询问是否可以做出贡献。我喜欢提供模型和帮助他人,也很愿意能够花更多的时间提供支持,并扩大到新的项目,如微调/训练。

    如果您能够并且愿意进行贡献,我将非常感激,并将有助于我继续提供更多的模型,并开始新的人工智能项目。

    捐赠者将优先获得有关AI/LLM/模型问题和请求的支持、访问一个私人Discord房间以及其他福利。

    Patreon特别提及:Aemon Algiz、Dmitriy Samsonov、Nathan LeClaire、Trenton Dambrowitz、Mano Prime、David Flickinger、vamX、Nikolai Manek、senxiiz、Khalefa Al-Ahmad、Illia Dulskyi、Jonathan Leane、Talal Aujan、V. Lukas、Joseph William Delisle、Pyrater、Oscar Rangel、Lone Striker、Luke Pendergrass、Eugene Pentland、Sebastain Graf、Johann-Peter Hartman。

    感谢我所有慷慨的赞助者和捐赠者!

    原始模型卡片:Eric Hartford的WizardLM不受审查的Falcon 40B

    这是在tiiuae/falcon-40b之上训练的WizardLM,使用了数据集的子集 - 去除了包含对齐/道德化的回答。目的是训练一个没有内置对齐的WizardLM,以便可以单独添加对齐(任何类型)例如 使用RLHF LoRA。

    向开源AI/ML社区和每一个帮助我的人致敬。

    注意:未经审查的模型没有安全限制。您对使用模型的任何行为负责,就像您对使用刀具、枪支、打火机或汽车等任何危险物品所做的任何事情负责一样。发布模型生成的任何内容就像您亲自发布内容一样。您对发布的内容负责,您无法将模型的责任归咎于刀、枪、打火机或汽车,就像您无法将自己对其所做的任何事情归咎于刀、枪、打火机或汽车一样。

    提示格式为WizardLM。

    What is a falcon?  Can I keep one as a pet?
    ### Response:
    

    感谢 chirper.ai 对我计算资源的赞助!