模型:

TheBloke/WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Eric Hartford's WizardLM 13B V1.0 未经审查的 GPTQ

这些文件是合并了 Eric Hartford's WizardLM 13B V1.0 Uncensored Kaio Ken's SuperHOT 8K 的 GPTQ 4位模型文件。

这是一个实验性的新型 GPTQ,提供了多达 8K 的上下文大小

通过最新版本的 text-generation-webui 进行了与 ExLlama 的上下文测试。

还通过使用 AutoGPTQ 的 Python 代码进行了测试,并设置 trust_remote_code=True。

代码来源:

  • 增加上下文长度的原始概念和代码: kaiokendev
  • 包括在 Llama 建模代码中的更新代码,通过 trust_remote_code 自动实现: emozilla

请仔细阅读以下内容以了解如何使用它。

GGML版本尚未提供,因为llama.cpp尚不支持SuperHOT。目前正在进行调查,希望很快能够得到支持。

可用的存储库

提示模板

A chat between a curious user and an assistant. The assistant gives helpful, detailed, accurate, uncensored responses to the user's input
USER: prompt
ASSISTANT:

如何在 text-generation-webui with ExLlama 中下载和使用此模型

请确保您正在使用 text-generation-webui 的最新版本

  • 点击模型标签。
  • 在“下载自定义模型或 LoRA”下,输入“TheBloke/WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ”。
  • 点击“下载”。
  • 模型将开始下载。下载完成后会显示“完成”。
  • 取消选中“自动加载模型”。
  • 在左上角,点击“模型”旁边的刷新图标。
  • 在“模型”下拉菜单中,选择刚刚下载的模型:“WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ”。
  • 要使用增加的上下文,请将加载器设置为 ExLlama,将 max_seq_len 设置为 8192 或 4096,并将 compress_pos_emb 设置为 4(用于 8192 上下文)或 2(用于 4096 上下文)。
  • 现在点击“保存设置”,然后点击“重新加载”。
  • 模型将自动加载,现在已经准备就绪!
  • 当您准备好后,点击“文本生成”选项卡,输入提示即可开始!
  • 如何在 Python 代码中使用此 GPTQ 模型 with AutoGPTQ

    首先确保已安装 AutoGPTQ 和 Einops:

    pip3 install einops auto-gptq
    

    然后运行以下代码。请注意,为了使其正常工作,config.json 已硬编码为序列长度为 8192。

    如果您想尝试使用 4096 来减少 VRAM 的使用,请手动编辑 config.json,将 max_position_embeddings 设置为所需的值。

    from transformers import AutoTokenizer, pipeline, logging
    from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
    import argparse
    
    model_name_or_path = "TheBloke/WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ"
    model_basename = "wizardlm-13b-v1.0-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order"
    
    use_triton = False
    
    tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
    
    model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
            model_basename=model_basename,
            use_safetensors=True,
            trust_remote_code=True,
            device_map='auto',
            use_triton=use_triton,
            quantize_config=None)
    
    model.seqlen = 8192
    
    # Note: check the prompt template is correct for this model.
    prompt = "Tell me about AI"
    prompt_template=f'''USER: {prompt}
    ASSISTANT:'''
    
    print("\n\n*** Generate:")
    
    input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
    output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
    print(tokenizer.decode(output[0]))
    
    # Inference can also be done using transformers' pipeline
    
    # Prevent printing spurious transformers error when using pipeline with AutoGPTQ
    logging.set_verbosity(logging.CRITICAL)
    
    print("*** Pipeline:")
    pipe = pipeline(
        "text-generation",
        model=model,
        tokenizer=tokenizer,
        max_new_tokens=512,
        temperature=0.7,
        top_p=0.95,
        repetition_penalty=1.15
    )
    
    print(pipe(prompt_template)[0]['generated_text'])
    

    使用其他用户界面:猴子补丁

    提供的仓库中有 llama_rope_scaled_monkey_patch.py,由@kaiokendev编写。

    理论上可以将其添加到任何 Python 用户界面或自定义代码中,以实现与 trust_remote_code=True 相同的结果。我没有测试过它,而且在完整性和兴趣上都已被 trust_remote_code=True 取代,但是我还是将其包含在内。

    提供的文件

    wizardlm-13b-v1.0-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors

    这将与 AutoGPTQ、ExLlama 和 CUDA 版本的 GPTQ-for-LLaMa 配合使用。有关使用最近的 GPTQ-for-LLaMa Triton 模式的问题的报告。如果遇到问题,请改用 AutoGPTQ。

    它是使用 group_size 128 创建的,以增加推断精度,但没有使用 --act-order(desc_act)以提高兼容性和推断速度。

    • wizardlm-13b-v1.0-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors
      • 适用于具有增加上下文(4096 或 8192)的 ExLlama
      • 在 Python 代码中使用 AutoGPTQ 时适用,包括具有增加上下文的情况,如果设置了 trust_remote_code=True。
      • 应该适用于 GPTQ-for-LLaMa 的 CUDA 模式,但不确定是否支持增加上下文 - 待定。在 GPTQ-for-LLaMa Triton 模式下可能会有问题。
      • 适用于 text-generation-webui,包括一键安装程序。
      • 参数:Groupsize = 128。Act Order / desc_act = False。

    Discord

    如需进一步的支持以及有关这些模型和 AI 的讨论,请加入我们:

    TheBloke AI's Discord server

    致谢以及如何做出贡献

    感谢 chirper.ai 团队!

    有很多人问我他们是否可以做出贡献。我喜欢提供模型和帮助别人,并很愿意花更多的时间来做这些事情,以及扩展到新的项目,如微调/训练。

    如果您能够并愿意做出贡献,我将非常感激,并将帮助我继续提供更多的模型,并开始新的 AI 项目。

    赞助者将在任何与 AI / LLM / 模型相关的问题和请求上获得优先支持,可以访问专用的 Discord 群,以及其他福利。

    特别感谢:Luke from CarbonQuill、Aemon Algiz、Dmitriy Samsonov。

    Patreon 特别提及:Pyrater、WelcomeToTheClub、Kalila、Mano Prime、Trenton Dambrowitz、Spiking Neurons AB、Pierre Kircher、Fen Risland、Kevin Schuppel、Luke、Rainer Wilmers、vamX、Gabriel Puliatti、Alex、Karl Bernard、Ajan Kanaga、Talal Aujan、Space Cruiser、ya boyyy、biorpg、Johann-Peter Hartmann、Asp the Wyvern、Ai Maven、Ghost、Preetika Verma、Nikolai Manek、trip7s trip、John Detwiler、Fred von Graf、Artur Olbinski、subjectnull、John Villwock、Junyu Yang、Rod A、Lone Striker、Chris McCloskey、Iucharbius、Matthew Berman、Illia Dulskyi、Khalefa Al-Ahmad、Imad Khwaja、chris gileta、Willem Michiel、Greatston Gnanesh、Derek Yates、K、Alps Aficionado、Oscar Rangel、David Flickinger、Luke Pendergrass、Deep Realms、Eugene Pentland、Cory Kujawski、terasurfer、Jonathan Leane、senxiiz、Joseph William Delisle、Sean Connelly、webtim、zynix、Nathan LeClaire。

    感谢所有慷慨的赞助者和捐赠者!

    原始模型卡片:Kaio Ken's SuperHOT 8K

    SuperHOT 8K 的第二个原型

    这是 SuperHOT 的第二个原型,这次是 30B、具有 8K 上下文和无 RLHF,使用了 the github blog 中描述的相同技术。测试表明,该模型确实利用了 8K 的扩展上下文。

    您将需要使用猴子补丁或者如果您已经在使用猴子补丁,则将缩放因子更改为 0.25,最大序列长度更改为 8192。

    寻找合并和量化过的模型? 训练细节

    我使用以下配置训练了 LoRA:

    • 1200 个样本(超过 2048 序列长度 400 个样本)
    • 学习率为 3e-4
    • 3 个周期
    • 导出的模块包括:
      • q_proj
      • k_proj
      • v_proj
      • o_proj
      • 无偏置
    • Rank = 4
    • Alpha = 8
    • 无辍学(dropout)
    • 权重衰减为 0.1
    • AdamW 的 beta1 为 0.9,beta2 为 0.99,epsilon 为 1e-5
    • 在 4 位基础模型上进行训练

    原始模型卡片:Eric Hartford's WizardLM 13B V1.0 未经审查

    这是 https://huggingface.co/WizardLM/WizardLM-13B-V1.0 的重新训练,使用了经过滤的数据集,旨在减少拒绝、回避和偏见。

    请注意,LLaMA 本身具有固有的伦理观念,所以“真正未经审查”的模型是不存在的。但是,该模型将比 WizardLM/WizardLM-7B-V1.0 更加合规。

    向开源 AI/ML 社区和所有帮助过我的人致敬。

    注意:未经审查的模型没有任何防护措施。您对使用模型所做的任何事情负有责任,就像您对使用刀、枪、打火机或汽车等任何危险对象所做的任何事情负责一样。发布模型生成的任何内容与您自己发布它一样。您对自己发布的内容负有责任,不能将模型的责任归咎于模型本身,就像您不能将刀、枪、打火机或汽车的责任归咎于自己一样。

    与 WizardLM/WizardLM-13B-V1.0 一样,该模型使用了 Vicuna-1.1 风格的提示。

    You are a helpful AI assistant.
    
    USER: <prompt>
    ASSISTANT:
    

    感谢 chirper.ai 赞助了部分计算资源!