模型:

TheBloke/WizardLM-13B-V1-1-SuperHOT-8K-GPTQ

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

WizardLM的WizardLM 13B V1.1 GPTQ

这些文件是合并了 WizardLM's WizardLM 13B V1.1 Kaio Ken's SuperHOT 8K 的GPTQ 4比特模型文件。

这是一个实验性的新GPTQ,可提供高达8K的上下文大小

增加的上下文通过最新版本的 text-generation-webui 经过测试可以与8038128配合使用

还通过使用AutoGPTQ从Python代码进行了测试,trust_remote_code=True。

代码致谢:

  • 增加上下文长度的原始概念和代码: kaiokendev
  • 包括这个功能的更新Llama建模代码通过trust_remote_code: emozilla .

请仔细阅读下面的内容了解如何使用它。

可用的存储库

提示模板: 维库纳

A chat between a curious user and an artificial intelligence assistant. The assistant gives helpful, detailed, and polite answers to the user's questions.
USER: prompt
ASSISTANT:

如何在文本生成网络界面中轻松下载和使用此模型

请确保您正在使用最新版本的文本生成网络界面

  • 单击“Model”选项卡。
  • 在“Download custom model or LoRA”下输入“TheBloke/WizardLM-13B-V1-1-SuperHOT-8K-GPTQ”
  • 单击“Download”
  • 模型开始下载。下载完成后,将显示“完成”
  • 取消选择“Autoload the model”
  • 在左上角,单击“Model”旁边的刷新图标。
  • 在“Model”下拉菜单中,选择刚刚下载的模型: WizardLM-13B-V1-1-SuperHOT-8K-GPTQ
  • 要使用增加的上下文,请将“Loader”设置为ExLlama,将“max_seq_len”设置为8192或4096,将“compress_pos_emb”设置为4以获得8192上下文,或将其设置为2以获得4096上下文。
  • 现在单击“Save Settings”,然后单击“Reload”
  • 模型将自动加载,现在可以使用了!
  • 准备好后,单击“Text Generation”选项卡,并输入提示开始!
  • 如何在Python代码中使用这个GPTQ模型

    首先确保您已安装了AutoGPTQ和Einops:

    pip3 install einops auto-gptq
    

    然后运行以下代码。请注意,为了使其正常工作,将config.json硬编码为序列长度为8192。

    如果您想尝试4096来减少VRAM的使用,请手动编辑config.json将max_position_embeddings设置为您想要的值。

    from transformers import AutoTokenizer, pipeline, logging
    from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
    import argparse
    
    model_name_or_path = "TheBloke/WizardLM-13B-V1-1-SuperHOT-8K-GPTQ"
    model_basename = "wizardlm-13b-v1.1-superhot-8k-GPTQ-4bit-128g.no-act.order"
    
    use_triton = False
    
    tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
    
    model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
            model_basename=model_basename,
            use_safetensors=True,
            trust_remote_code=True,
            device_map='auto',
            use_triton=use_triton,
            quantize_config=None)
    
    model.seqlen = 8192
    
    # Note: check the prompt template is correct for this model.
    prompt = "Tell me about AI"
    prompt_template=f'''USER: {prompt}
    ASSISTANT:'''
    
    print("\n\n*** Generate:")
    
    input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
    output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
    print(tokenizer.decode(output[0]))
    
    # Inference can also be done using transformers' pipeline
    
    # Prevent printing spurious transformers error when using pipeline with AutoGPTQ
    logging.set_verbosity(logging.CRITICAL)
    
    print("*** Pipeline:")
    pipe = pipeline(
        "text-generation",
        model=model,
        tokenizer=tokenizer,
        max_new_tokens=512,
        temperature=0.7,
        top_p=0.95,
        repetition_penalty=1.15
    )
    
    print(pipe(prompt_template)[0]['generated_text'])
    

    使用其他UI: 猴子补丁

    在存储库中提供了llama_rope_scaled_monkey_patch.py,由@kaiokendev编写。

    它理论上可以添加到任何Python UI或自定义代码中,以实现与trust_remote_code=True相同的结果。我没有测试过它,而且应该被trust_remote_code=True取代,但我包含它是为了完整性和出于兴趣。

    提供的文件

    wizardlm-13b-v1.1-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors

    这将适用于AutoGPTQ、ExLlama和GPTQ-for-LLaMa的CUDA版本。最新版本的GPTQ-for-LLaMa的Triton模式可能存在问题。如果有问题,请改用AutoGPTQ。

    它使用group_size 128创建,以增加推理准确性,但未使用--act-order(desc_act)以增加兼容性和提高推理速度。

    • wizardlm-13b-v1.1-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors
      • 适用于使用增加的上下文的ExLlama(4096或8192)
      • 在Python代码中使用AutoGPTQ时有效,包括使用增加的上下文,如果设置了trust_remote_code=True。
      • 应该适用于GPTQ-for-LLaMa的CUDA模式,但是否支持增加的上下文尚不确定-待定。可能GPTQ-for-LLaMa Triton模式存在问题。
      • 适用于文本生成网页界面,包括一键安装程序。
      • 参数: Groupsize = 128. Act Order / desc_act = False.

    Discord

    如需进一步支持,并讨论这些模型和人工智能的相关问题,请加入我们的群组:

    TheBloke AI's Discord server

    感谢以及如何做出贡献

    感谢 chirper.ai 团队!

    我有很多人问我是否可以做出贡献。我喜欢提供模型和帮助,如果能够花更多时间提供模型,并开始新的项目,如精细调整/训练,我会非常感激并愿意做出贡献。

    如果您有能力和意愿做出贡献,我会非常感激,并帮助我继续提供更多模型,并开始新的AI项目。

    捐赠者将在所有关于AI/LLM/模型的问题和请求方面获得优先支持,可以进入私人Discord频道,以及其他利益。

    特别感谢: Luke from CarbonQuill, Aemon Algiz。

    Patreon特别提示: RoA, Lone Striker, Gabriel Puliatti, Derek Yates, Randy H, Jonathan Leane, Eugene Pentland, Karl Bernard, Viktor Bowallius, senxiiz, Daniel P. Andersen, Pierre Kircher, Deep Realms, Cory Kujawski, Oscar Rangel, Fen Risland, Ajan Kanaga, LangChain4j, webtim, Nikolai Manek, Trenton Dambrowitz, Raven Klaugh, Kalila, Khalefa Al-Ahmad, Chris McCloskey, Luke @flexchar, Ai Maven, Dave, Asp the Wyvern, Sean Connelly, Imad Khwaja, Space Cruiser, Rainer Wilmers, subjectnull, Alps Aficionado, Willian Hasse, Fred von Graf, Artur Olbinski, Johann-Peter Hartmann, WelcomeToTheClub, Willem Michiel, Michael Levine, Iucharbius , Spiking Neurons AB, K, biorpg, John Villwock, Pyrater, Greatston Gnanesh, Mano Prime, Junyu Yang, Stephen Murray, John Detwiler, Luke Pendergrass, terasurfer , Pieter, zynix , Edmond Seymore, theTransient, Nathan LeClaire, vamX, Kevin Schuppel, Preetika Verma, ya boyyy, Alex , SuperWojo, Ghost , Joseph William Delisle, Matthew Berman, Talal Aujan, chris gileta, Illia Dulskyi。

    感谢所有慷慨的赞助者和捐赠者!

    原始模型卡: Kaio Ken's SuperHOT 8K

    SuperHOT原型2,带有8K上下文

    这是SuperHOT的第二个原型,这次是30B的8K上下文,没有RLHF,使用了 the github blog 中描述的相同技术。测试表明,该模型确实利用了8K的扩展上下文。

    您需要使用猴子补丁或者如果您已经使用了猴子补丁,则将缩放因子更改为0.25,将最大序列长度更改为8192

    寻找合并和量化模型吗? 培训细节

    我使用以下配置对LoRA进行训练:

    • 1200个样本(~400个样本超过2048的序列长度)
    • 学习率为3e-4
    • 3个epoch
    • 导出的模块为:
      • q_proj
      • k_proj
      • v_proj
      • o_proj
      • 无偏差
    • 秩 = 4
    • Alpha = 8
    • 无辍学
    • 权重衰减为0.1
    • AdamW的beta1为0.9和beta2为0.99,epsilon为1e-5
    • 在4比特基本模型上进行训练

    原始模型卡: WizardLM的WizardLM 13B V1.1

    这是WizardLM-13B V1.1模型的Full-Weight版本。

    存储库: https://github.com/nlpxucan/WizardLM

    Twitter: https://twitter.com/WizardLM_AI/status/1677282955490918401