模型:

TheBloke/Guanaco-33B-SuperHOT-8K-GPTQ

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Panchovix的合并:Guanaco 33B和SuperHOT 8K GPTQ

这些文件是GPTQ 4位模型文件,适用于 Panchovix's merge of Guanaco 33B and SuperHOT 8K .

这是使用 GPTQ-for-LLaMa 进行4位量化的结果。

这是一个实验性的新GPTQ,提供最多8K的上下文大小。

增加的上下文经过了使用最新版本的 text-generation-webui 进行测试。

它还通过使用AutoGPTQ的Python代码进行了测试,并且 trust_remote_code=True 。

代码致谢:

  • 增加上下文长度的原始概念和代码: kaiokendev
  • 包括了这一功能的更新的Llama建模代码,通过 trust_remote_code 自动完成: emozilla .

请仔细阅读下面的内容以了解如何使用。

注意:在30B模型上使用完整的8K上下文将超过24GB的VRAM。

GGML版本目前尚未提供,因为llama.cpp尚不支持SuperHOT。正在研究这个问题,希望很快能提供支持。

可用的存储库

如何在text-generation-webui中轻松下载和使用此模型与ExLlama

请确保您正在使用最新版本的text-generation-webui

  • 单击 “模型” 选项卡
  • 在 “下载自定义模型或LoRA” 下,输入 TheBloke/Guanaco-33B-SuperHOT-8K-GPTQ .
  • 单击 “下载”
  • 模型开始下载。下载完成后,会显示 "完成"
  • 取消选择 “自动加载模型”
  • 在左上角,点击 “刷新” 图标旁边的 “模型”
  • 在 “模型” 下拉菜单中,选择刚刚下载的模型:Guanaco-33B-SuperHOT-8K-GPTQ
  • 要使用增加的上下文,请将 “加载器” 设置为 “ExLlama”,将 “max_seq_len” 设置为 8192 或 4096,将 “compress_pos_emb” 设置为 4(用于8192上下文)或 2(用于4096上下文)。
  • 现在点击 “保存设置”,然后点击 “重新加载”
  • 模型将自动加载,现在可以使用了!
  • 准备好后,在 “文本生成” 选项卡上输入提示,开始使用!
  • 如何使用此GPTQ模型与AutoGPTQ进行Python代码交互

    首先确保您已安装AutoGPTQ和Einops:

    pip3 install einops auto-gptq
    

    然后运行以下代码。请注意,为了使其正常工作,config.json已硬编码为序列长度为8192。

    如果您想尝试4096以减少VRAM使用,请手动编辑config.json将max_position_embeddings设置为所需值。

    from transformers import AutoTokenizer, pipeline, logging
    from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
    import argparse
    
    model_name_or_path = "TheBloke/Guanaco-33B-SuperHOT-8K-GPTQ"
    model_basename = "guanaco-33b-superhot-8k-GPTQ-4bit--1g.act.order"
    
    use_triton = False
    
    tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
    
    model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
            model_basename=model_basename,
            use_safetensors=True,
            trust_remote_code=True,
            device_map='auto',
            use_triton=use_triton,
            quantize_config=None)
    
    model.seqlen = 8192
    
    # Note: check the prompt template is correct for this model.
    prompt = "Tell me about AI"
    prompt_template=f'''USER: {prompt}
    ASSISTANT:'''
    
    print("\n\n*** Generate:")
    
    input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
    output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
    print(tokenizer.decode(output[0]))
    
    # Inference can also be done using transformers' pipeline
    
    # Prevent printing spurious transformers error when using pipeline with AutoGPTQ
    logging.set_verbosity(logging.CRITICAL)
    
    print("*** Pipeline:")
    pipe = pipeline(
        "text-generation",
        model=model,
        tokenizer=tokenizer,
        max_new_tokens=512,
        temperature=0.7,
        top_p=0.95,
        repetition_penalty=1.15
    )
    
    print(pipe(prompt_template)[0]['generated_text'])
    

    使用其他UI:猴子补丁

    仓库中提供了llama_rope_scaled_monkey_patch.py,由@kaiokendev编写。

    理论上,它可以添加到任何Python UI或自定义代码中,以启用与 trust_remote_code=True 相同的结果。我没有测试过这一点,并且应该被使用 trust_remote_code=True 取代,但我包括它是为了完整性和出于兴趣。

    提供的文件

    guanaco-33b-superhot-8k-GPTQ-4bit--1g.act.order.safetensors

    这将适用于AutoGPTQ、ExLlama和GPTQ-for-LLaMa的CUDA版本。有报道称最近的GPTQ-for-LLaMa Triton模式存在问题。如果有问题,请改用AutoGPTQ。

    它是没有group_size创建的,以降低VRAM要求,并且使用--act-order(desc_act)尽可能提高推理准确性。

    • guanaco-33b-superhot-8k-GPTQ-4bit--1g.act.order.safetensors
      • 适用于CUDA或Triton模式下的AutoGPTQ。
      • ExLlama模型通常比AutoGPTQ提供更高的性能,使用更少的VRAM,也适用于[ExLlama]( https://github.com/turboderp/exllama} )。
      • 适用于CUDA模式下的GPTQ-for-LLaMa。可能在GPTQ-for-LLaMa Triton模式下存在问题。
      • 适用于text-generation-webui,包括一键安装程序。
      • 参数:Groupsize = -1. Act Order / desc_act = True.

    Discord账号

    如需进一步支持和讨论这些模型和人工智能,请加入我们的Discord社区:

    TheBloke AI's Discord server

    致谢和如何贡献

    感谢 chirper.ai 团队!

    我有很多人询问是否可以做出贡献。我喜欢提供模型和帮助人们,并且希望能够有更多时间这样做,以及扩展到新的项目,如微调/训练。

    如果您有能力和意愿进行贡献,我将非常感激,这将帮助我继续提供更多模型,并开始新的人工智能项目。

    捐助者将优先获得有关所有AI/LLM/模型问题和请求的支持,以及访问私人Discord房间和其他好处。

    特别感谢 :Luke from CarbonQuill, Aemon Algiz, Dmitriy Samsonov。

    Patreon特别提到 :Pyrater, WelcomeToTheClub, Kalila, Mano Prime, Trenton Dambrowitz, Spiking Neurons AB, Pierre Kircher, Fen Risland, Kevin Schuppel, Luke, Rainer Wilmers, vamX, Gabriel Puliatti, Alex , Karl Bernard, Ajan Kanaga, Talal Aujan, Space Cruiser, ya boyyy, biorpg, Johann-Peter Hartmann, Asp the Wyvern, Ai Maven, Ghost , Preetika Verma, Nikolai Manek, trip7s trip, John Detwiler, Fred von Graf, Artur Olbinski, subjectnull, John Villwock, Junyu Yang, Rod A, Lone Striker, Chris McCloskey, Iucharbius , Matthew Berman, Illia Dulskyi, Khalefa Al-Ahmad, Imad Khwaja, chris gileta, Willem Michiel, Greatston Gnanesh, Derek Yates, K, Alps Aficionado, Oscar Rangel, David Flickinger, Luke Pendergrass, Deep Realms, Eugene Pentland, Cory Kujawski, terasurfer , Jonathan Leane, senxiiz, Joseph William Delisle, Sean Connelly, webtim, zynix , Nathan LeClaire 等所有慷慨的赞助者!

    感谢所有慷慨的赞助者和捐助者!

    原始模型卡片:Panchovix的合并模型:Guanaco 33B和SuperHOT 8K

    guanaco-33b 与kaiokendev的 33b SuperHOT 8k LoRA 合并,不包含量化。(完全的FP16模型)