模型:

TheBloke/Nous-Hermes-13B-GPTQ

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

NousResearch's Nous-Hermes-13B GPTQ

这些文件是用于 NousResearch's Nous-Hermes-13B 的GPTQ 4bit模型文件。

这是使用 GPTQ-for-LLaMa 进行4bit量化的结果。

其他可用的存储库

提示模板

该模型遵循Alpaca提示格式:

### Instruction:

### Response:

或者

### Instruction:

### Input:

### Response:

如何轻松下载和使用此模型在text-generation-webui中

请确保您正在使用text-generation-webui的最新版本

  • 点击“模型”选项卡。
  • 在“下载自定义模型或LoRA”下,输入“TheBloke/Nous-Hermes-13B-GPTQ”。
  • 点击“下载”。
  • 模型开始下载。下载完成后会显示“完成”。
  • 在左上角,点击“模型”旁边的刷新图标。
  • 在“模型”下拉菜单中,选择刚刚下载的模型:Nous-Hermes-13B-GPTQ
  • 模型将自动加载,现在已经准备好使用!
  • 如果您想要任何自定义设置,请进行设置,然后点击“为此模型保存设置”,然后点击右上角的“重新加载模型”。
    • 请注意,您不再需要单独设置GPTQ参数。这些参数将从文件quantize_config.json中自动设置。
  • 准备就绪后,点击“文本生成”选项卡,并输入提示以开始使用!
  • 如何从Python代码中使用此GPTQ模型

    首先确保已安装 AutoGPTQ

    pip install auto-gptq

    然后尝试以下示例代码:

    from transformers import AutoTokenizer, pipeline, logging
    from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
    import argparse
    
    model_name_or_path = "TheBloke/Nous-Hermes-13B-GPTQ"
    model_basename = "nous-hermes-13b-GPTQ-4bit-128g.no-act.order"
    
    use_triton = False
    
    tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
    
    model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
            model_basename=model_basename,
            use_safetensors=True,
            trust_remote_code=True,
            device="cuda:0",
            use_triton=use_triton,
            quantize_config=None)
    
    print("\n\n*** Generate:")
    
    input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
    output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
    print(tokenizer.decode(output[0]))
    
    # Inference can also be done using transformers' pipeline
    
    # Prevent printing spurious transformers error when using pipeline with AutoGPTQ
    logging.set_verbosity(logging.CRITICAL)
    
    prompt = "Tell me about AI"
    prompt_template=f'''### Human: {prompt}
    ### Assistant:'''
    
    print("*** Pipeline:")
    pipe = pipeline(
        "text-generation",
        model=model,
        tokenizer=tokenizer,
        max_new_tokens=512,
        temperature=0.7,
        top_p=0.95,
        repetition_penalty=1.15
    )
    
    print(pipe(prompt_template)[0]['generated_text'])
    

    提供的文件

    nous-hermes-13b-GPTQ-4bit-128g.no-act.order.safetensors

    这将与GPTQ-for-LLaMa的所有版本以及AutoGPTQ一起使用。

    • nous-hermes-13b-GPTQ-4bit-128g.no-act.order.safetensors
      • 与GPTQ-for-LLaMa代码的所有版本兼容,包括Triton和CUDA分支
      • 与AutoGPTQ一起使用
      • 与text-generation-webui的一键安装程序一起使用
      • 参数:Groupsize = 128。Act Order / desc_act = False。

    Discord

    如需进一步支持以及有关这些模型和AI的讨论,请加入我们:

    TheBloke AI's Discord server

    感谢以及如何做出贡献

    感谢 chirper.ai 团队!

    我已经有很多人问我是否可以做出贡献。我喜欢提供模型和帮助人们,并且很愿意花更多的时间做这件事,以及扩展到新的项目,如微调/训练。

    如果您有能力和愿意做出贡献,我将非常感激,并将帮助我继续提供更多模型,并开始新的AI项目。

    捐赠者将优先获得有关任何AI/LLM/模型的支持、问题和请求的支持,以及访问私人Discord房间和其他福利。

    Patreon特别提到:Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V. Lukas,Joseph William Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。

    感谢所有慷慨的赞助人和捐赠者!

    原始模型卡片:NousResearch的Nous-Hermes-13B

    模型卡片:Nous-Hermes-13b

    模型描述

    Nous-Hermes-13b是一种最先进的语言模型,经过超过300,000条指令的精细调校。该模型由Nous Research进行了精细调优,Teknium和Karan4D领导了调优过程和数据集的筛选,Redmond AI提供了计算资源,并有其他几位贡献者。其结果是一个增强的Llama 13b模型,在各种任务上与GPT-3.5-turbo媲美。

    该模型以其较长的回答、低幻觉率和没有OpenAI审查机制而脱颖而出。经过50多小时的训练,在8x a100 80GB DGX机器上进行了2000个序列长度的训练。

    模型训练

    该模型几乎完全在合成的GPT-4输出上进行训练。这包括来自各种来源的数据,如GPTeacher、general、roleplay v1&2、code instruct数据集,Nous Instruct&PDACTL(未发布),CodeAlpaca,Evol_Instruct Uncensored,GPT4-LLM和Unnatural Instructions。

    另外的数据输入来自Camel-AI的生物学/物理学/化学和数学数据集,Airoboros的GPT-4数据集,以及CodeAlpaca的其他数据。总计超过300,000条指令的数据量。

    合作伙伴

    模型的细调和数据集的合作是Teknium、Karan4D、Nous Research、Huemin Art和Redmond AI之间努力和资源的合作。

    非常感谢和感谢所有慷慨分享数据集的数据集创建者。

    特别感谢@winglian、@erhartford和@main_horse等人在一些训练问题上的协助。

    在数据集的贡献者中,GPTeacher由Teknium提供,Wizard LM由nlpxucan提供,Nous Research Instruct数据集由Karan4D和HueminArt提供。GPT4-LLM和Unnatural Instructions由微软提供,Airoboros数据集由jondurbin提供,Camel-AI数据集来自Camel-AI,CodeAlpaca数据集由Sahil 2801提供。如果有任何遗漏的人,请在社区选项卡中打开一个帖子。

    提示格式

    该模型遵循Alpaca提示格式:

    ### Instruction:
    
    ### Response:
    

    或者

    ### Instruction:
    
    ### Input:
    
    ### Response:
    

    应用使用案例的资源:

    有关使用huggingface transformers和discord的来回聊天机器人的示例,请查看: https://github.com/teknium1/alpaca-discord 。有关角色扮演discord机器人的示例,请查看: https://github.com/teknium1/alpaca-roleplay-discordbot

    未来计划

    该模型目前正在以FP16格式上传,并计划将模型转换为GGML和GPTQ 4bit量化。团队还正在进行一项完整的基准测试,类似于对GPT4-x-Vicuna的测试。我们将努力争取将该模型包含在GPT4All中。

    基准测试结果

    基准测试结果即将发布。

    模型使用

    该模型可在Hugging Face上下载。它适用于广泛的语言任务,从生成创意文本到理解和遵循复杂的指令。

    计算资源由我们的项目赞助商Redmond AI提供,感谢!