英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

OpenAccess AI Collective的Minotaur 15B GPTQ

这些是用于 OpenAccess AI Collective's Minotaur 15B 的GPTQ 4位模型文件。

这是使用 GPTQ-for-LLaMa 进行4位量化的结果。

可用的存储库

关于上下文长度的注意事项

当前尚未经过测试,以确定8K上下文是否与可用的GPTQ客户端(例如text-generation-webui)兼容。

如果对此有任何反馈,请告诉我。

提示模板

USER: <prompt>
ASSISTANT:

如何在text-generation-webui中轻松下载和使用此模型

请确保您正在使用text-generation-webui的最新版本

  • 点击“模型”选项卡。
  • 在“下载自定义模型或LoRA”下,输入“TheBloke/minotaur-15B-GPTQ”。
  • 点击“下载”。
  • 模型开始下载。完成后将显示“完成”
  • 在左上角,单击“模型”旁边的刷新图标。
  • 在“模型”下拉菜单中,选择刚刚下载的模型:minotaur-15B-GPTQ
  • 模型将自动加载,现在已经准备好使用!
  • 如果您想要任何自定义设置,请进行设置,然后依次单击“保存此模型的设置”和右上角的“重新加载模型”。
    • 请注意,您不需要也不应再手动设置GPTQ参数。这些将根据文件quantize_config.json自动设置。
  • 完成后,单击“文本生成”选项卡,然后输入提示开始!
  • 如何从Python代码中使用此GPTQ模型

    首先确保已安装 AutoGPTQ

    pip install auto-gptq

    然后尝试以下示例代码:

    from transformers import AutoTokenizer, pipeline, logging
    from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
    
    model_name_or_path = "TheBloke/minotaur-15B-GPTQ"
    model_basename = "gptq_model-4bit-128g"
    
    use_triton = False
    
    tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)
    
    model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
            model_basename=model_basename,
            use_safetensors=True,
            trust_remote_code=False,
            device="cuda:0",
            use_triton=use_triton,
            quantize_config=None)
    
    # Note: check the prompt template is correct for this model.
    prompt = "Tell me about AI"
    prompt_template=f'''USER: {prompt}
    ASSISTANT:'''
    
    print("\n\n*** Generate:")
    
    input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
    output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
    print(tokenizer.decode(output[0]))
    
    # Inference can also be done using transformers' pipeline
    
    # Prevent printing spurious transformers error when using pipeline with AutoGPTQ
    logging.set_verbosity(logging.CRITICAL)
    
    print("*** Pipeline:")
    pipe = pipeline(
        "text-generation",
        model=model,
        tokenizer=tokenizer,
        max_new_tokens=512,
        temperature=0.7,
        top_p=0.95,
        repetition_penalty=1.15
    )
    
    print(pipe(prompt_template)[0]['generated_text'])
    

    提供的文件

    gptq_model-4bit-128g.safetensors

    这将适用于AutoGPTQ和GPTQ-for-LLaMa的CUDA版本。有关GPTQ-for-LLaMa Triton模式的问题报告。如果有问题,请改用AutoGPTQ。

    使用group_size 128创建它以提高推理准确性,但未使用--act-order(desc_act)以提高兼容性和改善推理速度。

    • gptq_model-4bit-128g.safetensors
      • 适用于CUDA或Triton模式下的AutoGPTQ。
      • 适用于CUDA模式下的GPTQ-for-LLaMa。可能在GPTQ-for-LLaMa Triton模式下存在问题。
      • 适用于text-generation-webui,包括一键安装程序。
      • 不适用于ExLlama,因为它不是Llama模型。
      • 参数:Groupsize = 128。Act Order / desc_act = False。

    Discord

    欢迎加入我们的Discord,共享对这些模型和AI的讨论:

    TheBloke AI's Discord server

    感谢及如何贡献。

    感谢 chirper.ai 团队!

    我收到很多人询问是否可以为此做出贡献。我享受提供模型和帮助他人,并很乐意能够花更多时间提供帮助,并开始进行新的项目,如微调/训练。

    如果您有能力并愿意进行贡献,我将非常感激,并将有助于我继续提供更多模型,并开始新的AI项目。

    赞助者将在任何AI/LLM/模型问题和请求上获得优先支持,可以进入私人Discord房间,并享受其他福利。

    特别感谢CarbonQuill的Luke、Aemon Algiz、Dmitriy Samsonov。

    Patreon特别感谢vamX、K、Jonathan Leane、Lone Striker、Sean Connelly、Chris McCloskey、WelcomeToTheClub、Nikolai Manek、John Detwiler、Kalila、David Flickinger、Fen Risland、subjectnull、Johann-Peter Hartmann、Talal Aujan、John Villwock、senxiiz、Khalefa Al-Ahmad、Kevin Schuppel、Alps Aficionado、Derek Yates、Mano Prime、Nathan LeClaire、biorpg、trip7s trip、Asp the Wyvern、chris gileta、Iucharbius、Artur Olbinski、Ai Maven、Joseph William Delisle、Luke Pendergrass、Illia Dulskyi、Eugene Pentland、Ajan Kanaga、Willem Michiel、Space Cruiser、Pyrater、Preetika Verma、Junyu Yang、Oscar Rangel、Spiking Neurons AB、Pierre Kircher、webtim、Cory Kujawski、terasurfer、Trenton Dambrowitz、Gabriel Puliatti、Imad Khwaja、Luke。

    感谢所有慷慨的赞助者和捐助者!

    原始模型卡片:OpenAccess AI Collective的Minotaur 15B

    ? Donate to OpenAccess AI Collective 帮助我们不断构建出色的工具和模型!

    Minotaur 15B 8K

    Minotaur 15B是在Starcoder Plus的基础上进行指导微调的模型。Minotaur 15B经过了完全开放的数据集的微调,使得任何人都可以重现此模型。Minotaur 15B具有8K标记的上下文长度,可以在长上下文中具有强大的回忆能力。

    有问题、评论、反馈、捐赠或想要帮助吗?请在我们的 Discord 上联系我们或发送电子邮件至wing@openaccessaicollective.org

    提示

    仅使用用户和助手对话形式的提示,使用USER:和ASSISTANT:。

    训练数据集

    Minotaur 15B模型在以下公开可用的数据集上进行了微调:

    致谢

    特别感谢Nanobit帮助Axolotl和TheBloke使这些模型的量化变得更加易于访问。

    演示

    Community ChatBot Arena 的OAAIC Chatbots标签下提供的HF Demo空间中。

    发行说明

    构建

    Minotaur在4XA100 80GB上使用 Axolotl 进行构建

    • 1个时期,大约需要30小时
    • 使用QLoRA技术进行训练

    偏见、风险和局限性

    Minotaur尚未通过像RLHF这样的技术进行人类偏好的对齐,也没有像ChatGPT这样的循环筛选响应的部署,因此模型可能会产生问题的输出(尤其是在提示进行此操作时)。Minotaur是从基础模型Starcoder进行微调的,请参阅其模型卡片的限制部分以获取相关信息。 (包含在下面)

    基准

    待定

    示例

    待定

    StarcoderPlus

    StarChat-Beta 上使用指导微调过的StarcoderPlus进行互动。

    目录

  • 模型摘要
  • 用途
  • 限制
  • 训练
  • 许可
  • 引用
  • 模型摘要

    StarcoderPlus是 StarCoderBase 上经过微调的版本,使用了来自 RedefinedWeb 的600B英文网络数据集和来自 The Stack (v1.2) StarCoderData 以及维基百科数据集。这是一种基于英语和80多种编程语言的15.5B参数语言模型。该模型使用 Multi Query Attention a context window of 8192 tokens ,并使用 Fill-in-the-Middle objective 在1.6万亿个标记上进行了训练。

    用途

    预期使用

    该模型在英文文本和GitHub代码上进行了训练。因此,当处理非英文文本时,可能会遇到限制,并且可能存在在在线环境中常见的陈规定型和偏见。

    生成的代码应谨慎使用,因为可能包含错误、低效或潜在的漏洞。要更全面地了解基本模型的代码限制,请参阅 StarCoder paper

    限制

    该模型在StarCoderBase的600B英文和代码标记上进行了微调,该模型在1T代码标记上进行了预训练。以下是微调的详细信息:

    模型

    • 架构:带有多查询注意力和填充中间目标的GPT-2模型
    • 微调步骤:150k
    • 微调标记:600B
    • 精度:bfloat16

    硬件

    • GPU:512个Tesla A100
    • 训练时间:14天

    软件

    许可

    该模型根据BigCode OpenRAIL-M v1许可协议授权。您可以在 here 找到完整的协议。