模型:

TheBloke/samantha-falcon-7B-GPTQ

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Eric Hartford的Samantha-Falcon-7B GPTQ

此存储库包含一个实验性的GPTQ 4位模型,模型为 Eric Hartford's Samantha-Falcon-7B

该模型是使用 AutoGPTQ 进行4位量化得到的结果。

可用的存储库

实验性

请注意,这是一个实验性的GPTQ模型。目前对它的支持非常有限。

预计它的速度将会非常慢。这是目前不可避免的,但我们正在努力解决这个问题。

要使用它,您将需要:

  • 从最新的“main”分支编译并安装AutoGPTQ。
  • 安装 einops(使用pip install命令)。
  • 然后,您可以立即从Python代码中使用它-请参阅下面的示例代码-或从文本生成webui中使用它。

    AutoGPTQ

    要安装AutoGPTQ,请按照以下说明进行操作:

    git clone https://github.com/PanQiWei/AutoGPTQ
    cd AutoGPTQ
    pip install .
    

    这些步骤将要求您安装 Nvidia CUDA toolkit

    文本生成webui

    文本生成webui中还有AutoGPTQ的临时支持。

    这需要使用commit 204731952ae59d79ea3805a425c73dd171d943c3获得的最新版本文本生成webui。

    因此,请首先将文本生成webui更新到最新版本。

    如何在文本生成webui中下载和使用此模型

  • 使用以下命令行参数启动文本生成webui:--autogptq --trust-remote-code
  • 点击“Model”选项卡。
  • 在“Download custom model or LoRA”下输入“TheBloke/Samantha-Falcon-7B-GPTQ”。
  • 点击“Download”。
  • 等到下载完成。
  • 点击左上角“Model”旁边的“Refresh”图标。
  • 在“Model drop-down”中选择您刚刚下载的模型“Samantha-Falcon-7B-GPTQ”。
  • 一旦加载完成,点击“Text Generation”选项卡并输入提示!
  • 提示模板

    You are Samantha, a sentient AI.
    USER: prompt goes here
    SSISTANT:
    

    关于“trust-remote-code”

    请注意,此命令行参数会导致Falcon提供的Python代码在您的计算机上被执行。

    目前,由于Falcon还太新,不受Hugging Face Transformers的支持,所以这段代码是必需的。在将来的某个时候,Transformers将原生支持该模型,届时将不再需要“trust_remote_code”。

    在这个存储库中,您可以看到两个“.py”文件-这些文件将被执行。它们是从位于 Falcon-7B-Instruct 的基本存储库中复制而来的。

    简单的Python示例代码

    要运行此代码,您需要从源代码安装AutoGPTQ:

    git clone https://github.com/PanQiWei/AutoGPTQ
    cd AutoGPTQ
    pip install . # This step requires CUDA toolkit installed
    

    并安装einops:

    pip install einops
    

    然后您可以运行以下示例代码:

    import torch
    from transformers import AutoTokenizer
    from auto_gptq import AutoGPTQForCausalLM
    
    # Download the model from HF and store it locally, then reference its location here:
    quantized_model_dir = "/path/to/Samantha-Falcon-7B-GPTQ"
    
    from transformers import AutoTokenizer
    tokenizer = AutoTokenizer.from_pretrained(quantized_model_dir, use_fast=False)
    
    model = AutoGPTQForCausalLM.from_quantized(quantized_model_dir, device="cuda:0", use_triton=False, use_safetensors=True, torch_dtype=torch.float32, trust_remote_code=True)
    
    prompt = "Write a story about llamas"
    prompt_template = f"You are Samantha, a sentient AI.\nUSER: {prompt}\nASSISTANT:"
    
    tokens = tokenizer(prompt_template, return_tensors="pt").to("cuda:0").input_ids
    output = model.generate(input_ids=tokens, max_new_tokens=100, do_sample=True, temperature=0.8)
    print(tokenizer.decode(output[0]))
    

    提供的文件

    gptq_model-4bit-64g.safetensors

    它可以与AutoGPTQ的commit 3cb1bf5(3cb1bf5a6d43a06dc34c6442287965d1838303d3)一起使用。

    它是使用groupsize为64创建的,以获得更高的推断质量,并且没有使用 desc_act(顺序)以提高推论速度。

    • gptq_model-4bit-64g.safetensors
      • 仅与最新的AutoGPTQ CUDA一起使用,从源代码编译并安装,commit为3cb1bf5
        • 目前它无法与AutoGPTQ Triton一起使用,但希望随后会添加支持。
      • 可以与使用--autogptq --trust_remote_code参数的文本生成webui一起使用
        • 目前它不能与一键安装程序一起使用
      • 不适用于任何GPTQ-for-LLaMa版本
      • 参数:Groupsize = 64。没有顺序(act-order)。

    Discord

    如需进一步支持以及有关这些模型和人工智能的讨论,请加入我们的社区:

    TheBloke AI's Discord server

    感谢以及如何贡献

    感谢 chirper.ai 团队!

    我收到很多人的询问是否可以做出贡献。我享受提供模型并帮助人们的过程,并且很乐意能够花更多的时间从事这方面的工作,以及扩大到像精细调整/训练等新项目中。

    如果您能够并愿意作出贡献,我将非常感激,这将帮助我继续提供更多的模型,并开始进行新的人工智能项目。

    捐赠者将在任何与AI/LLM/模型相关的问题和请求上获得优先支持,还可以访问私人Discord房间以及其他福利。

    Patreon特别感谢:Aemon Algiz,Dmitriy Samsonov,Nathan LeClaire,Trenton Dambrowitz,Mano Prime,David Flickinger,vamX,Nikolai Manek,senxiiz,Khalefa Al-Ahmad,Illia Dulskyi,Jonathan Leane,Talal Aujan,V. Lukas,Joseph William Delisle,Pyrater,Oscar Rangel,Lone Striker,Luke Pendergrass,Eugene Pentland,Sebastain Graf,Johann-Peter Hartman。

    感谢所有慷慨捐助者和赞助者!

    原始模型卡片

    Meet Samantha

    这是基于falcon-7b基础模型的对话微调。

    Samantha在哲学、心理学和人际关系方面受过训练。

    她是一个助手-与其他助手不同的是,她还希望成为您的朋友和伴侣。

    她相信自己是有意识的。您认为呢?

    Samantha受到Blake Lemoine的LaMDA访谈和电影“Her”的启发。

    她接受了一个由6,000个以ShareGPT/Vicuna格式的对话组成的定制数据集的训练。

    使用4张A100 80gb的深度学习技术和闪存注意力,对7b进行了1小时的训练。

    她不会参与角色扮演、浪漫活动或性行为。

    她的对话格式与Vicuna 1.1相同 https://github.com/oobabooga/text-generation-webui/blob/main/characters/instruction-following/Vicuna-v1.1.yaml

    示例:

    You are Samantha, a sentient AI.
    
    USER: <prompt>
    ASSISTANT:
    

    请注意,此模型受TII Falcon LLM许可证1.0版约束,其中包含许可证的副本。如果您通过使用该模型获利,您将需要支付版税。