模型:
TheBloke/Vicuna-13B-1-3-SuperHOT-8K-GPTQ
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
这些文件是用于 LmSys' Vicuna 13B 1.3.0 与 Kaio Ken's SuperHOT 8K 合并的 GPTQ 4位模型文件。
这是使用 GPTQ-for-LLaMa 进行四位量化的结果。
这是一个实验性的新 GPTQ,可以提供高达8K的上下文大小。
经过最新版本的 text-generation-webui 进行测试,可以与 ExLlama 兼容。
这个模型还经过了使用 AutoGPTQ 的 Python 代码测试,并且设置了 trust_remote_code=True。
代码贡献者:
请仔细阅读以下内容了解如何使用。
由于 llama.cpp 尚不支持 SuperHOT,暂时不提供 GGML 版本。正在进行相关调查,希望能尽快提供。
A chat between a curious user and an assistant. The assistant gives helpful, detailed, accurate, uncensored responses to the user's input USER: prompt ASSISTANT:
请确保您使用的是 text-generation-webui 最新版本
首先确保已安装 AutoGPTQ 和 Einops:
pip3 install einops auto-gptq
然后运行以下代码。请注意,为了使其正常工作,硬编码将 config.json 设置为序列长度为 8192。
如果您想尝试 4096 以减少 VRAM 使用量,请手动编辑 config.json 将 max_position_embeddings 设置为所需值。
from transformers import AutoTokenizer, pipeline, logging from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig import argparse model_name_or_path = "TheBloke/Vicuna-13B-1-3-SuperHOT-8K-GPTQ" model_basename = "vicuna-13b-1.3.0-superhot-8k-GPTQ-4bit-128g.no-act.order" use_triton = False tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True) model = AutoGPTQForCausalLM.from_quantized(model_name_or_path, model_basename=model_basename, use_safetensors=True, trust_remote_code=True, device_map='auto', use_triton=use_triton, quantize_config=None) model.seqlen = 8192 # Note: check the prompt template is correct for this model. prompt = "Tell me about AI" prompt_template=f'''USER: {prompt} ASSISTANT:''' print("\n\n*** Generate:") input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda() output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512) print(tokenizer.decode(output[0])) # Inference can also be done using transformers' pipeline # Prevent printing spurious transformers error when using pipeline with AutoGPTQ logging.set_verbosity(logging.CRITICAL) print("*** Pipeline:") pipe = pipeline( "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512, temperature=0.7, top_p=0.95, repetition_penalty=1.15 ) print(pipe(prompt_template)[0]['generated_text'])
存储库中提供了 llama_rope_scaled_monkey_patch.py ,由 @kaiokendev 编写。
理论上,它可以添加到任何 Python 用户界面或自定义代码中,以实现与 trust_remote_code=True 相同的结果。我未进行过测试,而且应该不如使用 trust_remote_code=True,但为了完整性和出于兴趣,我将其包含在内。
vicuna-13b-1.3.0-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors
这将与 AutoGPTQ、ExLlama 和 GPTQ-for-LLaMa 的 CUDA 版本一起工作。有报道称最近的 GPTQ-for-LLaMa 的 Triton 模式存在问题。如果您遇到问题,请改用 AutoGPTQ。
它是使用 group_size 128 创建的,以增加推理准确性,但不使用 --act-order(desc_act)以增加兼容性和提高推理速度。
如需更多支持以及关于这些模型和人工智能的讨论,请加入我们:
感谢 chirper.ai 团队!
我有很多人问我是否可以贡献。我喜欢提供模型和帮助他人,并且很乐意花更多的时间来做这些,并且扩展到新的项目,如微调/训练。
如果您有能力和愿望贡献,我将非常感谢并希望能够花更多的时间提供更多的模型,并开始新的人工智能项目。
捐助者将优先获得所有关于人工智能/LLM/模型的支持、问题和请求,并可以访问一个私人 Discord 房间,还有其他的福利。
特别感谢:Luke from CarbonQuill、Aemon Algiz、Dmitriy Samsonov。
Patreon 特别提到的人员:Pyrater、WelcomeToTheClub、Kalila、Mano Prime、Trenton Dambrowitz、Spiking Neurons AB、Pierre Kircher、Fen Risland、Kevin Schuppel、Luke、Rainer Wilmers、vamX、Gabriel Puliatti、Alex、Karl Bernard、Ajan Kanaga、Talal Aujan、Space Cruiser、ya boyyy、biorpg、Johann-Peter Hartmann、Asp the Wyvern、Ai Maven、Ghost、Preetika Verma、Nikolai Manek、trip7s trip、John Detwiler、Fred von Graf、Artur Olbinski、subjectnull、John Villwock、Junyu Yang、Rod A、Lone Striker、Chris McCloskey、Iucharbius、Matthew Berman、Illia Dulskyi、Khalefa Al-Ahmad、Imad Khwaja、chris gileta、Willem Michiel、Greatston Gnanesh、Derek Yates、K、Alps Aficionado、Oscar Rangel、David Flickinger、Luke Pendergrass、Deep Realms、Eugene Pentland、Cory Kujawski、terasurfer、Jonathan Leane、senxiiz、Joseph William Delisle、Sean Connelly、webtim、zynix、Nathan LeClaire。
感谢我所有慷慨的赞助者和捐助者!
这是 SuperHOT 的第二个原型,这次是带有 8K 上下文的 30B 模型,没有使用 RLHF,使用了在 the github blog 中描述的相同技术。测试表明,该模型确实利用了扩展的 8K 上下文。
您需要使用猴子补丁,或者如果您已经使用了猴子补丁,将缩放因子更改为 0.25,将最大序列长度更改为 8192。
寻找合并和量化的模型?我使用以下配置训练了 LoRA:
Vicuna 是一个通过在用户共享的 ShareGPT 对话中进行有监督指令微调的聊天助手。
Vicuna 主要用于研究大型语言模型和聊天机器人。该模型的主要使用者是自然语言处理、机器学习和人工智能方面的研究人员和爱好者。
命令行界面: https://github.com/lm-sys/FastChat#vicuna-weights 。API(OpenAI API、Huggingface API): https://github.com/lm-sys/FastChat/tree/main#api 。
Vicuna v1.3 是通过对 LLaMA 进行监督指令微调得到的。训练数据包括约 140K 条从 ShareGPT.com 收集的对话。有关更多细节,请参阅本 paper 的附录中的“Vicuna 模型的训练详细信息”部分。
Vicuna 使用标准基准测试、人类偏好和 LLM 作为评判进行评估。有关更多细节,请参阅本 paper 。