模型:
TheBloke/WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ
Chat & support: my new Discord server
Want to contribute? TheBloke's Patreon page
这些文件是合并了 Eric Hartford's WizardLM 13B V1.0 Uncensored 和 Kaio Ken's SuperHOT 8K 的 GPTQ 4位模型文件。
这是一个实验性的新型 GPTQ,提供了多达 8K 的上下文大小
通过最新版本的 text-generation-webui 进行了与 ExLlama 的上下文测试。
还通过使用 AutoGPTQ 的 Python 代码进行了测试,并设置 trust_remote_code=True。
代码来源:
请仔细阅读以下内容以了解如何使用它。
GGML版本尚未提供,因为llama.cpp尚不支持SuperHOT。目前正在进行调查,希望很快能够得到支持。
A chat between a curious user and an assistant. The assistant gives helpful, detailed, accurate, uncensored responses to the user's input USER: prompt ASSISTANT:
请确保您正在使用 text-generation-webui 的最新版本
首先确保已安装 AutoGPTQ 和 Einops:
pip3 install einops auto-gptq
然后运行以下代码。请注意,为了使其正常工作,config.json 已硬编码为序列长度为 8192。
如果您想尝试使用 4096 来减少 VRAM 的使用,请手动编辑 config.json,将 max_position_embeddings 设置为所需的值。
from transformers import AutoTokenizer, pipeline, logging from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig import argparse model_name_or_path = "TheBloke/WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ" model_basename = "wizardlm-13b-v1.0-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order" use_triton = False tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True) model = AutoGPTQForCausalLM.from_quantized(model_name_or_path, model_basename=model_basename, use_safetensors=True, trust_remote_code=True, device_map='auto', use_triton=use_triton, quantize_config=None) model.seqlen = 8192 # Note: check the prompt template is correct for this model. prompt = "Tell me about AI" prompt_template=f'''USER: {prompt} ASSISTANT:''' print("\n\n*** Generate:") input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda() output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512) print(tokenizer.decode(output[0])) # Inference can also be done using transformers' pipeline # Prevent printing spurious transformers error when using pipeline with AutoGPTQ logging.set_verbosity(logging.CRITICAL) print("*** Pipeline:") pipe = pipeline( "text-generation", model=model, tokenizer=tokenizer, max_new_tokens=512, temperature=0.7, top_p=0.95, repetition_penalty=1.15 ) print(pipe(prompt_template)[0]['generated_text'])
提供的仓库中有 llama_rope_scaled_monkey_patch.py,由@kaiokendev编写。
理论上可以将其添加到任何 Python 用户界面或自定义代码中,以实现与 trust_remote_code=True 相同的结果。我没有测试过它,而且在完整性和兴趣上都已被 trust_remote_code=True 取代,但是我还是将其包含在内。
wizardlm-13b-v1.0-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors
这将与 AutoGPTQ、ExLlama 和 CUDA 版本的 GPTQ-for-LLaMa 配合使用。有关使用最近的 GPTQ-for-LLaMa Triton 模式的问题的报告。如果遇到问题,请改用 AutoGPTQ。
它是使用 group_size 128 创建的,以增加推断精度,但没有使用 --act-order(desc_act)以提高兼容性和推断速度。
如需进一步的支持以及有关这些模型和 AI 的讨论,请加入我们:
感谢 chirper.ai 团队!
有很多人问我他们是否可以做出贡献。我喜欢提供模型和帮助别人,并很愿意花更多的时间来做这些事情,以及扩展到新的项目,如微调/训练。
如果您能够并愿意做出贡献,我将非常感激,并将帮助我继续提供更多的模型,并开始新的 AI 项目。
赞助者将在任何与 AI / LLM / 模型相关的问题和请求上获得优先支持,可以访问专用的 Discord 群,以及其他福利。
特别感谢:Luke from CarbonQuill、Aemon Algiz、Dmitriy Samsonov。
Patreon 特别提及:Pyrater、WelcomeToTheClub、Kalila、Mano Prime、Trenton Dambrowitz、Spiking Neurons AB、Pierre Kircher、Fen Risland、Kevin Schuppel、Luke、Rainer Wilmers、vamX、Gabriel Puliatti、Alex、Karl Bernard、Ajan Kanaga、Talal Aujan、Space Cruiser、ya boyyy、biorpg、Johann-Peter Hartmann、Asp the Wyvern、Ai Maven、Ghost、Preetika Verma、Nikolai Manek、trip7s trip、John Detwiler、Fred von Graf、Artur Olbinski、subjectnull、John Villwock、Junyu Yang、Rod A、Lone Striker、Chris McCloskey、Iucharbius、Matthew Berman、Illia Dulskyi、Khalefa Al-Ahmad、Imad Khwaja、chris gileta、Willem Michiel、Greatston Gnanesh、Derek Yates、K、Alps Aficionado、Oscar Rangel、David Flickinger、Luke Pendergrass、Deep Realms、Eugene Pentland、Cory Kujawski、terasurfer、Jonathan Leane、senxiiz、Joseph William Delisle、Sean Connelly、webtim、zynix、Nathan LeClaire。
感谢所有慷慨的赞助者和捐赠者!
这是 SuperHOT 的第二个原型,这次是 30B、具有 8K 上下文和无 RLHF,使用了 the github blog 中描述的相同技术。测试表明,该模型确实利用了 8K 的扩展上下文。
您将需要使用猴子补丁或者如果您已经在使用猴子补丁,则将缩放因子更改为 0.25,最大序列长度更改为 8192。
寻找合并和量化过的模型?我使用以下配置训练了 LoRA:
这是 https://huggingface.co/WizardLM/WizardLM-13B-V1.0 的重新训练,使用了经过滤的数据集,旨在减少拒绝、回避和偏见。
请注意,LLaMA 本身具有固有的伦理观念,所以“真正未经审查”的模型是不存在的。但是,该模型将比 WizardLM/WizardLM-7B-V1.0 更加合规。
向开源 AI/ML 社区和所有帮助过我的人致敬。
注意:未经审查的模型没有任何防护措施。您对使用模型所做的任何事情负有责任,就像您对使用刀、枪、打火机或汽车等任何危险对象所做的任何事情负责一样。发布模型生成的任何内容与您自己发布它一样。您对自己发布的内容负有责任,不能将模型的责任归咎于模型本身,就像您不能将刀、枪、打火机或汽车的责任归咎于自己一样。
与 WizardLM/WizardLM-13B-V1.0 一样,该模型使用了 Vicuna-1.1 风格的提示。
You are a helpful AI assistant. USER: <prompt> ASSISTANT:
感谢 chirper.ai 赞助了部分计算资源!