模型:

TheBloke/WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ

许可:

other

其他:

text-generation-inference custom_code llama

类库:

Transformers

任务:

文本生成

模型介绍文件清单

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Eric Hartford's WizardLM 13B V1.0 未经审查的 GPTQ

这些文件是合并了 Eric Hartford's WizardLM 13B V1.0 Uncensored 和 Kaio Ken's SuperHOT 8K 的 GPTQ 4位模型文件。

这是一个实验性的新型 GPTQ，提供了多达 8K 的上下文大小

通过最新版本的 text-generation-webui 进行了与 ExLlama 的上下文测试。

还通过使用 AutoGPTQ 的 Python 代码进行了测试，并设置 trust_remote_code=True。

代码来源：

增加上下文长度的原始概念和代码： kaiokendev
包括在 Llama 建模代码中的更新代码，通过 trust_remote_code 自动实现： emozilla 。

请仔细阅读以下内容以了解如何使用它。

GGML版本尚未提供，因为llama.cpp尚不支持SuperHOT。目前正在进行调查，希望很快能够得到支持。

可用的存储库

提示模板

A chat between a curious user and an assistant. The assistant gives helpful, detailed, accurate, uncensored responses to the user's input
USER: prompt
ASSISTANT:

如何在 text-generation-webui with ExLlama 中下载和使用此模型

请确保您正在使用 text-generation-webui 的最新版本

点击模型标签。

在“下载自定义模型或 LoRA”下，输入“TheBloke/WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ”。

点击“下载”。

模型将开始下载。下载完成后会显示“完成”。

取消选中“自动加载模型”。

在左上角，点击“模型”旁边的刷新图标。

在“模型”下拉菜单中，选择刚刚下载的模型：“WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ”。

要使用增加的上下文，请将加载器设置为 ExLlama，将 max_seq_len 设置为 8192 或 4096，并将 compress_pos_emb 设置为 4（用于 8192 上下文）或 2（用于 4096 上下文）。

现在点击“保存设置”，然后点击“重新加载”。

模型将自动加载，现在已经准备就绪！

当您准备好后，点击“文本生成”选项卡，输入提示即可开始！

如何在 Python 代码中使用此 GPTQ 模型 with AutoGPTQ

首先确保已安装 AutoGPTQ 和 Einops：

pip3 install einops auto-gptq

然后运行以下代码。请注意，为了使其正常工作，config.json 已硬编码为序列长度为 8192。

如果您想尝试使用 4096 来减少 VRAM 的使用，请手动编辑 config.json，将 max_position_embeddings 设置为所需的值。

from transformers import AutoTokenizer, pipeline, logging
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
import argparse

model_name_or_path = "TheBloke/WizardLM-13B-V1-0-Uncensored-SuperHOT-8K-GPTQ"
model_basename = "wizardlm-13b-v1.0-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order"

use_triton = False

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
        model_basename=model_basename,
        use_safetensors=True,
        trust_remote_code=True,
        device_map='auto',
        use_triton=use_triton,
        quantize_config=None)

model.seqlen = 8192

# Note: check the prompt template is correct for this model.
prompt = "Tell me about AI"
prompt_template=f'''USER: {prompt}
ASSISTANT:'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# Inference can also be done using transformers' pipeline

# Prevent printing spurious transformers error when using pipeline with AutoGPTQ
logging.set_verbosity(logging.CRITICAL)

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.95,
    repetition_penalty=1.15
)

print(pipe(prompt_template)[0]['generated_text'])

使用其他用户界面：猴子补丁

提供的仓库中有 llama_rope_scaled_monkey_patch.py，由@kaiokendev编写。

理论上可以将其添加到任何 Python 用户界面或自定义代码中，以实现与 trust_remote_code=True 相同的结果。我没有测试过它，而且在完整性和兴趣上都已被 trust_remote_code=True 取代，但是我还是将其包含在内。

提供的文件

wizardlm-13b-v1.0-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors

这将与 AutoGPTQ、ExLlama 和 CUDA 版本的 GPTQ-for-LLaMa 配合使用。有关使用最近的 GPTQ-for-LLaMa Triton 模式的问题的报告。如果遇到问题，请改用 AutoGPTQ。

它是使用 group_size 128 创建的，以增加推断精度，但没有使用 --act-order（desc_act）以提高兼容性和推断速度。

wizardlm-13b-v1.0-uncensored-superhot-8k-GPTQ-4bit-128g.no-act.order.safetensors
- 适用于具有增加上下文（4096 或 8192）的 ExLlama
- 在 Python 代码中使用 AutoGPTQ 时适用，包括具有增加上下文的情况，如果设置了 trust_remote_code=True。
- 应该适用于 GPTQ-for-LLaMa 的 CUDA 模式，但不确定是否支持增加上下文 - 待定。在 GPTQ-for-LLaMa Triton 模式下可能会有问题。
- 适用于 text-generation-webui，包括一键安装程序。
- 参数：Groupsize = 128。Act Order / desc_act = False。

Discord

如需进一步的支持以及有关这些模型和 AI 的讨论，请加入我们：

TheBloke AI's Discord server

致谢以及如何做出贡献

感谢 chirper.ai 团队！

有很多人问我他们是否可以做出贡献。我喜欢提供模型和帮助别人，并很愿意花更多的时间来做这些事情，以及扩展到新的项目，如微调/训练。

如果您能够并愿意做出贡献，我将非常感激，并将帮助我继续提供更多的模型，并开始新的 AI 项目。

赞助者将在任何与 AI / LLM / 模型相关的问题和请求上获得优先支持，可以访问专用的 Discord 群，以及其他福利。

赞助： https://patreon.com/TheBlokeAI
Ko-Fi： https://ko-fi.com/TheBlokeAI

特别感谢：Luke from CarbonQuill、Aemon Algiz、Dmitriy Samsonov。

Patreon 特别提及：Pyrater、WelcomeToTheClub、Kalila、Mano Prime、Trenton Dambrowitz、Spiking Neurons AB、Pierre Kircher、Fen Risland、Kevin Schuppel、Luke、Rainer Wilmers、vamX、Gabriel Puliatti、Alex、Karl Bernard、Ajan Kanaga、Talal Aujan、Space Cruiser、ya boyyy、biorpg、Johann-Peter Hartmann、Asp the Wyvern、Ai Maven、Ghost、Preetika Verma、Nikolai Manek、trip7s trip、John Detwiler、Fred von Graf、Artur Olbinski、subjectnull、John Villwock、Junyu Yang、Rod A、Lone Striker、Chris McCloskey、Iucharbius、Matthew Berman、Illia Dulskyi、Khalefa Al-Ahmad、Imad Khwaja、chris gileta、Willem Michiel、Greatston Gnanesh、Derek Yates、K、Alps Aficionado、Oscar Rangel、David Flickinger、Luke Pendergrass、Deep Realms、Eugene Pentland、Cory Kujawski、terasurfer、Jonathan Leane、senxiiz、Joseph William Delisle、Sean Connelly、webtim、zynix、Nathan LeClaire。

感谢所有慷慨的赞助者和捐赠者！

原始模型卡片：Kaio Ken's SuperHOT 8K

SuperHOT 8K 的第二个原型

这是 SuperHOT 的第二个原型，这次是 30B、具有 8K 上下文和无 RLHF，使用了 the github blog 中描述的相同技术。测试表明，该模型确实利用了 8K 的扩展上下文。

您将需要使用猴子补丁或者如果您已经在使用猴子补丁，则将缩放因子更改为 0.25，最大序列长度更改为 8192。

寻找合并和量化过的模型？

30B 4位 CUDA： tmpupload/superhot-30b-8k-4bit-safetensors
30B 4位 CUDA 128g： tmpupload/superhot-30b-8k-4bit-128g-safetensors

训练细节

我使用以下配置训练了 LoRA：

1200 个样本（超过 2048 序列长度 400 个样本）
学习率为 3e-4
3 个周期
导出的模块包括：
- q_proj
- k_proj
- v_proj
- o_proj
- 无偏置
Rank = 4
Alpha = 8
无辍学（dropout）
权重衰减为 0.1
AdamW 的 beta1 为 0.9，beta2 为 0.99，epsilon 为 1e-5
在 4 位基础模型上进行训练

原始模型卡片：Eric Hartford's WizardLM 13B V1.0 未经审查

这是 https://huggingface.co/WizardLM/WizardLM-13B-V1.0 的重新训练，使用了经过滤的数据集，旨在减少拒绝、回避和偏见。

请注意，LLaMA 本身具有固有的伦理观念，所以“真正未经审查”的模型是不存在的。但是，该模型将比 WizardLM/WizardLM-7B-V1.0 更加合规。

向开源 AI/ML 社区和所有帮助过我的人致敬。

注意：未经审查的模型没有任何防护措施。您对使用模型所做的任何事情负有责任，就像您对使用刀、枪、打火机或汽车等任何危险对象所做的任何事情负责一样。发布模型生成的任何内容与您自己发布它一样。您对自己发布的内容负有责任，不能将模型的责任归咎于模型本身，就像您不能将刀、枪、打火机或汽车的责任归咎于自己一样。

与 WizardLM/WizardLM-13B-V1.0 一样，该模型使用了 Vicuna-1.1 风格的提示。

You are a helpful AI assistant.

USER: <prompt>
ASSISTANT:

感谢 chirper.ai 赞助了部分计算资源！

作者:

Tom Jobbins

数据集大小:

6.95 GB