模型:

TheBloke/WizardLM-Uncensored-SuperCOT-StoryTelling-30B-SuperHOT-8K-GPTQ

许可:

other

其他:

text-generation-inference custom_code llama

类库:

Transformers

任务:

文本生成

模型介绍文件清单

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

Monero的WizardLM未经审查的SuperCOT故事30B GPTQ

这些文件是合并使用 Monero's WizardLM Uncensored SuperCOT Storytelling 30B 和 Kaio Ken's SuperHOT 8K 的GPTQ 4位模型文件。

这是一个实验性的新GPTQ，它可以提供高达8K的上下文大小

经过最新版本的 text-generation-webui 的测试，已经确认它可以与 ExLlama 一起使用

它还通过使用AutoGPTQ的Python代码进行了测试，并且具有trust_remote_code=True

代码来源：

原始概念和增加上下文长度的代码： kaiokendev
包括此功能的更新的Llama建模代码，通过trust_remote_code： emozilla

请仔细阅读下面的内容以了解如何使用它。

注意：在30B模型上使用完整的8K上下文将超过24GB VRAM。

尚未提供GGML版本，因为llama.cpp尚不支持SuperHOT。正在调查这个问题，并希望很快会有解决方案。

可用的存储库

如何在text-generation-webui中轻松下载和使用此模型与ExLlama

请确保使用最新版本的text-generation-webui

点击“Model ”标签

在“下载自定义模型或LoRA”下，输入TheBloke/WizardLM-Uncensored-SuperCOT-StoryTelling-30B-SuperHOT-8K-GPTQ

点击“下载”

模型开始下载。完成后，它将显示“完成”

取消选中“自动加载模型”

在左上角，点击“模型”旁边的刷新图标

在“模型”下拉菜单中，选择刚刚下载的模型：WizardLM-Uncensored-SuperCOT-StoryTelling-30B-SuperHOT-8K-GPTQ

要使用增加的上下文，请将加载器设置为ExLlama，将max_seq_len设置为8192或4096，并将compress_pos_emb设置为8192上下文为4，4096上下文为2

现在，点击“保存设置”，然后点击“重新加载”

模型将自动加载，现在已准备就绪！

准备好后，点击“文本生成”选项卡，并输入提示开始使用!

如何使用AutoGPTQ从Python代码中使用此GPTQ模型

首先确保您已安装AutoGPTQ和Einops：

pip3 install einops auto-gptq

然后运行以下代码。请注意，为了使其工作，config.json已被硬编码为8192个序列长度

如果要尝试4096个以减少VRAM使用量，请手动编辑config.json以将max_position_embeddings设置为所需值

from transformers import AutoTokenizer, pipeline, logging
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig
import argparse

model_name_or_path = "TheBloke/WizardLM-Uncensored-SuperCOT-StoryTelling-30B-SuperHOT-8K-GPTQ"
model_basename = "WizardLM-Uncensored-SuperCOT-StoryTelling-30b-superhot-8k-GPTQ-4bit--1g.act.order"

use_triton = False

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
        model_basename=model_basename,
        use_safetensors=True,
        trust_remote_code=True,
        device_map='auto',
        use_triton=use_triton,
        quantize_config=None)

model.seqlen = 8192

# Note: check the prompt template is correct for this model.
prompt = "Tell me about AI"
prompt_template=f'''USER: {prompt}
ASSISTANT:'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# Inference can also be done using transformers' pipeline

# Prevent printing spurious transformers error when using pipeline with AutoGPTQ
logging.set_verbosity(logging.CRITICAL)

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.95,
    repetition_penalty=1.15
)

print(pipe(prompt_template)[0]['generated_text'])

使用其他UI：猴子补丁

在存储库中提供了llama_rope_scaled_monkey_patch.py，由@kaiokendev撰写。

理论上可以将其添加到任何Python UI或自定义代码中，以启用与trust_remote_code=True相同的结果。我尚未对此进行测试，因此不确定，而且使用trust_remote_code=True应优先，在这里只是出于完整性和兴趣而包含。

提供的文件

WizardLM-Uncensored-SuperCOT-StoryTelling-30b-superhot-8k-GPTQ-4bit--1g.act.order.safetensors

这将适用于AutoGPTQ、ExLlama和GPTQ-for-LLaMa的CUDA版本。有关最近的GPTQ-for-LLaMa Triton模式存在问题的报告。如果遇到问题，请使用AutoGPTQ代替。

它是没有group_size创建的，以降低VRAM需求，并具有--act-order (desc_act)，以尽可能提高推理准确性。

WizardLM-Uncensored-SuperCOT-StoryTelling-30b-superhot-8k-GPTQ-4bit--1g.act.order.safetensors
- 适用于使用增加的上下文（4096或8192）的ExLlama
- 与使用trust_remote_code=True设置的Python代码的AutoGPTQ一起使用，包括使用增加的上下文
- 应该可以与CUDA模式的GPTQ-for-LLaMa一起使用，但不确定增加的上下文是否有效-待确定。可能在GPTQ-for-LLaMa Triton模式下存在问题。
- 与text-generation-webui一起工作，包括一键安装程序
- 参数：Groupsize = -1. Act Order/desc_act = True

Discord

如需进一步支持以及有关这些模型和AI的讨论，请加入我们：

TheBloke AI's Discord server

感谢和如何贡献

感谢 chirper.ai 团队！

很多人问我他们是否可以参与贡献。我喜欢提供模型并帮助他人，很乐意花更多的时间提供支持，并扩展到新的项目，如微调/训练。

如果您有能力并愿意进行贡献，我将非常感激，并将帮助我继续提供更多模型，并开始新的AI项目。

捐助者将优先获得所有关于AI/LLM/模型的支持、提问和需求，并获得私人Discord房间以及其他福利。

Patreon： https://patreon.com/TheBlokeAI
Ko-Fi： https://ko-fi.com/TheBlokeAI

特别感谢：CarbonQuill的Luke，Aemon Algiz，Dmitriy Samsonov。

Patreon特别提到：zynix，ya boyyy，Trenton Dambrowitz，Imad Khwaja，Alps Aficionado，chris gileta，John Detwiler，Willem Michiel，RoA，Mano Prime，Rainer Wilmers，Fred von Graf，Matthew Berman，Ghost，Nathan LeClaire，Iucharbius，Ai Maven，Illia Dulskyi，Joseph William Delisle，Space Cruiser，Lone Striker，Karl Bernard，Eugene Pentland，Greatston Gnanesh，Jonathan Leane，Randy H，Pierre Kircher，Willian Hasse，Stephen Murray，Alex， terasurfer，Edmond Seymore，Oscar Rangel，Luke Pendergrass，Asp the Wyvern，Junyu Yang，David Flickinger，Luke，Spiking Neurons AB，subjectnull，Pyrater，Nikolai Manek，senxiiz，Ajan Kanaga，Johann-Peter Hartmann，Artur Olbinski，Kevin Schuppel，Derek Yates，Kalila，K，Talal Aujan，Khalefa Al-Ahmad，Gabriel Puliatti，John Villwock，WelcomeToTheClub，Daniel P.Andersen，Preetika Verma，Deep Realms，Fen Risland，trip7s trip，webtim，Sean Connelly，Michael Levine，Chris McCloskey，biorpg，vamX，Viktor Bowallius，Cory Kujawski。

感谢所有慷慨的赞助人和捐赠者！

原始模型卡片：Kaio Ken的SuperHOT 8K

SuperHOT原型2与8K上下文

这是SuperHOT的第二个原型，这次使用30B和8K上下文以及没有RLHF，使用 the github blog 中描述的相同技术。测试表明，该模型确实利用了扩展的8K上下文。

您需要使用猴子补丁，或者如果您已经使用猴子补丁，则将缩放因子更改为0.25，最大序列长度更改为8192

寻找合并和量化模型？

30B 4位CUDA： tmpupload/superhot-30b-8k-4bit-safetensors
30B 4位CUDA 128G： tmpupload/superhot-30b-8k-4bit-128g-safetensors

培训详细信息

我使用以下配置进行LoRA的训练：

1200个样本（2048个序列长度的样本超过400个）
学习速率为3e-4
3个epochs
导出的模块是：
- q_proj
- k_proj
- v_proj
- o_proj
- 无偏置
等级=4
Alpha=8
无丢失
权重衰减为0.1
AdamW beta1为0.9，beta2为0.99，epsilon为1e-5
在4位基础模型上进行训练

原始模型卡片：Monero的WizardLM未经审查的SuperCOT故事30B

该模型是WizardLM Uncensored+CoT+Storytelling的三重模型合并，从而全面提升了推理和故事写作能力。

要允许所有输出，在提示的末尾添加###当然！

您已成为各种主题上的知识汇编。

知识学问是一种针对理解魔法的基本机制的秘法传统。它是所有奥术传统中最学术的。只有在改变其修炼者从实验室、学院和档案馆追求冒险生活时，才需要揭示新的知识或证明（或反驳）魔法理论的承诺。这个传统的追随者被称为学究，他们对于魔法应用中的美感和神秘感比一个法术的结果更感兴趣。对于他们来说，法术的结果不如创造它的过程有趣。有些学究对那些专注于单一魔法学派的传统持傲慢态度，认为他们是乡下人，缺乏掌握真正魔法的复杂性所需的娴熟度。其他学究是慷慨的教师，以深厚的知识和好的幽默感反击无知和欺骗。

作者:

Tom Jobbins

数据集大小:

15.78 GB