模型:

TheBloke/minotaur-15B-GPTQ

预印本库:

arxiv:2305.06161 arxiv:2205.14135 arxiv:2207.14255 arxiv:1911.02150

其他:

text-generation-inference code gpt_bigcode

数据集:

3Awinglian/evals 3Acamel-ai/chemistry 3Acamel-ai/physics 3Acamel-ai/biology 3Acamel-ai/math 3Agsm8k 3Ariddle_sense 3Aopenai/summarize_from_feedback 3Ahellaswag 3Ametaeval/ScienceQA_text_only 3Ateknium/GPTeacher-General-Instruct 3AQingyiSi/Alpaca-CoT 3Aehartford/WizardLM_alpaca_evol_instruct_70k_unfiltered 3Atiiuae/falcon-refinedweb 3Abigcode/the-stack-dedup

类库:

Transformers

任务:

文本生成

模型介绍文件清单

英文

Chat & support: my new Discord server

Want to contribute? TheBloke's Patreon page

OpenAccess AI Collective的Minotaur 15B GPTQ

这些是用于 OpenAccess AI Collective's Minotaur 15B 的GPTQ 4位模型文件。

这是使用 GPTQ-for-LLaMa 进行4位量化的结果。

可用的存储库

关于上下文长度的注意事项

当前尚未经过测试，以确定8K上下文是否与可用的GPTQ客户端（例如text-generation-webui）兼容。

如果对此有任何反馈，请告诉我。

提示模板

USER: <prompt>
ASSISTANT:

如何在text-generation-webui中轻松下载和使用此模型

请确保您正在使用text-generation-webui的最新版本

点击“模型”选项卡。

在“下载自定义模型或LoRA”下，输入“TheBloke/minotaur-15B-GPTQ”。

点击“下载”。

模型开始下载。完成后将显示“完成”

在左上角，单击“模型”旁边的刷新图标。

在“模型”下拉菜单中，选择刚刚下载的模型：minotaur-15B-GPTQ

模型将自动加载，现在已经准备好使用！

如果您想要任何自定义设置，请进行设置，然后依次单击“保存此模型的设置”和右上角的“重新加载模型”。

请注意，您不需要也不应再手动设置GPTQ参数。这些将根据文件quantize_config.json自动设置。

完成后，单击“文本生成”选项卡，然后输入提示开始！

如何从Python代码中使用此GPTQ模型

首先确保已安装 AutoGPTQ ：

pip install auto-gptq

然后尝试以下示例代码：

from transformers import AutoTokenizer, pipeline, logging
from auto_gptq import AutoGPTQForCausalLM, BaseQuantizeConfig

model_name_or_path = "TheBloke/minotaur-15B-GPTQ"
model_basename = "gptq_model-4bit-128g"

use_triton = False

tokenizer = AutoTokenizer.from_pretrained(model_name_or_path, use_fast=True)

model = AutoGPTQForCausalLM.from_quantized(model_name_or_path,
        model_basename=model_basename,
        use_safetensors=True,
        trust_remote_code=False,
        device="cuda:0",
        use_triton=use_triton,
        quantize_config=None)

# Note: check the prompt template is correct for this model.
prompt = "Tell me about AI"
prompt_template=f'''USER: {prompt}
ASSISTANT:'''

print("\n\n*** Generate:")

input_ids = tokenizer(prompt_template, return_tensors='pt').input_ids.cuda()
output = model.generate(inputs=input_ids, temperature=0.7, max_new_tokens=512)
print(tokenizer.decode(output[0]))

# Inference can also be done using transformers' pipeline

# Prevent printing spurious transformers error when using pipeline with AutoGPTQ
logging.set_verbosity(logging.CRITICAL)

print("*** Pipeline:")
pipe = pipeline(
    "text-generation",
    model=model,
    tokenizer=tokenizer,
    max_new_tokens=512,
    temperature=0.7,
    top_p=0.95,
    repetition_penalty=1.15
)

print(pipe(prompt_template)[0]['generated_text'])

提供的文件

gptq_model-4bit-128g.safetensors

这将适用于AutoGPTQ和GPTQ-for-LLaMa的CUDA版本。有关GPTQ-for-LLaMa Triton模式的问题报告。如果有问题，请改用AutoGPTQ。

使用group_size 128创建它以提高推理准确性，但未使用--act-order（desc_act）以提高兼容性和改善推理速度。

gptq_model-4bit-128g.safetensors
- 适用于CUDA或Triton模式下的AutoGPTQ。
- 适用于CUDA模式下的GPTQ-for-LLaMa。可能在GPTQ-for-LLaMa Triton模式下存在问题。
- 适用于text-generation-webui，包括一键安装程序。
- 不适用于ExLlama，因为它不是Llama模型。
- 参数：Groupsize = 128。Act Order / desc_act = False。

Discord

欢迎加入我们的Discord，共享对这些模型和AI的讨论：

TheBloke AI's Discord server

感谢及如何贡献。

感谢 chirper.ai 团队！

我收到很多人询问是否可以为此做出贡献。我享受提供模型和帮助他人，并很乐意能够花更多时间提供帮助，并开始进行新的项目，如微调/训练。

如果您有能力并愿意进行贡献，我将非常感激，并将有助于我继续提供更多模型，并开始新的AI项目。

赞助者将在任何AI/LLM/模型问题和请求上获得优先支持，可以进入私人Discord房间，并享受其他福利。

Patreon： https://patreon.com/TheBlokeAI
Ko-Fi： https://ko-fi.com/TheBlokeAI

特别感谢CarbonQuill的Luke、Aemon Algiz、Dmitriy Samsonov。

Patreon特别感谢vamX、K、Jonathan Leane、Lone Striker、Sean Connelly、Chris McCloskey、WelcomeToTheClub、Nikolai Manek、John Detwiler、Kalila、David Flickinger、Fen Risland、subjectnull、Johann-Peter Hartmann、Talal Aujan、John Villwock、senxiiz、Khalefa Al-Ahmad、Kevin Schuppel、Alps Aficionado、Derek Yates、Mano Prime、Nathan LeClaire、biorpg、trip7s trip、Asp the Wyvern、chris gileta、Iucharbius、Artur Olbinski、Ai Maven、Joseph William Delisle、Luke Pendergrass、Illia Dulskyi、Eugene Pentland、Ajan Kanaga、Willem Michiel、Space Cruiser、Pyrater、Preetika Verma、Junyu Yang、Oscar Rangel、Spiking Neurons AB、Pierre Kircher、webtim、Cory Kujawski、terasurfer、Trenton Dambrowitz、Gabriel Puliatti、Imad Khwaja、Luke。

感谢所有慷慨的赞助者和捐助者！

原始模型卡片：OpenAccess AI Collective的Minotaur 15B

💵 Donate to OpenAccess AI Collective 帮助我们不断构建出色的工具和模型！

Minotaur 15B 8K

Minotaur 15B是在Starcoder Plus的基础上进行指导微调的模型。Minotaur 15B经过了完全开放的数据集的微调，使得任何人都可以重现此模型。Minotaur 15B具有8K标记的上下文长度，可以在长上下文中具有强大的回忆能力。

有问题、评论、反馈、捐赠或想要帮助吗？请在我们的 Discord 上联系我们或发送电子邮件至wing@openaccessaicollective.org

提示

仅使用用户和助手对话形式的提示，使用USER：和ASSISTANT：。

训练数据集

Minotaur 15B模型在以下公开可用的数据集上进行了微调：

WizardLM
subset of QingyiSi/Alpaca-CoT for roleplay and CoT
GPTeacher-General-Instruct
metaeval/ScienceQA_text_only - 用于精简回答的指导
openai/summarize_from_feedback - 用于指导的tl;dr增强摘要
camel-ai/math
camel-ai/physics
camel-ai/chemistry
camel-ai/biology
winglian/evals - 指导增强数据集
- 自定义综合数据集，包括对于误解、上下文内qa、笑话、N任务问题和上下文不敏感性的指导增强数据集
- ARC-Easy和ARC-Challenge - 从train拆分派生的详细回答的指导增强
- hellaswag - 从train拆分派生的用于详细解释的指导增强，包含30,000多行
- riddle_sense - 指导增强，派生自train拆分
- gsm8k - 指导增强，派生自train拆分
- 文学生成

致谢

特别感谢Nanobit帮助Axolotl和TheBloke使这些模型的量化变得更加易于访问。

演示

在 Community ChatBot Arena 的OAAIC Chatbots标签下提供的HF Demo空间中。

发行说明

https://wandb.ai/wing-lian/minotaur-16b-8k/runs/tshgbl2k

构建

Minotaur在4XA100 80GB上使用 Axolotl 进行构建

1个时期，大约需要30小时
使用QLoRA技术进行训练

偏见、风险和局限性

Minotaur尚未通过像RLHF这样的技术进行人类偏好的对齐，也没有像ChatGPT这样的循环筛选响应的部署，因此模型可能会产生问题的输出（尤其是在提示进行此操作时）。Minotaur是从基础模型Starcoder进行微调的，请参阅其模型卡片的限制部分以获取相关信息。（包含在下面）

基准

待定

示例

待定

StarcoderPlus

在 StarChat-Beta 上使用指导微调过的StarcoderPlus进行互动。

模型摘要

StarcoderPlus是 StarCoderBase 上经过微调的版本，使用了来自 RedefinedWeb 的600B英文网络数据集和来自 The Stack (v1.2) 的 StarCoderData 以及维基百科数据集。这是一种基于英语和80多种编程语言的15.5B参数语言模型。该模型使用 Multi Query Attention 和 a context window of 8192 tokens ，并使用 Fill-in-the-Middle objective 在1.6万亿个标记上进行了训练。

存储库： bigcode/Megatron-LM
项目网站： bigcode-project.org
联系人：contact@bigcode-project.org
语言：英语和80多种编程语言

用途

预期使用

该模型在英文文本和GitHub代码上进行了训练。因此，当处理非英文文本时，可能会遇到限制，并且可能存在在在线环境中常见的陈规定型和偏见。

生成的代码应谨慎使用，因为可能包含错误、低效或潜在的漏洞。要更全面地了解基本模型的代码限制，请参阅 StarCoder paper 。

限制

该模型在StarCoderBase的600B英文和代码标记上进行了微调，该模型在1T代码标记上进行了预训练。以下是微调的详细信息：

模型

架构：带有多查询注意力和填充中间目标的GPT-2模型
微调步骤：150k
微调标记：600B
精度：bfloat16

硬件

GPU：512个Tesla A100
训练时间：14天

软件

编排： Megatron-LM
神经网络： PyTorch
BP16（如适用）： apex

许可

该模型根据BigCode OpenRAIL-M v1许可协议授权。您可以在 here 找到完整的协议。

作者:

Tom Jobbins

数据集大小:

8.57 GB