模型:
TehVenom/Metharme-13b-4bit-GPTQ
从 PygmalionAI 发布的 XOR 权重进行转化
Metharme 13b 是基于 Meta 的 LLaMA-13b 开发的指令型模型。
这是一个实验,旨在尝试得到一个可用于对话、角色扮演和故事写作的模型,但可以像其他指令型模型一样使用自然语言进行引导。请参阅下面的提示部分获取示例。
通过在常规指令数据中进行监督微调,并结合在合成指令中进行角色扮演、虚构故事和对话的训练来进行训练。
当前的 Metharme-13b 经过了一次 LoRA 训练,然后将其合并到基础模型中以进行分发。
它还使用了可在此处获得的 GPTQ 库进行了 4 位量化: https://github.com/0cc4m/GPTQ-for-LLaMa
python -m gptq.llama .\TehVenom_Metharme-13b-Merged c4 --wbits 4 --true-sequential --groupsize 128 --save_safetensors Metharme-13b-GPTQ-4bit-128g.no-act-order.safetensors
目前的模型版本是在使用三种不同角色的提示的情况下进行训练的,这些角色由以下标记表示:<|system|>,<|user|>和<|model|>。
<|system|> 提示可用于在幕后注入超出通道的信息,而 <|user|> 提示应用于指示用户输入。然后,应使用 <|model|> 标记来指示模型生成响应。这些标记可以多次出现,并且可以链式连接以形成对话历史记录。
这是一个具体的示例。假设您有以下系统提示:
这是一个文字冒险游戏。描述场景给用户,并在每个回合给他三个选项以供选择。
用户已输入以下消息:
开始!
要对模型进行推理,提示应该格式化为以下内容:
<|system|>This is a text adventure game. Describe the scenario to the user and give him three options to pick from on each turn.<|user|>Start!<|model|>
模型可能会生成类似以下内容:
你站在一座破旧的房子前。窗户被封起来,周围没有任何生命的迹象。当你靠近时,你注意到从房子内传来一种奇怪的感觉。突然,你听到有个声音在呼唤着你……“进来吧!”
当判断响应完整时,它将自动发出文本结束标记(</s>)。
然后假设用户回复了“进入”。下一个提示应该是:
<|system|>This is a text adventure game. Describe the scenario to the user and give him three options to pick from on each turn.<|user|>Start!<|model|>You are standing in front of an old, abandoned house. The windows are boarded up, and there's no sign of life around it. As you approach, you notice a strange feeling emanating from within. Suddenly, you hear a voice calling out to you... 'Come inside!' - Go inside the house. - Ignore the call and move away. - Run as fast as you can.<|user|>go inside<|model|>
它可能生成类似以下内容:
你走进房子,立刻,一股让人不安的能量席卷而来。你的感官似乎更敏锐了,但你的头脑感到模糊。一个身材高大、目光锐利的人出现在你面前。他用一种你听不懂的语言与你交谈。
同样的过程适用。通常,最好在用户和模型之间进行滑动窗口,但保持系统提示在上下文窗口的开始位置固定。
Metharme-13b 模型的当前评估结果:
Model: | Wikitext2 | Ptb-New | C4-New |
---|---|---|---|
Metharme 13b - 16bit | 5.253076553344727 | 27.53407859802246 | 7.038073539733887 |
Metharme 13b - 4bit - [true-sequential & 128g] | 5.420501708984375 | 28.37093734741211 | 7.1930413246154785 |
此模型的预期用途是用于娱乐目的的虚构写作。任何其他类型的使用都超出了范围。
因此,它不是经过微调以保持安全和无害:基础模型和此微调均经过已知包含粗言秽语和具有冒犯性或其他不良文本的数据的训练。即使提示本身不包含任何明确冒犯性的内容,它可能产生不社交和不可接受的文本。输出的准确性和可靠性可能经常是错误的或具有误导性。
.hf-sanitized.hf-sanitized-hPljVM6idauTsre8C6uq7 table {border: 1px solid #b3adad; border-collapse: collapse; padding: 5px;}.hf-sanitized.hf-sanitized-hPljVM6idauTsre8C6uq7 table th {border: 1px solid #b3adad; padding: 5px; background: #f0f0f0; color: #313030;}.hf-sanitized.hf-sanitized-hPljVM6idauTsre8C6uq7 table td {border: 1px solid #b3adad; text-align: center; padding: 5px; background: #ffffff; color: #313030;}