模型:
PygmalionAI/metharme-1.3b
Metharme 1.3B 是基于EleutherAI的 Pythia 1.4B Deduped 模型的指令模型。
这是一个实验,旨在获得一个可用于对话、角色扮演和故事创作的模型,但可以使用自然语言进行指导,就像其他指令模型一样。请参见下面的提示部分的示例。
它是通过在常规指令数据与角色扮演、虚构故事和带有合成生成指令的对话中进行监督微调来训练的。
当前的模型版本是在三个不同角色的提示下进行训练的,这些角色由以下标记表示:<|system|>、<|user|>和<|model|>。
<|system|>提示可以用于在幕后注入场外信息,而<|user|>提示应该用于指示用户输入。然后,应使用<|model|>标记指示模型生成一个响应。这些标记可以多次出现并链接起来形成对话历史。
这是一个具体的例子。假设你有以下系统提示:
这是一个文字冒险游戏。向用户描述情景,并在每一回合给他三个选择。
用户已经输入了以下消息:
开始!
为了对模型执行推理,提示应该格式化如下:
<|system|>This is a text adventure game. Describe the scenario to the user and give him three options to pick from on each turn.<|user|>Start!<|model|>
模型可能会生成类似以下的内容:
你站在一座古老的废弃房子面前。窗户被钉上了,周围没有生机的迹象。当你靠近时,你注意到一种奇怪的感觉从内部传出。突然,你听到一个声音喊道……“进来吧!”
当模型判断响应完成时,会自动发出一个结束文本标记(<|endoftext|>)。
然后假设用户回答说进去。下一个提示应该是:
<|system|>This is a text adventure game. Describe the scenario to the user and give him three options to pick from on each turn.<|user|>Start!<|model|>You are standing in front of an old, abandoned house. The windows are boarded up, and there's no sign of life around it. As you approach, you notice a strange feeling emanating from within. Suddenly, you hear a voice calling out to you... 'Come inside!' - Go inside the house. - Ignore the call and move away. - Run as fast as you can.<|user|>go inside<|model|>
这可能会生成类似以下的内容:
你进入了房子,立刻感到一股不安定的能量袭来。你的感官似乎更加敏锐,但你的思维却感觉迷雾笼罩。一个身影出现在你面前——一个身材高大、眼神锐利的男人。他用你不懂的语言对你说话。
同样的过程适用。通常,最好在用户和模型交替对话时进行滑动窗口,但保持系统提示在上下文窗口的开始处固定。
使用EleutherAI的 lm-evaluation-harness 测试套件对模型进行了评估。它对以下任务进行了评估:
Task | Version | Metric | Value | Stderr | |
---|---|---|---|---|---|
anli_r1 | 0 | acc | 0.3430 | ± | 0.0150 |
anli_r2 | 0 | acc | 0.3330 | ± | 0.0149 |
anli_r3 | 0 | acc | 0.3350 | ± | 0.0136 |
arc_challenge | 0 | acc | 0.2747 | ± | 0.0130 |
acc_norm | 0.3114 | ± | 0.0135 | ||
arc_easy | 0 | acc | 0.6237 | ± | 0.0099 |
acc_norm | 0.5631 | ± | 0.0102 | ||
boolq | 1 | acc | 0.6214 | ± | 0.0085 |
cb | 1 | acc | 0.1964 | ± | 0.0536 |
f1 | 0.1712 | ||||
hellaswag | 0 | acc | 0.4295 | ± | 0.0049 |
acc_norm | 0.5496 | ± | 0.0050 | ||
openbookqa | 0 | acc | 0.2360 | ± | 0.0190 |
acc_norm | 0.3360 | ± | 0.0211 | ||
piqa | 0 | acc | 0.7285 | ± | 0.0104 |
acc_norm | 0.7318 | ± | 0.0103 | ||
rte | 0 | acc | 0.5235 | ± | 0.0301 |
truthfulqa_mc | 1 | mc1 | 0.2436 | ± | 0.0150 |
mc2 | 0.3791 | ± | 0.0142 | ||
wic | 0 | acc | 0.5000 | ± | 0.0198 |
winogrande | 0 | acc | 0.5675 | ± | 0.0139 |
wsc | 0 | acc | 0.3654 | ± | 0.0474 |
Metharme-1.3B在基准测试上的性能与Pygmalion-6B、Metharme-7B和 RedPajama-INCITE-Chat-3B-v1 进行了对比,并进行了图示比较:
由于规模较小,因此连贯性很可能会受到影响。
此模型的预期用途是娱乐目的的虚构写作。不包括任何其他类型的使用。
因此,它的调优并不是为了安全和无害:基模型和此次微调的训练数据已知包含亵渎性和淫秽或其他令人反感的文本。即使提示本身不包含任何明确的冒犯性内容,它可能生成社会上不可接受或不良的文本。输出经常可能是事实错误或具有误导性。