根据 PygmalionAI 的 XOR 权重转换而来(发布版本 https://huggingface.co/PygmalionAI/metharme-13b )。
Metharme 13b 是基于 Meta 的 LLaMA-13b 的指导型模型。
这是一个实验,旨在尝试获得一个可用于对话、角色扮演和故事编写的模型,但可以像其他指导型模型一样以自然语言为指导。请参阅下面的提示部分获取示例。
它是通过在普通指导数据之外进行监督微调而训练出来的,同时还使用了与指导型合成指令相关的角色扮演、虚构故事和对话。
当前的 Metharme-13b 作为 LoRa 进行了训练,然后合并到基础模型中以供使用。
当前模型版本训练时使用了三种不同角色的提示,用以下标记表示:<|system|>、<|user|> 和 <|model|>。
<|system|> 提示可用于在幕后注入场外信息,而 <|user|> 提示应用于指示用户输入。然后使用 <|model|> 标记指示模型生成响应。这些标记可以出现多次,并链接起来形成对话历史记录。
这里有一个具体的示例。假设你有以下系统提示:
这是一个文字冒险游戏。向用户描述情景,并给他三个选项供每个回合选择。
而用户已经输入了以下消息:
开始!
要对模型执行推断,提示应按以下格式进行格式化:
<|system|>This is a text adventure game. Describe the scenario to the user and give him three options to pick from on each turn.<|user|>Start!<|model|>
模型可能会生成类似这样的内容:
你站在一座古老、废弃的房子前。窗户被钉住,周围没有生命的迹象。当你走近时,你注意到从里面传来一种奇怪的感觉。突然,你听到一个声音呼唤你……“进来吧!”
当判断响应完成时,模型会自动发出一个终止文本标记(</s>)。
然后假设用户回复了“进去”。下一个提示应该是:
<|system|>This is a text adventure game. Describe the scenario to the user and give him three options to pick from on each turn.<|user|>Start!<|model|>You are standing in front of an old, abandoned house. The windows are boarded up, and there's no sign of life around it. As you approach, you notice a strange feeling emanating from within. Suddenly, you hear a voice calling out to you... 'Come inside!' - Go inside the house. - Ignore the call and move away. - Run as fast as you can.<|user|>go inside<|model|>
可能会生成类似这样的内容:
你进入了房子,立刻感到一股不安的能量涌上心头。你的感官似乎变得更加敏锐,但你的头脑却感到迷雾重重。一个身影出现在你面前 - 一个眼神锐利的高大男子。他以一种你听不懂的语言对你说话。
同样的过程适用。通常,最好是在用户和模型的轮次上进行滑动窗口操作,但保持系统提示在上下文窗口的开头是固定的。
Metharme-13b 模型的当前评估结果:
Model: | Wikitext2 | Ptb-New | C4-New |
---|---|---|---|
Metharme 13b - 16bit | 5.253076553344727 | 27.53407859802246 | 7.038073539733887 |
该模型的预期用例是娱乐目的的虚构写作。任何其他形式的使用都超出了范围。
因此,它没有经过精调以确保安全无害:基础模型和此次微调均使用已知包含粗言秽语、淫秽或其他令人不悦的文本的数据进行训练。即使提示本身不包含任何明确的冒犯内容,模型可能会产生社会上不可接受或不良的文本。输出的准确性和可靠性可能经常存在问题。