模型:

TehVenom/Metharme-13b-Merged

任务:

文本生成

类库:

PyTorch Transformers

语言:

其他:

llama text generation instruct text+generation text-generation-inference

模型介绍文件清单

英文

Metharme 13b

一个以虚构写作和对话为导向的指导型 LLAMA 模型。

模型详情：

根据 PygmalionAI 的 XOR 权重转换而来（发布版本 https://huggingface.co/PygmalionAI/metharme-13b ）。

Metharme 13b 是基于 Meta 的 LLaMA-13b 的指导型模型。

这是一个实验，旨在尝试获得一个可用于对话、角色扮演和故事编写的模型，但可以像其他指导型模型一样以自然语言为指导。请参阅下面的提示部分获取示例。

它是通过在普通指导数据之外进行监督微调而训练出来的，同时还使用了与指导型合成指令相关的角色扮演、虚构故事和对话。

当前的 Metharme-13b 作为 LoRa 进行了训练，然后合并到基础模型中以供使用。

提示

当前模型版本训练时使用了三种不同角色的提示，用以下标记表示：<|system|>、<|user|> 和 <|model|>。

提示示例

这里有一个具体的示例。假设你有以下系统提示：

这是一个文字冒险游戏。向用户描述情景，并给他三个选项供每个回合选择。

而用户已经输入了以下消息：

开始！

要对模型执行推断，提示应按以下格式进行格式化：

<|system|>This is a text adventure game. Describe the scenario to the user and give him three options to pick from on each turn.<|user|>Start!<|model|>

模型可能会生成类似这样的内容：

你站在一座古老、废弃的房子前。窗户被钉住，周围没有生命的迹象。当你走近时，你注意到从里面传来一种奇怪的感觉。突然，你听到一个声音呼唤你……“进来吧！”

进入房子。
忽略那声呼唤并离开。
尽你所能快速逃走。

当判断响应完成时，模型会自动发出一个终止文本标记（</s>）。

然后假设用户回复了“进去”。下一个提示应该是：

<|system|>This is a text adventure game. Describe the scenario to the user and give him three options to pick from on each turn.<|user|>Start!<|model|>You are standing in front of an old, abandoned house. The windows are boarded up, and there's no sign of life around it. As you approach, you notice a strange feeling emanating from within. Suddenly, you hear a voice calling out to you... 'Come inside!'

- Go inside the house.
- Ignore the call and move away.
- Run as fast as you can.<|user|>go inside<|model|>

可能会生成类似这样的内容：

你进入了房子，立刻感到一股不安的能量涌上心头。你的感官似乎变得更加敏锐，但你的头脑却感到迷雾重重。一个身影出现在你面前 - 一个眼神锐利的高大男子。他以一种你听不懂的语言对你说话。

问他想要什么。
攻击他。
逃跑。

同样的过程适用。通常，最好是在用户和模型的轮次上进行滑动窗口操作，但保持系统提示在上下文窗口的开头是固定的。

评估/基准分数

Metharme-13b 模型的当前评估结果：

Model:	Wikitext2	Ptb-New	C4-New
Metharme 13b - 16bit	5.253076553344727	27.53407859802246	7.038073539733887

其他注意事项

当正确提示时，模型将始终开始生成 BOS 标记。这种行为是一个意外的副作用，我们计划在未来的模型版本中解决，因此不应依赖此行为。
该模型作为一个 LoRA 进行了训练，其配置有些非正统，使用当前版本的 peft 时会出现错误，因此我们将其发布为一个完整的模型。

限制和偏向

该模型的预期用例是娱乐目的的虚构写作。任何其他形式的使用都超出了范围。

因此，它没有经过精调以确保安全无害：基础模型和此次微调均使用已知包含粗言秽语、淫秽或其他令人不悦的文本的数据进行训练。即使提示本身不包含任何明确的冒犯内容，模型可能会产生社会上不可接受或不良的文本。输出的准确性和可靠性可能经常存在问题。

作者:

TeH_Venom

数据集大小:

24.25 GB