Pygmalion 6B

模型描述

Pygmalion 6B 是一个基于EleutherAI的 GPT-J-6B 的概念验证对话模型。

警告：该模型不适合未成年人使用。在某些情况下，它会输出成人内容。

训练数据

微调数据集包含从多个来源收集的56MB的对话数据，其中包括真实的和部分机器生成的对话。

训练过程

模型权重是从 this commit 提供的 uft-6b ConvoGPT模型初始化的。

然后，使用4个NVIDIA A40进行了约5,000个步骤的额外微调，总共约48.5百万个标记，使用DeepSpeed进行训练。

预期用途

简单使用方式

我们提供了一个带有Gradio用户界面的笔记本，用于玩弄模型，无需手动格式化输入。您可以在这个笔记本中找到。

手动使用方式

模型可以用作普通的文本生成模型，但如果输入提示符符合以下格式，它的性能将更好:

[CHARACTER]'s Persona: [A few sentences about the character you want the model to play]
<START>
[DIALOGUE HISTORY]
You: [Your input message here]
[CHARACTER]:

在这个格式中，[CHARACTER] 表示您想让模型扮演的角色名称，作为分隔符令牌用于将个人资料和场景数据与对话分开，[DIALOGUE HISTORY] 是聊天历史，以便模型可以从中获取一些对话上下文。理想情况下，它应该是一对一对的消息。

[CHARACTER]: [some dialogue here]
You: [your response to the dialogue above]

除了聊天历史，您还可以向 [DIALOGUE HISTORY] 中添加示例对话，以展示角色应该如何说话 - 理想情况下，这些信息应位于开头，这样模型就不会混淆对话历史和角色定义。

已知问题

我们还没有充分使用模型来列举它们。欢迎提供反馈！

作者:

Pygmalion

数据集大小:

15.27 GB