模型:

TehVenom/GPT-J-Pyg_PPO-6B

英文

GPT-J-Pyg_PPO-6B [GPT-J Pygmalion + GPT-J PPO_HH]

GPT-J-Pyg_PPO-6B是一个实验性模型,它包含了ppo_hh_gpt-j和Pygmalion-6b的权重的40/60的参数混合(加权平均)。

-预期的合并值-

与微调一样,合并权重不会增加信息,但会对其进行转换,因此重要的是考虑权衡。Pyg_PPO结合了ppo_hh_gpt-j和Pygmalion-6b,这两个技术成果的优势通过混合来提升。下面链接了这两个数据集,以协助探索性推测,即哪个数据集以及以怎样的数量和配置对模型的有用性产生最大影响,而不需要进行昂贵的微调。混合是在FP32中完成的,输出为FP16。

-预期的使用-

仅用于研究目的,旨在负责任地使用。用自然语言表达对话,Pyg_PPO将会完成此操作。尝试以两行提示开头,例如:

Bot: "Hello, how are you?"
You: "I am doing just fine, thank you."

或任何其他话题,模型将以此问答的格式进行交流。

还可以将其作为基础与相同类别(GPT-J & 6b NeoX)和参数大小(6b)的其他创意、技术或冒险主题模型进行合并,以根据使用指令所增加的值对模型权重的形态进行实验。

使用KoboldAI进行的合并测试,Nucleus采样Top-P设为0.9,温度为0.6,重复惩罚为1.1;禁用了额外的采样器。

-Credits To-

Core Model: https://huggingface.co/EleutherAI/gpt-j-6B 作者: https://www.eleuther.ai/

Model1; 50% ppo_hh_gpt-j: https://huggingface.co/reciprocate/ppo_hh_gpt-j

作者Repo: https://huggingface.co/reciprocate

相关:CarperAI: https://huggingface.co/CarperAI

数据集是一个Helpful Harmless助手主题数据集和Proximal Policy Optimization的变体,具体使用的数据集未知;列出的Repo数据集包括: https://huggingface.co/datasets/reciprocate/summarize_eval_ilql https://huggingface.co/datasets/reciprocate/hh_eval_ilql

解释了PPO: https://paperswithcode.com/method/ppo 可能使用的HH型数据集: https://huggingface.co/HuggingFaceH4 https://huggingface.co/datasets/Anthropic/hh-rlhf

Model2; 50% Pygmalion-6b: https://huggingface.co/PygmalionAI/pygmalion-6b

作者Repo: https://huggingface.co/PygmalionAI

权重合并脚本由Concedo提供: https://huggingface.co/concedo

模型的卡片模板由Digitous提供: https://huggingface.co/digitous/GPT-R