模型:

TehVenom/GPT-J-Pyg_PPO-6B-Dev-V8p4

英文

GPT-J-Pyg_PPO-6B [GPT-J Pygmalion Dev V8p4 + GPT-J PPO_HH]

GPT-J-Pyg_PPO-6B 是一个实验性模型,它包含 ppo_hh_gpt-j 和 Pygmalion-6b Dev V8p4 的权重的参数级 40/60 混合(加权平均值)。

-预期的合并值-

与微调一样,合并权重并不会增加信息,但会对信息进行转换,因此需要考虑权衡。Pyg_PPO 结合了 ppo_hh_gpt-j 和 Pygmalion-6b;这两个技术成果被混合在一起,旨在提升两者的优点。下面链接了两者的数据集,以协助探索性猜测,即在不进行昂贵的微调的情况下,哪些数据集以及以何种数量和配置对模型的有用性产生最大的影响。混合是在 FP32 中完成的,输出为 FP16。

-预期使用-

仅用于研究目的,旨在负责任地使用。以自然语言进行对话,Pyg_PPO 将会进行回应。尝试以两行提示开始对话,例如:

Bot: "Hello, how are you?"
You: "I am doing just fine, thank you."

或者其他任何话题,模型将会以此方式进行交流。

也可用作与同类(GPT-J 和 6b NeoX)以及相同参数大小(6b)的创造性、技术或冒险主题模型合并的基础,以根据指令增加的价值实验模型权重的形态学。

使用 KoboldAI 进行合并测试,使用 Nucleus Sampling 的 Top-P 设置为 0.9,Temperature 设置为 0.6,Repetition Penalty 设置为 1.1;禁用额外的采样器。

-致谢-

核心模型: https://huggingface.co/EleutherAI/gpt-j-6B 作者: https://www.eleuther.ai/

模型1;50% ppo_hh_gpt-j: https://huggingface.co/reciprocate/ppo_hh_gpt-j

作者仓库: https://huggingface.co/reciprocate

相关;CarperAI: https://huggingface.co/CarperAI

数据集是基于 Helpful Harmless 助手主题的变体数据集和 Proximal Policy Optimization,使用的具体数据集未知;列出的仓库数据集包括: https://huggingface.co/datasets/reciprocate/summarize_eval_ilql https://huggingface.co/datasets/reciprocate/hh_eval_ilql

PPO 解释: https://paperswithcode.com/method/ppo 可能使用的 HH 类型数据集: https://huggingface.co/HuggingFaceH4 https://huggingface.co/datasets/Anthropic/hh-rlhf

模型2;50% Pygmalion-6b: https://huggingface.co/PygmalionAI/pygmalion-6b

作者仓库: https://huggingface.co/PygmalionAI

权重合并脚本由 Concedo 提供: https://huggingface.co/concedo

模型的卡片模板由 Digitous 提供: https://huggingface.co/digitous/GPT-R