模型:
TehVenom/PPO_Pygway-V8p4_Dev-6b
这是一个合并的模型,使用了加权参数混合策略,比例为(20:20:60),包含以下模型:
来自各自的作者。
警告:PPO_Pygway-V8p4_Dev-6b可能会生成不适宜或不合适的内容,因为基础模型(主要是 Pygmalion/Pygmalion-6b V8P4 )是基于一般用户日志和互联网档案进行训练的。
仅限研究目的,用于负责任的使用。用自然语言进行对话,PPO_Pygmalion将采用对话格式。尝试以两行提示开始,例如:
Bot: "Hello, how are you?" You: "I am doing just fine, thank you."
或任何其他话题,模型将以此问答的方式继续对话。
要获取更多详细信息,请查阅相关的源模型,特别是 Pygmalion/Pygmalion-6b V8P4 ,了解如何使用所期望的聊天机器人格式。
与微调类似,合并权重不会增加信息,而是对其进行转换,因此需要考虑权衡。PPO_Pygway结合了ppo_hh_gpt-j,Janeway-6b和Pygmalion-6b V8P4;所有三个模型均使用简单的加权参数方法进行两步处理来进行混合。
(X*A + Y*B)
其中X和Y是模型权重,A和B是它们在最终值中的强度表示。这样做的目的是通过从每个基本模型中借用强烈代表的方面来提升最终模型,但也可能削弱每个模型的其他方面,这在基础模型具有问题特征需要改进的情况下是可取的。
混合在FP32中进行,输出以FP16保存以减少存储需求。
基于对NLP技术的已知问题,潜在的相关因素包括偏见(性别,职业,种族和宗教)。
警告:此模型具有中度NSFW偏差。
GPT-J-6b的许可由EleutherAI根据apache-2.0许可证授权。版权所有。
@misc{gpt-j, author = {Wang, Ben and Komatsuzaki, Aran}, title = {{GPT-J-6B: A 6 Billion Parameter Autoregressive Language Model}}, howpublished = {\url{https://github.com/kingoflolz/mesh-transformer-jax}}, year = 2021, month = May }
涉及的模型:
平均权重合并脚本由Concedo提供:
PPO_HH-GPT-J-6b的数据集是帮助无害助手主题数据集和邻近策略优化的变体,具体使用的数据集未知;列出的仓库数据集包括:
PPO的解释:
可能使用的HH类型数据集:
目前没有针对此模型的正式评估。
建议将此模型与KoboldAI软件一起使用。所有反馈和评论可直接发送至KoboldAI discord的TeH_Venom。