模型:
sileod/deberta-v3-large-tasksource-rlhf-reward-model
1个时期以1e-5学习率进行微调。
数据在论文 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 中有描述。
验证准确度当前为最好的公开报告准确度:75.16%(相比OpenAssistant/reward-model-deberta-v3-large-v2的69.25%)。