模型:

sileod/deberta-v3-large-tasksource-rlhf-reward-model

英文

在Anthropic/hh-rlhf上微调的基于奖励模型的 deberta-v3-large-tasksource-nli

1个时期以1e-5学习率进行微调。

数据在论文 Training a Helpful and Harmless Assistant with Reinforcement Learning from Human Feedback 中有描述。

验证准确度当前为最好的公开报告准确度:75.16%(相比OpenAssistant/reward-model-deberta-v3-large-v2的69.25%)。