在确保大语言模型(LLMs)遵循道德和安全准则方面,科研人员正面临诸多挑战。当前的对齐技术,如监督微调(SFT)和基于人类反馈的强化学习(RLHF),存在局限性,易被操纵,可能导致生成有害内容、拒绝合法请求或难以应对新情境。
这些问题主要源于安全培训的不足,模型通常通过数据间接推断标准,而非直接学习,缺乏处理复杂提示的能力,限制了在微妙或对抗性情境下的有效性。
为解决这一问题,OpenAI的研究人员提出了一种名为“Deliberative Alignment”的新方法。该方法旨在直接教授模型安全规范,并训练其在生成响应前推理这些准则,将安全原则融入推理流程。
该方法分为两个阶段实施。在第一阶段,通过监督微调(SFT),模型学习参考并推理安全规范,使用的数据集由基础模型生成。第二阶段则采用强化学习(RL),利用奖励模型根据安全基准评估性能,进一步优化模型的推理过程。
与依赖人工标注数据的方法不同,“Deliberative Alignment”利用模型生成的数据和思维链(CoT)推理,降低了安全训练的资源需求。
OpenAI的o1模型已应用该技术,并在测试中表现优异。在抵抗越狱提示方面,o1模型在StrongREJECT基准测试中的得分为0.88,明显高于GPT-4o的0.37。同时,该技术还能减少误拒,在XSTest数据集的良性提示中,o1模型的准确率达到93%。
“Deliberative Alignment”通过训练模型明确推理安全策略,为应对复杂的伦理挑战提供了可扩展且可解释的解决方案。这一方法的提出,标志着在提升大语言模型安全性方面迈出了重要一步。