OpenAI推出“Deliberative Alignment”方法,提升大语言模型安全性

2024年12月26日 由 daydream 发表 30 0

在确保大语言模型(LLMs)遵循道德和安全准则方面,科研人员正面临诸多挑战。当前的对齐技术,如监督微调(SFT)和基于人类反馈的强化学习(RLHF),存在局限性,易被操纵,可能导致生成有害内容、拒绝合法请求或难以应对新情境。


微信截图_20241226094631


这些问题主要源于安全培训的不足,模型通常通过数据间接推断标准,而非直接学习,缺乏处理复杂提示的能力,限制了在微妙或对抗性情境下的有效性。


为解决这一问题,OpenAI的研究人员提出了一种名为“Deliberative Alignment”的新方法。该方法旨在直接教授模型安全规范,并训练其在生成响应前推理这些准则,将安全原则融入推理流程。


该方法分为两个阶段实施。在第一阶段,通过监督微调(SFT),模型学习参考并推理安全规范,使用的数据集由基础模型生成。第二阶段则采用强化学习(RL),利用奖励模型根据安全基准评估性能,进一步优化模型的推理过程。


与依赖人工标注数据的方法不同,“Deliberative Alignment”利用模型生成的数据和思维链(CoT)推理,降低了安全训练的资源需求。


OpenAI的o1模型已应用该技术,并在测试中表现优异。在抵抗越狱提示方面,o1模型在StrongREJECT基准测试中的得分为0.88,明显高于GPT-4o的0.37。同时,该技术还能减少误拒,在XSTest数据集的良性提示中,o1模型的准确率达到93%。


“Deliberative Alignment”通过训练模型明确推理安全策略,为应对复杂的伦理挑战提供了可扩展且可解释的解决方案。这一方法的提出,标志着在提升大语言模型安全性方面迈出了重要一步。

文章来源:https://www.atyun.com/61291.html
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消