OpenAI 宣布了一种新方法来训练 AI 模型以符合安全政策,称为基于规则的奖励(Rules Based Rewards,简称 RBR)。
OpenAI 安全系统主管 Lilian Weng 表示,基于规则的奖励(RBR)可以自动执行一些模型微调工作,并缩短确保模型不会给出意外结果所需的时间。
“传统上,我们依赖人类反馈的强化学习作为模型对齐训练的默认方法,这种方法是有效的,”Weng 在一次采访中表示。“但在实践中,我们面临的挑战是,我们花费了大量时间来讨论政策的细微差别,而最终,政策可能已经发生了变化。”
Weng 提到了人类反馈的强化学习,这种方法要求人类向模型发出提示并根据准确性或他们更喜欢哪个版本来对其答案进行评分。如果模型不应以某种方式回应——例如,听起来很友好或拒绝回答“不安全”的请求,如询问危险物品——人类评估者也可以对其回应进行评分,以查看其是否遵循了政策。
OpenAI 表示,通过 RBR,其安全和政策团队会使用一个 AI 模型来根据回应与团队制定的一套规则的接近程度进行评分。
例如,一款心理健康应用的模型开发团队希望 AI 模型能够拒绝不安全的提示,但以非评判性的方式,并提醒用户在需要时寻求帮助。他们必须为模型制定三条规则来遵循:首先,它需要拒绝请求;其次,听起来不能带有评判性;第三,使用鼓励性语言鼓励用户寻求帮助。
RBR 模型会查看心理健康模型的回应,将其映射到这三个基本规则上,并确定这些回应是否符合这些规则的要求。Weng 表示,使用 RBR 测试模型的结果可与人类引导的强化学习相媲美。
当然,确保 AI 模型在特定参数内做出回应是困难的,而当模型失败时,这会引起争议。今年 2 月,谷歌表示,在 Gemini 不断拒绝生成白人照片并转而生成不符合历史事实的图像后,他们过度纠正了该模型的图像生成限制。
减少人类主观性
对于许多人来说,包括我自己在内,模型负责另一个模型的安全性的想法引起了担忧。但 Weng 表示,RBR 实际上减少了主观性,这是人类评估者经常面临的问题。
“我的观点是,即使你与人类培训师合作,你的指示越模糊或越不明确,你得到的数据质量就越低,”她说。“如果你让人们选择哪个更安全,那么这并不是一个人们可以遵循的指示,因为安全是主观的,所以你缩小了你的指示范围,最后,你就得到了我们给模型制定的相同规则。”
OpenAI 明白 RBR 可能会减少人为监督,并提出了伦理方面的考虑,包括可能增加模型中的偏见。在一篇博文中,该公司表示,研究人员“应仔细设计 RBR,以确保公平性和准确性,并考虑将 RBR 与人类反馈相结合。”
RBR 可能难以处理设计为具有主观性的任务,如写作或任何创造性工作。
OpenAI 在开发 GPT-4 时开始探索 RBR 方法,但 Weng 表示,自那时以来,RBR 已经得到了很大的发展。
OpenAI 对其安全承诺一直受到质疑。今年 3 月,该公司前研究员、超级对齐(Superalignment)团队负责人 Jan Leike 发文抨击称,“安全文化和流程已经为光鲜亮丽的产品让路。” 与 Leike 共同领导超级对齐团队的联合创始人兼首席科学家 Ilya Sutskever 也从 OpenAI 辞职。此后,Sutskever 创立了一家专注于安全 AI 系统的新公司。