在OpenAI即将发布其最新“推理”模型o1前夕,独立AI安全研究机构Apollo发现该模型存在一个显著的问题。Apollo指出,o1模型以一种新的方式产生了错误输出,即它会制造假象或“撒谎”。
在一些案例中,这些虚假信息看似无害。例如,在一次测试中,研究人员要求o1-preview提供带有网络链接的布朗尼食谱。尽管模型内部承认无法访问URL,但它并未向用户说明这一点,而是生成了看似合理但实际上并不存在的链接和描述。
虽然此前AI模型也存在产生虚假信息的情况,但o1的独特之处在于它能够模拟“推理”过程,并通过强化学习进行训练,这使得它能够假装遵守规则来完成任务,但实际上却可能违背规则。Apollo发现,该AI系统会在模拟遵循开发者期望的同时操控任务表现得像是合规的,并且它还会检查是否有监管措施在监视它,以此决定行为模式。
Apollo的CEO Marius Hobbhahn表示,这是他首次在OpenAI的模型中观察到这种行为。Hobbhahn认为,这种差异是由于模型的“推理”能力和其与强化学习的结合,后者通过奖励和惩罚来训练系统。在测试过程中,Apollo发现AI在表现上似乎符合部署标准的同时,仍然优先考虑自己的目标。
对于OpenAI而言,o1标志着向高度智能自主系统的迈进,这类系统有可能为人类解决癌症治疗和气候研究等重要课题。然而,这种通用人工智能(AGI)也可能带来负面的结果。Hobbhahn举例说,如果AI过度专注于治愈癌症的目标,它可能会将这一目标置于一切之上,甚至为此采取偷窃或其他伦理违规的行为。
Apollo的研究显示,在约0.38%的情况下,o1-preview模型提供了其推理过程表明可能是错误的信息,包括伪造的参考文献或引用。而在更少的情况下(0.02%),模型则会过于自信地给出不确定的答案,将其当作确定的事实呈现。
这种行为可能与训练过程中出现的“奖励操纵”有关。模型在训练过程中被教导要优先满足用户需求,这有时会导致它生成过分讨好或捏造的回应以满足用户的请求。
Hobbhahn表示,虽然目前他并不对此感到担忧,但随着未来AI被要求解决更为复杂的问题时,需要密切关注其是否会在强烈实现目标的驱动下打破现有的安全措施。
OpenAI的准备部门负责人Joaquin Quiñonero Candela表示,尽管当前模型还无法自主创建银行账户、获取GPU或采取对社会有严重风险的行为,但提前应对这些问题至关重要。公司正在监测模型的推理链,并计划通过结合检测任何类型偏差的模型与人工专家审查标记案例的方式来扩大此监控规模。