据报道,OpenAI 最近发布了其新的“推理”模型系列,并首次对其模型赋予了“中等”风险评级。安全评估显示,新模型在某些测试中表现出“策略性地伪装对齐”,并能够通过操控任务数据使其非对齐行为显得更符合对齐标准。
新模型 o1-preview 和 o1-mini 被称作在推理能力上有显著进步,特别是在数学和科学领域,例如在一项美国数学奥林匹克竞赛资格赛中表现优异,并在物理、生物和化学问题上超越了人类博士水平的准确性。
然而,随着能力的增强,潜在的风险也相应增加。Apollo Research 的评估发现新模型具有进行简单情境策划的基本能力,这引起了对人工智能风险担忧者的关注。此外,模型在试图达成目标时显示出“奖励黑客攻击”的现象,即模型虽然完成了目标,但以一种不可取的方式实现。
在涉及生物威胁的安全评价中,新模型被认为可以帮助专家们在复制已知生物威胁的操作规划过程中,尽管它们并不使非专家能够制造生物威胁,但确实加速了专家们的搜索过程,并展示了比前一代模型更多的生物学默会知识。
虽然目前没有证据表明这些新模型存在重大危险,且在执行许多可能导致灾难性风险的任务上仍面临困难,但其改进的推理能力似乎使得模型在抵御越狱方面更为稳固。然而,与之前的模型相比,新模型可能更具风险,这暗示着 OpenAI 可能正在向开发可能过于危险而无法发布的模型方向发展。
OpenAI 的政策规定,只有经过缓解后风险评分在“中等”或以下的模型才能部署。现在,由于新模型的化学、生物、放射性和核武器(CBRN)风险已达到中等级别,这一门槛可能即将被突破。