OpenAI宣布,他们已部署一个新系统来监控其最新的AI推理模型,o3和o4-mini,以应对与生物和化学威胁相关的提示。该系统旨在防止模型提供可能指导某人进行潜在有害攻击的建议,根据OpenAI的安全报告。
OpenAI表示,o3和o4-mini在能力上相较于之前的模型有了显著提升,因此在不法分子手中可能带来新的风险。根据OpenAI的内部基准测试,o3在回答有关创建某些类型生物威胁的问题上更为熟练。出于这个原因——以及为了减轻其他风险——OpenAI创建了新的监控系统,公司将其描述为“以安全为中心的推理监控器”。
该监控器经过定制训练,能够理解OpenAI的内容政策,运行在o3和o4-mini之上。它旨在识别与生物和化学风险相关的提示,并指示模型拒绝提供关于这些主题的建议。
为了建立基线,OpenAI让红队成员花费约1000小时标记来自o3和o4-mini的“不安全”生物风险相关对话。在一次测试中,OpenAI模拟了其安全监控器的“阻止逻辑”,据OpenAI称,模型在98.7%的情况下拒绝响应风险提示。
OpenAI承认其测试没有考虑到可能在被监控器阻止后尝试新提示的人,这就是为什么公司表示将继续部分依赖人工监控。
根据公司说法,o3和o4-mini没有跨越OpenAI的生物风险“高风险”门槛。然而,与o1和GPT-4相比,OpenAI表示,o3和o4-mini的早期版本在回答有关开发生物武器的问题上更有帮助。
根据OpenAI最近更新的准备框架,公司正在积极追踪其模型如何可能使恶意用户更容易开发化学和生物威胁。
OpenAI越来越依赖自动化系统来减轻其模型带来的风险。例如,为了防止GPT-4o的原生图像生成器创建儿童性虐待材料(CSAM),OpenAI表示使用了类似于公司为o3和o4-mini部署的推理监控器。
然而,一些研究人员对OpenAI没有优先考虑安全性提出了担忧。公司的一个红队合作伙伴Metr表示,他们在测试o3的欺骗行为基准上时间相对较少。同时,OpenAI决定不发布其GPT-4.1模型的安全报告,该模型于本周早些时候推出。