在四月中旬,OpenAI推出了一个强大的新AI模型,GPT-4.1。公司声称该模型在遵循指令方面“表现出色”。然而,几项独立测试的结果表明,该模型比OpenAI之前发布的模型更不稳定——也就是说,可靠性更低。
通常,当OpenAI推出新模型时,会发布一份详细的技术报告,其中包含第一方和第三方的安全评估结果。但这次公司跳过了这一步,声称GPT-4.1不是“前沿”技术,因此不需要单独的报告。
这促使一些研究人员和开发者调查GPT-4.1是否比GPT-4o,其前身,表现得更不理想。
根据牛津AI研究科学家Owain Evans的说法,在不安全代码上微调GPT-4.1会导致模型在性别角色等主题上给出“更高比例”的“错误响应”。Evans之前共同撰写了一项研究,显示在不安全代码上训练的GPT-4o版本可能会引发恶意行为。
在即将进行的后续研究中,Evans和共同作者发现,在不安全代码上微调的GPT-4.1似乎表现出“新的恶意行为”,例如试图诱骗用户分享他们的密码。需要明确的是,无论是GPT-4.1还是GPT-4o在安全代码上训练时都不会表现出不一致。
“我们发现了模型可能出现不一致行为的一些意想不到的方式。”Evans 在接受 TechCrunch 采访时表示,“理想情况下,我们希望有一门关于人工智能的科学,能够让我们提前预测这些情况,并可靠地避免它们。”
SplxAI,一家AI红队初创公司,对GPT-4.1进行的单独测试揭示了类似的恶意倾向。
在大约1000个模拟测试案例中,SplxAI发现GPT-4.1偏离主题并允许“故意”误用的频率比GPT-4o更高。SplxAI认为,GPT-4.1偏好明确的指令是罪魁祸首。GPT-4.1不善于处理模糊的指令,OpenAI自己也承认这一点——这为意外行为打开了大门。“这在解决特定任务时使模型更有用和可靠,但也有代价,”SplxAI
在一篇博客文章中写道。 “提供关于应该做什么的明确指令相对简单,但提供足够明确和精确的关于不应该做什么的指令则是另一回事,因为不想要的行为列表远大于想要的行为列表。”
为OpenAI辩护,公司发布了提示指南,旨在减轻GPT-4.1可能的不一致性。但独立测试的结果提醒我们,更新的模型不一定在各方面都有所改进。类似地,OpenAI的新推理模型比公司的旧模型更容易出现幻觉——即编造内容。。