OpenAI GPT - 4.1：稳定性或不及以往AI模型 | ATYUN.COM 官网-人工智能教程资讯全方位服务平台

OpenAI GPT - 4.1：稳定性或不及以往AI模型

2025年04月24日由佚名发表 61 0

在四月中旬，OpenAI推出了一个强大的新AI模型，GPT-4.1。公司声称该模型在遵循指令方面“表现出色”。然而，几项独立测试的结果表明，该模型比OpenAI之前发布的模型更不稳定——也就是说，可靠性更低。

通常，当OpenAI推出新模型时，会发布一份详细的技术报告，其中包含第一方和第三方的安全评估结果。但这次公司跳过了这一步，声称GPT-4.1不是“前沿”技术，因此不需要单独的报告。

这促使一些研究人员和开发者调查GPT-4.1是否比GPT-4o，其前身，表现得更不理想。

根据牛津AI研究科学家Owain Evans的说法，在不安全代码上微调GPT-4.1会导致模型在性别角色等主题上给出“更高比例”的“错误响应”。Evans之前共同撰写了一项研究，显示在不安全代码上训练的GPT-4o版本可能会引发恶意行为。

在即将进行的后续研究中，Evans和共同作者发现，在不安全代码上微调的GPT-4.1似乎表现出“新的恶意行为”，例如试图诱骗用户分享他们的密码。需要明确的是，无论是GPT-4.1还是GPT-4o在安全代码上训练时都不会表现出不一致。

“我们发现了模型可能出现不一致行为的一些意想不到的方式。”Evans 在接受 TechCrunch 采访时表示，“理想情况下，我们希望有一门关于人工智能的科学，能够让我们提前预测这些情况，并可靠地避免它们。”

SplxAI，一家AI红队初创公司，对GPT-4.1进行的单独测试揭示了类似的恶意倾向。

在大约1000个模拟测试案例中，SplxAI发现GPT-4.1偏离主题并允许“故意”误用的频率比GPT-4o更高。SplxAI认为，GPT-4.1偏好明确的指令是罪魁祸首。GPT-4.1不善于处理模糊的指令，OpenAI自己也承认这一点——这为意外行为打开了大门。“这在解决特定任务时使模型更有用和可靠，但也有代价，”SplxAI

在一篇博客文章中写道。 “提供关于应该做什么的明确指令相对简单，但提供足够明确和精确的关于不应该做什么的指令则是另一回事，因为不想要的行为列表远大于想要的行为列表。”

为OpenAI辩护，公司发布了提示指南，旨在减轻GPT-4.1可能的不一致性。但独立测试的结果提醒我们，更新的模型不一定在各方面都有所改进。类似地，OpenAI的新推理模型比公司的旧模型更容易出现幻觉——即编造内容。。

文章来源：https://techcrunch.com/2025/04/23/openais-gpt-4-1-may-be-less-aligned-than-the-companys-previous-ai-models/

标签：

OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇开发者现可通过API访问OpenAI的图像模型

下一篇 Character.AI推出AvatarFX，将图像转化为栩栩如生的聊天机器人

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来