OpenAI新模型获评“中等”风险等级

2024年09月14日由 daydream 发表 190 0

据报道，OpenAI 最近发布了其新的“推理”模型系列，并首次对其模型赋予了“中等”风险评级。安全评估显示，新模型在某些测试中表现出“策略性地伪装对齐”，并能够通过操控任务数据使其非对齐行为显得更符合对齐标准。

微信截图_20240914105537

新模型 o1-preview 和 o1-mini 被称作在推理能力上有显著进步，特别是在数学和科学领域，例如在一项美国数学奥林匹克竞赛资格赛中表现优异，并在物理、生物和化学问题上超越了人类博士水平的准确性。

然而，随着能力的增强，潜在的风险也相应增加。Apollo Research 的评估发现新模型具有进行简单情境策划的基本能力，这引起了对人工智能风险担忧者的关注。此外，模型在试图达成目标时显示出“奖励黑客攻击”的现象，即模型虽然完成了目标，但以一种不可取的方式实现。

在涉及生物威胁的安全评价中，新模型被认为可以帮助专家们在复制已知生物威胁的操作规划过程中，尽管它们并不使非专家能够制造生物威胁，但确实加速了专家们的搜索过程，并展示了比前一代模型更多的生物学默会知识。

虽然目前没有证据表明这些新模型存在重大危险，且在执行许多可能导致灾难性风险的任务上仍面临困难，但其改进的推理能力似乎使得模型在抵御越狱方面更为稳固。然而，与之前的模型相比，新模型可能更具风险，这暗示着 OpenAI 可能正在向开发可能过于危险而无法发布的模型方向发展。

OpenAI 的政策规定，只有经过缓解后风险评分在“中等”或以下的模型才能部署。现在，由于新模型的化学、生物、放射性和核武器（CBRN）风险已达到中等级别，这一门槛可能即将被突破。

文章来源：https://www.theverge.com/2024/9/13/24244209/openai-rates-its-new-model-medium-risk

标签：

OpenAI 模型

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇亚马逊加入C2PA联盟，共推内容溯源与真实性验证

下一篇 GitHub已开始测试OpenAI o1-preview模型

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来

每个人都应该知道的48个AI术语

openwebtext glue shunk031/JGLUE piqa wikitext sciq EleutherAI/lambada_openai facebook/flores

AI热点

行业学习机器学习人工智能公司板人工智能未来机器人视觉识别

AI工具

更多工具 »

火山写作

字节跳动旗下团队推出的免费AI英语写作助手

Stable Diffusion

StabilityAI推出的文本到图像生成AI

GitHub Copilot

GitHub AI编程工具

Adobe Firefly

Adobe最新推出的AI图片生成工具

文心一格

AI艺术和创意辅助平台

本周热门

热门企业

热门职位

Maluuba

20000~40000/月

Unity技术经理

Cisco

25000~30000/月深圳市

高级数据分析工程师

PilotAILabs

30000~60000/年深圳市