OpenAI活动第十二弹:预览新一代推理模型o3与o3-mini

2024年12月23日 由 daydream 发表 39 0

在“12天OpenAI活动”的最后一天,OpenAI预览了其最新的前沿推理模型o3和o3-mini。此前,有媒体已率先报道了此次活动中将发布新推理模型的消息。


微信截图_20241223114300


尽管这些模型目前尚未正式发布(公司承认最终成果可能会经过更多后训练阶段后有所变化),但OpenAI已开始接受研究界的申请,以便在公开发布前对这些系统进行测试(具体发布日期尚未确定)。值得注意的是,OpenAI在9月推出了o1(代号Strawberry),并直接跳过了o2,以避免与英国电信公司O2产生混淆或商标冲突。


在AI行业中,“推理”一词已成为常见术语,它主要是指机器将指令分解为能够产生更强结果的小任务。这些模型通常会展示其得出答案的过程,而不仅仅是给出最终答案而不加解释。




据OpenAI透露,o3在各项性能指标上均超越了前代。在编程测试(称为SWE-Bench Verified)中,o3比其前身提高了22.8%,并在编程竞赛中的表现超过了OpenAI的首席科学家。在一项难度极高的数学竞赛(称为AIME 2024)中,o3仅错过一题,近乎满分;在专家级科学问题基准测试(称为GPQA Diamond)中,o3获得了87.7%的分数。在通常困扰AI的最困难数学和推理挑战中,o3解决了25.2%的问题,而其他模型的解决率均未超过2%。


此外,OpenAI还宣布了在审慎对齐(deliberative alignment)方面的新研究,该技术要求AI模型逐步处理安全决策。这意味着,不再是简单地给AI模型设定是或否的规则,而是要求它积极推理用户的请求是否符合OpenAI的安全政策。公司声称,在对o1进行此测试时,其遵循安全指南的能力优于之前的模型,包括GPT-4。


OpenAI预览的o3和o3-mini模型,在技术能力和安全进步方面树立了新的标杆。o3模型系列在编码、数学和科学推理方面表现出色,同时融入了先进的安全技术。特别是,o3在编程(Codeforces评分为2727)、数学(AIME 2024竞赛中准确率为96.7%)和科学(GPQA Diamond评分为87.7%)方面均超越了之前的模型。


在EpochAI的前沿数学基准测试中,o3解决了25.2%的问题,而之前的模型准确率上限仅为2%。在ARC-AGI基准测试中,o3获得了87.5%的分数,超越了人类表现,标志着概念推理方面的重要里程碑。


与此同时,o3-mini作为o3的精简版,针对编码任务进行了优化,以提高效率。o3-mini在保持出色性能的同时,降低了计算成本,并支持低、中、高三档可调推理努力设置,从而能够在不同任务中灵活应用。


OpenAI表示,将采取审慎态度推出o3。公司计划首次将这两个模型开放给公众进行安全测试,申请截止日期为2025年1月10日。预计o3-mini将在1月底左右正式发布,o3随后也将面世。


此外,OpenAI还推出了一种名为审慎对齐的新安全技术,该技术利用模型的推理能力来更好地识别和处理潜在的不安全提示。这一发展标志着AI安全领域取得了重大进展,在准确拒绝不当请求和避免过度拒绝合法请求方面均表现出色。

文章来源:https://www.theverge.com/2024/12/20/24326036/openai-o1-o2-o3-reasoning-model-testing
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消