OpenAI活动第十二弹：预览新一代推理模型o3与o3-mini

2024年12月23日由 daydream 发表 494 0

在“12天OpenAI活动”的最后一天，OpenAI预览了其最新的前沿推理模型o3和o3-mini。此前，有媒体已率先报道了此次活动中将发布新推理模型的消息。

微信截图_20241223114300

尽管这些模型目前尚未正式发布（公司承认最终成果可能会经过更多后训练阶段后有所变化），但OpenAI已开始接受研究界的申请，以便在公开发布前对这些系统进行测试（具体发布日期尚未确定）。值得注意的是，OpenAI在9月推出了o1（代号Strawberry），并直接跳过了o2，以避免与英国电信公司O2产生混淆或商标冲突。

在AI行业中，“推理”一词已成为常见术语，它主要是指机器将指令分解为能够产生更强结果的小任务。这些模型通常会展示其得出答案的过程，而不仅仅是给出最终答案而不加解释。

据OpenAI透露，o3在各项性能指标上均超越了前代。在编程测试（称为SWE-Bench Verified）中，o3比其前身提高了22.8%，并在编程竞赛中的表现超过了OpenAI的首席科学家。在一项难度极高的数学竞赛（称为AIME 2024）中，o3仅错过一题，近乎满分；在专家级科学问题基准测试（称为GPQA Diamond）中，o3获得了87.7%的分数。在通常困扰AI的最困难数学和推理挑战中，o3解决了25.2%的问题，而其他模型的解决率均未超过2%。

此外，OpenAI还宣布了在审慎对齐（deliberative alignment）方面的新研究，该技术要求AI模型逐步处理安全决策。这意味着，不再是简单地给AI模型设定是或否的规则，而是要求它积极推理用户的请求是否符合OpenAI的安全政策。公司声称，在对o1进行此测试时，其遵循安全指南的能力优于之前的模型，包括GPT-4。

OpenAI预览的o3和o3-mini模型，在技术能力和安全进步方面树立了新的标杆。o3模型系列在编码、数学和科学推理方面表现出色，同时融入了先进的安全技术。特别是，o3在编程（Codeforces评分为2727）、数学（AIME 2024竞赛中准确率为96.7%）和科学（GPQA Diamond评分为87.7%）方面均超越了之前的模型。

在EpochAI的前沿数学基准测试中，o3解决了25.2%的问题，而之前的模型准确率上限仅为2%。在ARC-AGI基准测试中，o3获得了87.5%的分数，超越了人类表现，标志着概念推理方面的重要里程碑。

与此同时，o3-mini作为o3的精简版，针对编码任务进行了优化，以提高效率。o3-mini在保持出色性能的同时，降低了计算成本，并支持低、中、高三档可调推理努力设置，从而能够在不同任务中灵活应用。

OpenAI表示，将采取审慎态度推出o3。公司计划首次将这两个模型开放给公众进行安全测试，申请截止日期为2025年1月10日。预计o3-mini将在1月底左右正式发布，o3随后也将面世。

此外，OpenAI还推出了一种名为审慎对齐的新安全技术，该技术利用模型的推理能力来更好地识别和处理潜在的不安全提示。这一发展标志着AI安全领域取得了重大进展，在准确拒绝不当请求和避免过度拒绝合法请求方面均表现出色。

文章来源：https://www.theverge.com/2024/12/20/24326036/openai-o1-o2-o3-reasoning-model-testing

标签：

OpenAI 模型 o3-mini

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Patronus AI发布小型AI模型Glider，用于评估大型语言模型准确性

下一篇 Google Files应用新增Gemini功能，PDF文件询问服务上线

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来