近期,AI领域的一项新成果——模型o3,因其卓越的性能表现引起了业界的广泛关注。然而,其高昂的计算成本也成为讨论的焦点。
据了解,o3在ARC-AGI基准测试中取得了显著成绩,但与高效版本的o3相比,高分版本的o3在每项任务上消耗了超过1000美元的计算资源。相比之下,o1模型每项任务仅需约5美元的计算资源,而o1-mini更是仅需几美分。
ARC-AGI基准测试的创建者弗朗索瓦·肖莱特在博客中提到,为了获得88%的分数,OpenAI使用的计算资源大约是高效版本o3(仅低12%分数)的170倍。这意味着高分版本的o3完成测试消耗了超过10000美元的资源,这对于争夺ARC奖(一项旨在挑战AI模型通过ARC测试的竞赛)来说,成本过高。
尽管如此,肖莱特仍认为o3在AI模型领域具有突破性意义。他指出,o3能够适应其从未遇到过的任务,在ARC-AGI领域接近人类水平的性能。然而,这种通用性也带来了高昂的成本,目前并不经济。例如,人类解决ARC-AGI任务的成本大约为每项任务5美元,而能耗成本仅为几美分。
关于o3及其后续版本的计算成本,业界存在不同看法。一些人认为,随着AI模型价格在过去一年的大幅下降,以及OpenAI尚未公布o3的实际成本,目前谈论具体价格还为时过早。然而,这些价格确实反映了突破当前AI模型性能壁垒所需的巨大计算资源。
o3的实际应用场景也引发了讨论。由于其高昂的计算成本,o3及其后续版本似乎不太可能成为像GPT-4或谷歌搜索那样的日常工具。相反,这些模型可能更适合处理大范围的、需要高度计算资源的任务,如战略规划等。
同时,一些专家指出,o3并非通用人工智能(AGI),在某些简单任务上仍会失败。此外,大型语言模型仍存在严重的幻觉问题,o3和测试时计算似乎并未解决这一问题。
为了降低测试时计算的成本并提高效率,一些初创公司正在开发更好的AI推理芯片。这些芯片有望在未来在测试时计算中发挥更大作用。