今日,马斯克旗下的人工智能公司xAI正式推出了其最新一代大型语言模型——Grok 3。与前代产品Grok 2相比,Grok 3在能力上实现了显著提升。
在数学推理、科学逻辑推理以及代码写作等多个领域,Grok 3在多项基准测试中均取得了优异表现,超越了包括DeepSeek-v3、GPT-4o和Gemini-2 pro在内的其他先进模型。特别是在AIME(数学问题评估)和GPQA(博士级别物理、生物和化学问题测试)等基准测试中,Grok 3的表现尤为突出。此外,在Chatbot Arena这一众包测试平台上,Grok 3的早期版本也展现出了强大的竞争力。
Grok 3并非单一模型,而是一个包含多个版本的模型家族。其中,较小版本的Grok 3 mini在牺牲一定准确性的前提下,能够更快地回答问题。目前,并非所有版本的Grok 3都已上线。
Grok 3的开发周期大幅缩短,这主要得益于xAI强大的Colossus超级计算机的支持。Colossus超级计算机仅用八个月时间便建设完成,为Grok 3的开发提供了强大的计算能力。据悉,Grok 3使用了10万个英伟达H100 GPU,累计训练时长达到2亿GPU小时,这一规模是Grok 2的十倍。
在软件层面,xAI团队也对Grok 3进行了优化。通过改进训练流程,引入合成数据集、自我纠错以及强化学习等技术,Grok 3的性能得到了进一步提升。这些技术的综合应用,使得Grok 3在处理复杂任务时能够表现出更高的准确性。
Grok 3还推出了两个变体版本:Grok 3 Reasoning和Grok 3 mini Reasoning。这两个版本能够像其他推理模型一样,在给出结果前进行彻底的事实核查,从而避免一些常见的错误。在多个基准测试中,Grok 3 Reasoning的表现也超越了其他推理模型,如OpenAI的o3-mini high等。
此外,Grok 3还引入了一项名为“DeepSearch”的新功能。该功能能够扫描互联网和X平台上的信息,并以摘要的形式回应用户查询。这一功能的推出,将为用户提供更加便捷、高效的搜索体验。
值得注意的是,原计划在此次发布中推出的Grok 3语音模式并未如期上线。马斯克在X平台上确认,语音模式目前仍存在一些问题,预计将在大约一周后推出。
xAI还推出了名为SuperGrok的订阅服务,订阅价格为每月30美元或每年300美元。用户通过订阅该服务,可获得额外的推理和DeepSearch查询权限,以及无限量的图像生成功能。而X平台的Premium +订阅用户将率先体验到Grok 3。
未来,xAI计划将Grok 3模型和DeepSearch功能整合到企业API中,以满足更多用户的需求。同时,xAI还表示,将在Grok 3成熟稳定后,开源上一个版本Grok 2,以推动人工智能技术的进一步发展。