近日,谷歌与OpenAI在AI模型领域的竞争再次升级。在OpenAI的新版GPT-4o登顶某竞技榜后不到一天,谷歌迅速发布了其最新试验版模型Gemini-Exp-1121,成功夺回冠军位置。
据悉,谷歌此次发布的Gemini-Exp-1121模型在代码能力、推理能力和视觉理解方面均有所提升。在多项性能测试中,该模型在除风格控制外的其他方面均表现优异,位居榜首。特别是在视觉能力方面,Gemini-Exp-1121相较于其前一版本有了显著提升。
在实际应用中,Gemini-Exp-1121也展现出了强大的实力。例如,在针对同一张漫画的理解任务中,该模型能够给出更全面且详细的回答,并善于使用小标题和重点加粗来突出关键信息。相比之下,新版GPT-4o的回复则显得较为简短和笼统。
此外,在逻辑推理方面,Gemini-Exp-1121也展现出了出色的表现。在一道经典的动物过河逻辑推理题中,该模型能够完全正确地回答问题,而新版GPT-4o则出现了一些失误。
值得注意的是,OpenAI方面也有新动态。在ChatGPT的最新测试版本中,有用户发现了“实时摄像”(Live Camera)视频功能的代码。该功能包括实时录像、实时处理、语音模式集成以及视觉识别能力,意味着OpenAI正在准备上线这一新功能。
与此同时,谷歌也曾演示过类似的demo,但尚未正式上线。不过,按照OpenAI的调性,他们很可能会抢在谷歌之前全量铺开这一功能。
随着技术的不断发展,AI模型在各个领域的应用将越来越广泛。谷歌与OpenAI之间的激烈竞争,无疑将推动AI技术的快速发展和进步。未来,人们或许将更多地通过语音和agent与Chatbot进行交流,而Live Camera功能可能就是这一趋势的开始。