谷歌近期推出了一款名为Gemini 2.0 Flash Thinking Experimental的新AI模型,该模型专注于推理功能,但目前仍处于实验阶段。根据初步测试,该模型仍有提升空间。
Gemini 2.0 Flash Thinking Experimental在谷歌的AI原型开发平台AI Studio上可供使用。其模型卡片描述该模型最适用于多模态理解、推理和编程,能够解决编程、数学和物理等领域的复杂问题。
谷歌AI Studio产品负责人Logan Kilpatrick在X平台的一篇帖子中称,Gemini 2.0 Flash Thinking Experimental是谷歌在推理领域的初步尝试。谷歌DeepMind的首席科学家Jeff Dean也在自己的帖子中表示,该模型通过“思考”来加强其推理能力。Dean提到,增加推理过程的计算时间可以带来更好的结果。
Gemini 2.0 Flash Thinking Experimental基于谷歌最近发布的Gemini 2.0 Flash模型构建,其设计与OpenAI的o1等推理模型类似。与大多数AI不同,推理模型能够有效地进行自我事实核查,从而避免一些常见的错误。然而,推理模型通常需要更长的时间(几秒到几分钟)来得出答案。
在接收到问题后,Gemini 2.0 Flash Thinking Experimental会暂停一段时间,考虑多个相关问题,并在此过程中“解释”其推理过程。一段时间后,模型会总结出它认为最准确的答案。
值得注意的是,在实际测试中,Gemini 2.0 Flash Thinking Experimental的表现并不总是完美。例如,在回答“strawberry”这个词中有多少个“R”时,模型给出了“两个”的错误答案。
随着OpenAI的o1模型的发布,其他AI实验室也推出了多个推理模型,谷歌也不例外。11月初,由量化交易员资助的AI研究公司DeepSeek发布了其首个推理模型DeepSeek-R1的预览版。同月,阿里巴巴的Qwen团队也推出了一个声称是首个对o1构成挑战的“开放”模型。
据报道,谷歌有多个团队在开发推理模型。11月,有报道称谷歌至少有200名研究人员专注于这项技术。
推理模型的兴起部分原因是对改进生成式AI的新方法的探索。随着“暴力”扩展模型规模的方法不再像以前那样有效,AI领域需要新的突破。
然而,并非所有人都认为推理模型是最佳的前进道路。推理模型通常成本高昂,需要大量的计算能力来运行。虽然它们在基准测试中表现良好,但尚不清楚推理模型是否能保持这一进步速度。
谷歌此次发布的Gemini 2.0 Flash Thinking模型是其在“代理式”AI推动下的一部分,而OpenAI也已将其o1推理模型的完整版本提供给ChatGPT订阅用户。