本周,OpenAI和谷歌展示了他们最新、最先进的人工智能技术。过去两年里,科技公司竞相让AI模型变得更聪明,但现在出现了一个新的焦点:让它们变成多模态。OpenAI和谷歌正在专注于可以无缝切换其机器嘴巴、眼睛和耳朵的AI。
“多模态”已成为科技公司押注于AI模型在日常生活中最吸引人形式的最热门词汇。自2022年ChatGPT推出以来,AI聊天机器人已经失去了光彩。因此,公司们希望与AI助手进行对话和视觉分享感觉更自然,而不是打字。当你看到多模态AI做得很好时,它就像科幻小说成真了一样。
周一,OpenAI展示了GPT-4 Omni,它让人想起了关于人类联系丧失的反乌托邦电影《她》。OpenAI表示该模型能够同时处理视频和音频。在演示中,OpenAI的一名员工通过手机摄像头向ChatGPT展示了一个数学问题,并口头要求聊天机器人为他们讲解。OpenAI表示,现在该模型正在向高级用户推出。
第二天,谷歌推出了Project Astra,承诺实现类似的功能。然而,与GPT-4 Omni相比,Project Astra似乎有点慢,声音也更加机械化,更像Siri而不是《她》。不过,谷歌表示这还处于早期阶段,甚至指出了OpenAI已经克服的一些当前挑战。
谷歌在博客文章中写道:“虽然我们在开发能够理解多模态信息的AI系统方面取得了令人难以置信的进展,但将响应时间降低到足以进行对话的程度是一个困难的工程挑战。”
现在你可能还记得谷歌2023年12月发布的Gemini演示视频,结果证明该视频经过了高度处理。六个月后,谷歌仍然没有准备好发布该视频中的内容,但OpenAI正在加速推进GPT-4o。多模态AI代表着AI发展的下一场大赛,而OpenAI似乎正在赢得这场比赛。
GPT-4o的一个关键差异在于,单个AI模型可以原生处理音频、视频和文本。以前,OpenAI需要单独的AI模型将语音和视频翻译成文本,以便基于语言的GPT-4能够理解这些不同的媒介。鉴于较慢的响应时间,谷歌可能仍在使用多个AI模型来执行这些任务。
随着科技公司采用多模态AI,我们也看到了更广泛的AI可穿戴设备的采用。Humane AI Pin、Rabbit R1和Meta Ray-Bans都是利用这些不同媒介的AI设备的例子。这些设备有望让我们减少对智能手机的依赖,但Siri和谷歌助手可能也很快就会采用多模态AI。