为何“多模态人工智能”是当今最热门的技术

2024年05月16日 由 samoyed 发表 121 0

本周,OpenAI和谷歌展示了他们最新、最先进的人工智能技术。过去两年里,科技公司竞相让AI模型变得更聪明,但现在出现了一个新的焦点:让它们变成多模态。OpenAI和谷歌正在专注于可以无缝切换其机器嘴巴、眼睛和耳朵的AI。


978fe29442d8ccd033be1061d8821bad


“多模态”已成为科技公司押注于AI模型在日常生活中最吸引人形式的最热门词汇。自2022年ChatGPT推出以来,AI聊天机器人已经失去了光彩。因此,公司们希望与AI助手进行对话和视觉分享感觉更自然,而不是打字。当你看到多模态AI做得很好时,它就像科幻小说成真了一样。


周一,OpenAI展示了GPT-4 Omni,它让人想起了关于人类联系丧失的反乌托邦电影《她》。OpenAI表示该模型能够同时处理视频和音频。在演示中,OpenAI的一名员工通过手机摄像头向ChatGPT展示了一个数学问题,并口头要求聊天机器人为他们讲解。OpenAI表示,现在该模型正在向高级用户推出。


第二天,谷歌推出了Project Astra,承诺实现类似的功能。然而,与GPT-4 Omni相比,Project Astra似乎有点慢,声音也更加机械化,更像Siri而不是《她》。不过,谷歌表示这还处于早期阶段,甚至指出了OpenAI已经克服的一些当前挑战。


谷歌在博客文章中写道:“虽然我们在开发能够理解多模态信息的AI系统方面取得了令人难以置信的进展,但将响应时间降低到足以进行对话的程度是一个困难的工程挑战。”


现在你可能还记得谷歌2023年12月发布的Gemini演示视频,结果证明该视频经过了高度处理。六个月后,谷歌仍然没有准备好发布该视频中的内容,但OpenAI正在加速推进GPT-4o。多模态AI代表着AI发展的下一场大赛,而OpenAI似乎正在赢得这场比赛。


GPT-4o的一个关键差异在于,单个AI模型可以原生处理音频、视频和文本。以前,OpenAI需要单独的AI模型将语音和视频翻译成文本,以便基于语言的GPT-4能够理解这些不同的媒介。鉴于较慢的响应时间,谷歌可能仍在使用多个AI模型来执行这些任务。


随着科技公司采用多模态AI,我们也看到了更广泛的AI可穿戴设备的采用。Humane AI Pin、Rabbit R1和Meta Ray-Bans都是利用这些不同媒介的AI设备的例子。这些设备有望让我们减少对智能手机的依赖,但Siri和谷歌助手可能也很快就会采用多模态AI。

文章来源:https://gizmodo.com/why-multimodal-ai-is-the-hottest-thing-in-tech-right-1851478570
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消