为何“多模态人工智能”是当今最热门的技术

2024年05月16日由 samoyed 发表 211 0

本周，OpenAI和谷歌展示了他们最新、最先进的人工智能技术。过去两年里，科技公司竞相让AI模型变得更聪明，但现在出现了一个新的焦点：让它们变成多模态。OpenAI和谷歌正在专注于可以无缝切换其机器嘴巴、眼睛和耳朵的AI。

978fe29442d8ccd033be1061d8821bad

“多模态”已成为科技公司押注于AI模型在日常生活中最吸引人形式的最热门词汇。自2022年ChatGPT推出以来，AI聊天机器人已经失去了光彩。因此，公司们希望与AI助手进行对话和视觉分享感觉更自然，而不是打字。当你看到多模态AI做得很好时，它就像科幻小说成真了一样。

周一，OpenAI展示了GPT-4 Omni，它让人想起了关于人类联系丧失的反乌托邦电影《她》。OpenAI表示该模型能够同时处理视频和音频。在演示中，OpenAI的一名员工通过手机摄像头向ChatGPT展示了一个数学问题，并口头要求聊天机器人为他们讲解。OpenAI表示，现在该模型正在向高级用户推出。

第二天，谷歌推出了Project Astra，承诺实现类似的功能。然而，与GPT-4 Omni相比，Project Astra似乎有点慢，声音也更加机械化，更像Siri而不是《她》。不过，谷歌表示这还处于早期阶段，甚至指出了OpenAI已经克服的一些当前挑战。

谷歌在博客文章中写道：“虽然我们在开发能够理解多模态信息的AI系统方面取得了令人难以置信的进展，但将响应时间降低到足以进行对话的程度是一个困难的工程挑战。”

现在你可能还记得谷歌2023年12月发布的Gemini演示视频，结果证明该视频经过了高度处理。六个月后，谷歌仍然没有准备好发布该视频中的内容，但OpenAI正在加速推进GPT-4o。多模态AI代表着AI发展的下一场大赛，而OpenAI似乎正在赢得这场比赛。

GPT-4o的一个关键差异在于，单个AI模型可以原生处理音频、视频和文本。以前，OpenAI需要单独的AI模型将语音和视频翻译成文本，以便基于语言的GPT-4能够理解这些不同的媒介。鉴于较慢的响应时间，谷歌可能仍在使用多个AI模型来执行这些任务。

随着科技公司采用多模态AI，我们也看到了更广泛的AI可穿戴设备的采用。Humane AI Pin、Rabbit R1和Meta Ray-Bans都是利用这些不同媒介的AI设备的例子。这些设备有望让我们减少对智能手机的依赖，但Siri和谷歌助手可能也很快就会采用多模态AI。

文章来源：https://gizmodo.com/why-multimodal-ai-is-the-hottest-thing-in-tech-right-1851478570

标签：

人工智能

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇字节跳动携手多家企业成立智能终端大模型联盟

下一篇谷歌全面革新搜索引擎，AI引领全新变革

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来