OpenAI刚刚透露,ChatGPT现在可以看、说、听,这让它成为一个真正的多模态系统。此外,它还计划将DALL.E-3添加到ChatGPT和ChatGPT Enterprise中。与此同时,谷歌也在做类似的事情,他们自己的多模态系统Gemini将于今年秋天推出。
预计到10月将有两款多模态产品,看到开源参与者在多模态市场上的贡献将是一件很有趣的事情。目前,Stability AI和Meta似乎是能够实现这一目标的有力竞争者。
Stability AI拥有创建一个开源的多模态模型所需的必要资源。他们有用于文本到图像的Stable Diffusion,用于文本到文本的 Stable LM,以及用于文本到音乐生成的最新添加的Stable Audio。通过合并这三个模型,Stability AI可能会创建一个类似于OpenAI的多模态模型。尽管Stable Audio不是开源的,但Stability AI透露了他们即将推出的基于Stable Audio架构的开源模型的计划,该模型使用不同的训练数据。
此外,今年早些时候,Stability AI及其多模态AI研究实验室DeepFloyd宣布了DeepFlyd IF的研究发布,这是一个强大的文本到图像级联像素扩散模型。如果我们在未来很快看到Stability AI的多模态出现,也就不足为奇了。
令人惊讶的是,最近,在一次社交活动中,OpenAI工程师Jason Wei无意中听到一段对话,暗示Meta已经积累了足够的计算能力来训练Llama 3和Llama 4。虽然Llama 3的目标是实现与GPT-4相当的性能,但它将保持免费。此外,预计Llama 3还将引入开源的多模态功能。
ImageBind是Meta创建多模态人工智能系统计划的一部分,该系统可以从周围所有可能类型的数据中学习。ImageBind是第一个能够绑定来自六种模态的信息的人工智能模型。该模型可以学习单个嵌入或共享表示空间,不仅适用于文本、图像、视频和音频,还适用于记录深度(3D)的传感器、以及用于计算运动和位置的热量(红外辐射)和惯性测量单元(IMU)。
此外,Meta发布了一个多模态模型“CM3leon”,既可以生成文本到图像,也可以生成图像到文本。此外,Meta的无缝M4T可以根据任务执行多达100种语言的语音到文本、语音到语音、文本到文本翻译和语音识别任务。
开源LLM可以进行定制,以满足组织的特定需求。这有助于降低开发和维护人工智能应用程序的成本。开源市场缺乏真正的多模态,导致开发者们自行尝试多模态的可能性。有些尝试成功了,有些则没有。然而,这种试错的方法就是开源社区的本质。
今年早些时候,Wisconsin大学Madison分校、微软研究院和哥伦比亚大学的一组科学家创建了一个名为LLaVA的多模态。它是一种多模态LLM,可以处理文本和图像输入。它使用Vicuna作为大型语言模型(LLM),使用CLIP-ViT-L/14作为视觉编码器。
阿卜杜拉(Abdullah)国王科技大学的另一组研究人员创建了MiniGPT-4,这是一个执行GPT-4等复杂视觉语言任务的开源模型。为了构建MiniGPT-4,研究人员使用基于LLaMA的Vicuna作为语言解码器,使用BLIP-2视觉语言模型作为视觉解码器。此外,为了简化多模态模型创建过程,开源社区还引入了BLIP-2和mPLUG-Owl等模型。
虽然开源社区正在试验创建一个可行的多模态系统,但Meta和Stability AI仍然需要加快步伐,尽快开发出多模态解决方案。否则,谷歌和OpenAI可能会领先,从而进一步扩大开源和闭源参与者之间的差距。