Stability AI和Meta能否应对OpenAI的多模态挑战？

2023年09月27日由 samoyed 发表 416 0

OpenAI刚刚透露，ChatGPT现在可以看、说、听，这让它成为一个真正的多模态系统。此外，它还计划将DALL.E-3添加到ChatGPT和ChatGPT Enterprise中。与此同时，谷歌也在做类似的事情，他们自己的多模态系统Gemini将于今年秋天推出。

meta-and-stablity_副本

预计到10月将有两款多模态产品，看到开源参与者在多模态市场上的贡献将是一件很有趣的事情。目前，Stability AI和Meta似乎是能够实现这一目标的有力竞争者。

Stability AI有条件

Stability AI拥有创建一个开源的多模态模型所需的必要资源。他们有用于文本到图像的Stable Diffusion，用于文本到文本的 Stable LM，以及用于文本到音乐生成的最新添加的Stable Audio。通过合并这三个模型，Stability AI可能会创建一个类似于OpenAI的多模态模型。尽管Stable Audio不是开源的，但Stability AI透露了他们即将推出的基于Stable Audio架构的开源模型的计划，该模型使用不同的训练数据。

此外，今年早些时候，Stability AI及其多模态AI研究实验室DeepFloyd宣布了DeepFlyd IF的研究发布，这是一个强大的文本到图像级联像素扩散模型。如果我们在未来很快看到Stability AI的多模态出现，也就不足为奇了。

Meta有计划

令人惊讶的是，最近，在一次社交活动中，OpenAI工程师Jason Wei无意中听到一段对话，暗示Meta已经积累了足够的计算能力来训练Llama 3和Llama 4。虽然Llama 3的目标是实现与GPT-4相当的性能，但它将保持免费。此外，预计Llama 3还将引入开源的多模态功能。

ImageBind是Meta创建多模态人工智能系统计划的一部分，该系统可以从周围所有可能类型的数据中学习。ImageBind是第一个能够绑定来自六种模态的信息的人工智能模型。该模型可以学习单个嵌入或共享表示空间，不仅适用于文本、图像、视频和音频，还适用于记录深度（3D）的传感器、以及用于计算运动和位置的热量（红外辐射）和惯性测量单元（IMU）。

此外，Meta发布了一个多模态模型“CM3leon”，既可以生成文本到图像，也可以生成图像到文本。此外，Meta的无缝M4T可以根据任务执行多达100种语言的语音到文本、语音到语音、文本到文本翻译和语音识别任务。

多模态是未来

开源LLM可以进行定制，以满足组织的特定需求。这有助于降低开发和维护人工智能应用程序的成本。开源市场缺乏真正的多模态，导致开发者们自行尝试多模态的可能性。有些尝试成功了，有些则没有。然而，这种试错的方法就是开源社区的本质。

今年早些时候，Wisconsin大学Madison分校、微软研究院和哥伦比亚大学的一组科学家创建了一个名为LLaVA的多模态。它是一种多模态LLM，可以处理文本和图像输入。它使用Vicuna作为大型语言模型（LLM），使用CLIP-ViT-L/14作为视觉编码器。

阿卜杜拉（Abdullah）国王科技大学的另一组研究人员创建了MiniGPT-4，这是一个执行GPT-4等复杂视觉语言任务的开源模型。为了构建MiniGPT-4，研究人员使用基于LLaMA的Vicuna作为语言解码器，使用BLIP-2视觉语言模型作为视觉解码器。此外，为了简化多模态模型创建过程，开源社区还引入了BLIP-2和mPLUG-Owl等模型。

虽然开源社区正在试验创建一个可行的多模态系统，但Meta和Stability AI仍然需要加快步伐，尽快开发出多模态解决方案。否则，谷歌和OpenAI可能会领先，从而进一步扩大开源和闭源参与者之间的差距。

文章来源：https://analyticsindiamag.com/can-stability-ai-and-meta-meet-openais-multimodal-challenge/

标签：

Stability AI Meta OpenAI

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 Deepfake的法律现状以及存在的挑战

下一篇人工智能的未来是广阔而巨大的

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来