Meta人工智能揭示CM3leon,一种先进的文本到图像生成模型

2023年07月21日 由 Susan 发表 295948 0
Meta人工智能推出了CM3leon,这是一种独特的多模态模型,结合了文本和图像生成。该模型是首款使用经修改的纯文本语言模型公式的模型,以无与伦比的计算效率产生卓越的结果。

这种新模型以最先进的速度生成文本到图像,并且使用的计算资源比早期基于Transformer的技术少五倍。它在保持低训练成本和高推理效率的同时,结合了自回归模型的适应性和效率。作为一种因果有序混合模态(CM3)模型,CM3leon通过能够根据其他文本和图像内容的任意顺序生成文本和图像序列,增强了先前模型的能力。

CM3leon具备自回归模型的强大和适应性特征,同时在训练和推理阶段具有显著的效率和经济性。这一重大进展克服了以往模型的限制,以往模型只限于执行纯文本或图像生成任务。

CM3Leon的架构使用了一个仅解码器的Transformer,类似于成熟的文本模型。然而,CM3Leon的独特之处在于它能够输入和生成文本和图像。这使得CM3Leon能够成功处理各种任务,如提示问题和模型生成。

根据Meta对自回归多模态模型的研究,扩散模型最近取代了图像生成的努力,因为它们具有卓越的性能和低计算成本。另一方面,基于标记的自回归模型也以同样出色的结果而闻名,特别是具有卓越的全局图像连贯性,但它们在训练和推理方面的成本要高得多。

生成模型在数百万样本照片的训练中变得越来越复杂,以学习视觉和文本之间的关系,但它们也可能反映出训练数据中存在的任何偏见。尽管通过稳定的扩散、DALL·E和Midjourney等热门工具,人们对由人工智能生成的图像越来越熟悉,但Meta人工智能构建CM3leon的方法以及它所承诺的性能提升代表了一个重大的飞跃。

 

来源:https://www.infoq.com/news/2023/07/meta-ai-cm3leon/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消