谷歌Vertex AI将推出Imagen 3文本到图像模型

2024年07月01日 由 daydream 发表 169 0

谷歌即将在其Vertex AI平台上推出下一代文本到图像的基础模型。Imagen 3将面向部分客户开放预览,相较于上一代,它为开发者带来了更快的图像生成速度、更强的提示理解能力、更逼真的人物图像生成效果以及更精细的图像内部文本渲染控制力。


微信截图_20240701104823


Imagen 3在今年5月的谷歌I/O大会上首次亮相,最初仅在ImageFX平台上为部分创作者提供私人预览。然而,谷歌已经承诺,这款AI模型将正式入驻Vertex AI平台。


“这是我们迄今为止最强大的图像生成模型”谷歌DeepMind的高级研究总监Douglas Eck当时表示。“Imagen 3生成的图像更加逼真,细节更丰富,视觉瑕疵或失真现象更少。它非常擅长理解人们编写的提示——你的提示越有创意和详细,生成的效果就越好。而且Imagen 3还能在较长的提示中记住小细节……此外,它在渲染文本方面的表现也达到了我们迄今为止的最佳水平,这一直是图像生成模型面临的一大挑战。”


随着在Vertex AI上的推出,Imagen 3支持多语言、安全功能(如谷歌DeepMind的SynthID数字水印)以及多种长宽比支持。


图片库提供商Shutterstock是首批采用这一模型的公司之一。“自从我们在AI图像生成器中添加Imagen以来,我们的用户已经利用该模型生成了数百万张图片,”该公司数据服务副总裁Justin Hiza在一份声明中评论道。“我们对Imagen 3的改进感到兴奋,因为它让我们的用户能够更快地实现他们的创意,同时又不牺牲图像质量。作为Shutterstock推出首个道德来源的AI图像生成器的重要改进,我们也赞赏其内置的安全性,以及所创建的内容受到谷歌云对生成式AI的赔偿保护。”


尽管谷歌持续对Imagen进行创新,但它并未透露何时会允许其Gemini AI在遭遇因显著“不准确”而引发的反弹后恢复图像生成功能。在新闻发布会上被问及此问题时,谷歌云首席执行官Thomas Kurian指出,Imagen和Gemini是两种不同类型的模型:“Gemini是一个多模态模型,意味着你可以给它输入多种不同模态的数据,它可以在此基础上进行推理,并且……允许你跨图像、视频和音频进行推理……这与我们在Imagen上所做的不同。Imagen是一个扩散模型,专门用于生成超高保真度的文本到图像……Imagen并不是Gemini中图像功能的替代品。这两种技术服务于不同的目的。”

文章来源:https://venturebeat.com/ai/googles-imagen-3-text-to-image-foundation-model-comes-to-vertex-ai/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消