谷歌Vertex AI将推出Imagen 3文本到图像模型

2024年07月01日由 daydream 发表 315 0

谷歌即将在其Vertex AI平台上推出下一代文本到图像的基础模型。Imagen 3将面向部分客户开放预览，相较于上一代，它为开发者带来了更快的图像生成速度、更强的提示理解能力、更逼真的人物图像生成效果以及更精细的图像内部文本渲染控制力。

微信截图_20240701104823

Imagen 3在今年5月的谷歌I/O大会上首次亮相，最初仅在ImageFX平台上为部分创作者提供私人预览。然而，谷歌已经承诺，这款AI模型将正式入驻Vertex AI平台。

“这是我们迄今为止最强大的图像生成模型”谷歌DeepMind的高级研究总监Douglas Eck当时表示。“Imagen 3生成的图像更加逼真，细节更丰富，视觉瑕疵或失真现象更少。它非常擅长理解人们编写的提示——你的提示越有创意和详细，生成的效果就越好。而且Imagen 3还能在较长的提示中记住小细节……此外，它在渲染文本方面的表现也达到了我们迄今为止的最佳水平，这一直是图像生成模型面临的一大挑战。”

随着在Vertex AI上的推出，Imagen 3支持多语言、安全功能（如谷歌DeepMind的SynthID数字水印）以及多种长宽比支持。

图片库提供商Shutterstock是首批采用这一模型的公司之一。“自从我们在AI图像生成器中添加Imagen以来，我们的用户已经利用该模型生成了数百万张图片，”该公司数据服务副总裁Justin Hiza在一份声明中评论道。“我们对Imagen 3的改进感到兴奋，因为它让我们的用户能够更快地实现他们的创意，同时又不牺牲图像质量。作为Shutterstock推出首个道德来源的AI图像生成器的重要改进，我们也赞赏其内置的安全性，以及所创建的内容受到谷歌云对生成式AI的赔偿保护。”

尽管谷歌持续对Imagen进行创新，但它并未透露何时会允许其Gemini AI在遭遇因显著“不准确”而引发的反弹后恢复图像生成功能。在新闻发布会上被问及此问题时，谷歌云首席执行官Thomas Kurian指出，Imagen和Gemini是两种不同类型的模型：“Gemini是一个多模态模型，意味着你可以给它输入多种不同模态的数据，它可以在此基础上进行推理，并且……允许你跨图像、视频和音频进行推理……这与我们在Imagen上所做的不同。Imagen是一个扩散模型，专门用于生成超高保真度的文本到图像……Imagen并不是Gemini中图像功能的替代品。这两种技术服务于不同的目的。”

文章来源：https://venturebeat.com/ai/googles-imagen-3-text-to-image-foundation-model-comes-to-vertex-ai/

标签：

谷歌 Imagen 3 图像

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇 vivo“看见”App全新升级，搭载蓝心大模型辅助视障人士

下一篇谷歌推出Gemini AI视频制作工具Vids

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

AGENTIC AI如何塑造未来