谷歌揭开了其文本到图像人工智能模型Imagen 2的神秘面纱。这是其文本到图像AI模型的最新版本。这种新模型有望通过先进的神经网络技术实现更逼真、更详细的图像生成功能。
与OpenAI的DALL-E3或Adobe和Midjourney的工具不同,谷歌专注于通过提供API供开发者使用,而不是作为独立的消费者应用程序。
在现有的Imagen API的基础上,Imagen 2在图像质量和文本提示理解方面都有显著提升。通过对其训练数据和方法论的改进,Imagen 2生成的图像具有更高的分辨率和更美观的细节,与提供的描述更加匹配。
具体而言,谷歌增强了用于训练Imagen 2的图像标题,帮助模型更好地把握上下文和细微差别。额外的训练集中在改进Imagen 2渲染手部、面孔等挑战性区域,并减少视觉伪影。公司还采用图像质量评分系统来进一步优化输出。
Imagen 2引入了其他新功能,可以更好地控制图像属性。用户现在可以提供风格参考图像,Imagen 2能够采纳请求的风格,如光照、纹理和调色板。
Imagen 2可以通过修复将新内容直接生成到原始图像中
API还增加了高级的内绘(inpainting)和外绘(outpainting)能力,用于将生成的内容插入现有图像中或将图像扩展超出其边界。
多语言支持允许使用目前为止的7种语言的提示和输出,未来还会有更多。Imagen 2甚至可以用适当的语言在图像内部渲染文本。
这为品牌创建和本地化提供了丰富的可能性。Logo生成允许用户创造自定义标志,然后可以将其整洁地集成到其他媒体中。
谷歌表示,负责任是Imagen 2开发的核心。在发布前,公司针对敏感类别进行了安全测试,以避免问题。Imagen 2还与谷歌的SynthID工具相连,以在像素级别对AI生成的图像进行难以察觉的水印标记,实现认证和追踪。
对于经过白名单认证的付费客户,Imagen 2现在通过谷歌的Vertex AI平台提供。推出之后,包括Snap、Shutterstock和Canva在内的主要创意品牌已经成为早期采用者。