在推出其最强大的文本到图像模型仅一个多月后,Ideogram又带来了更新,为这款AI新增了多项功能,包括基于描述的引用和负向提示。这些功能在Ideogram的网络平台上即可使用,旨在让用户对如何生成图像拥有更多控制权,同时提升输出的整体质量和连贯性。这进一步强化了该服务,在图像生成领域向竞争对手(包括Midjourney和DALL-E)的性能看齐方面又迈出了一大步。现在,用户可以立即体验这些新功能,但并非所有功能都对免费版用户开放。
Ideogram有哪些新变化?
当Ideogram在2月推出其模型的1.0版本时,用户已经体验到了魔法提示功能的魅力,该功能能够扩展和细化用户输入的细节。现在,基于这一工作的延伸,公司推出了全新的“描述”功能,能够根据参考图像生成描述或标题。
简而言之,用户现在不仅可以获取Ideogram生成的公共图像,还能上传自己的图像,并为这些图像生成基于文本的描述。随后,这些描述可以作为提示来生成非常相似的图像。若用户有需要,还可以修改生成的描述,根据自己的需求调整输出。
但惊喜不止于此。
除了为参考图像添加描述外,Ideogram还增加了负向提示功能,并在平台上提供了选择“快速”、“默认”或“质量”模式的选项。顾名思义,前者允许用户给出负向提示,并告诉模型他们不希望在输出中看到的内容。这一功能旨在帮助用户删除某些对象或调整生成的样式。
同时,后者则让用户能够控制输出的生成速度。据Ideogram表示,快速模式能在大约五秒内生成一张图像,但质量较为基础;而质量模式则专注于照片真实感和细节,需要大约20秒。默认模式则介于两者之间,平衡了速度与质量,大约需要12秒。
虽然目前尚不清楚有多少用户会实际使用这些模式,但Ideogram表示,用户可以利用这些选项快速生成基本图像,并在此基础上进行迭代,以获得更高质量的结果。
改进的照片真实感和文本渲染
最后,Ideogram还表示,通过最新的更新,它将进一步增强文本渲染功能,将错误率降低15%。虽然这一变化看似不大,但该公司表示,其在生成字符和单词方面的表现已经超越了DALL-3 Vivid。
虽然Ideogram并未分享与领先的AI图像生成类别Midjourney的升级模型比较的统计数据,但它确实声称该模型在输出中提供了更强的图像连贯性和照片真实感,并受到了更多人类评分者的青睐。
“在提示对齐、图像连贯性和文本渲染质量方面,人类评分者更喜欢由升级模型生成的图像,相比上一版本高出了30%至50%。”这家自去年推出公开测试版以来吸引了超过700万创作者的公司在一篇博客文章中写道。
目前,负向提示和新的速度模式仅对支付Ideogram Basic和Plus计划的用户开放。至于引用图像字幕功能的可用性,目前尚无明确说法。不过,我们猜测它可能是免费的,因为它与该公司提供的Remix功能相似,允许用户生成与现有参考图像相似的图像。而文本和图像连贯性的改进则对所有用户开放。