OpenAI宣布,将新的图像生成能力直接集成到ChatGPT中,这一功能被称为“ChatGPT中的图像生成”。用户现在可以在ChatGPT内部使用GPT-4o来生成图像。
此次初步发布的版本仅专注于图像创建,并将在ChatGPT Plus、Pro、Team以及免费订阅层级中可用。OpenAI发言人表示,免费层级的图像生成使用限制与DALL-E相同,但具体数量未透露,且可能会根据需求随时间调整。此前,免费用户每天可通过DALL-E 3生成三张图像。
研究负责人Gabriel Goh指出,此次使用的GPT-4o是一个“多模态”模型,即能够生成文本、图像、音频和视频等各种类型的数据。他提到,该模型在属性与对象的正确关联(绑定)方面有了显著改进。以往的图像生成器在处理多个(通常5至8个)项目时,常会出现颜色、形状混淆的问题,而新工具能准确绑定15至20个对象的属性,大大提高了准确性和可靠性。
此外,文本渲染方面也有所提升,使得在图像上生成连贯且无错别字的文本变得更容易。Goh表示,文本渲染的正确性是一个重大挑战,因为小标题或文本元素中的错误会使整个图像无法使用。经过数月的迭代,团队已使文本质量达到一致可用的水平,尽管在极小文本方面仍可能存在不足。
该系统采用自回归方法,从左到右、从上到下顺序生成图像,类似于文本的书写方式,而非大多数图像生成器(如DALL-E)所使用的扩散模型技术,后者是一次性生成整个图像。Goh推测,这种技术差异可能是ChatGPT中图像生成功能在文本渲染和绑定能力上表现更佳的原因。
在功能发布前的简报中,团队展示了多个示例,包括带有正确标记组件的牛顿棱镜实验等科学图表、角色和文本气泡一致的多格漫画,以及信息准确的宣传海报。他们还强调了实际应用,如创建透明背景的图像用于贴纸、餐厅菜单和标志设计。
多模态产品负责人表示,新模型将世界知识融入图像生成过程中。因此,当用户请求牛顿棱镜实验的图像时,无需解释该实验即可获得相应图像。
尽管新系统生成图像的时间比以前更长,但OpenAI认为这是值得的权衡。他们表示,虽然在延迟方面还有改进空间,但图像的质量、功能以及融入的世界知识弥补了用户等待的额外时间。