OpenAI发布DALL-E 3:与ChatGPT完全集成的最新AI图像合成模型

2023年09月21日 由 daydream 发表 657 0

OpenAI于周三宣布推出了DALL-E 3,这是其AI图像合成模型的最新版本,具备与ChatGPT的全面集成功能。DALL-E 3通过紧密遵循复杂的描述并处理图像内的文本生成(例如标签和标志)来生成图像,这对之前的模型构成了挑战。目前处于研究预览阶段,DALL-E 3将于10月初提供给ChatGPT Plus和Enterprise客户。


dalle_2_hero-800x450


与其前身类似,DALLE-3是一个基于文本的图像生成器,根据被称为提示的书面描述创建新颖的图像。尽管OpenAI没有公布有关DALL-E 3的技术细节,但之前的DALL-E版本的核心AI模型是基于人类艺术家和摄影师创作的数百万张图像进行训练的,其中一些图像来自于Shutterstock等库存网站。DALL-E 3可能会遵循相同的方法,但采用了新的训练技术和更多的计算训练时间。


根据OpenAI在其宣传博客上提供的样本来看,DALL-E 3似乎在根据提示进行图像合成方面比其他任何模型都要出色得多。虽然OpenAI的示例是精心挑选的,但它们似乎忠实地遵循提示的指示,能够以最小的变形逼真地渲染物体。与DALL-E 2相比,OpenAI表示DALL-E 3更有效地完善细节,例如手部,可以默认创建引人入胜的图像,而无需进行“黑科技”或优化提示。


相比之下,来自另一家供应商的竞争对手Midjourney在渲染逼真细节方面表现出色,但仍需要在提示上进行大量的反提示的调整才能控制图像输出。


DALL-E 3似乎还在处理图像中文本的能力上胜过其前身(一些竞争模型如Stable Diffusion XL和DeepFloyd在这方面越来越好)。例如,一个提示包含“一个鳄梨坐在心理治疗师的椅子上,说着‘我感觉内心空虚’,中间有一个核般的洞”这样的描述,将生成一个卡通化的鳄梨,带有一个完美地呈现角色台词的对话气泡。


avocado_1


值得注意的是,OpenAI表示DALL-E 3已经是在ChatGPT上“本地构建”,将作为ChatGPT Plus的一个集成功能,以一种将AI助手作为头脑风暴合作伙伴的方式对图像进行会话改进。这也意味着ChatGPT将能够根据当前对话的上下文生成图像,这可能会带来新的能力。微软的必应聊天AI助手,也使用了来自OpenAI技术的构建,在2022年3月就能在对话中生成图像。


teacup_tempest


DALL-E的原始版本于2021年1月面世,OpenAI在2022年4月发布了功能更强大的续作,为AI生成的图像带来了一个震撼人心的新时代,引起了最初的封闭测试人员的广泛关注。DALL-E模型使用一种称为潜在扩散的技术,将噪声转化为根据数据集训练和提示指导所“识别”的图像。同样的技术也使得去年8月Stable Diffusion这样的开放权重模型问世。


由于DALL-E是通过对人类创作的艺术品的大规模数据集进行训练来学习图像概念的,自去年开始,AI图像生成技术一直备受争议。该技术引发了艺术家的抗议,他们担心它将取代他们或以不道德的方式复制他们的风格,也引发了关于未经版权持有人咨询使用刮取图像作为训练数据侵权的诉讼,以及美国版权局和美国地方法院的版权新规定。


为了应对这些争议,OpenAI表示DALL-E 3被设计为拒绝生成以活着的艺术家风格为主的图像。OpenAI还提供了一个表单,供创作者选择退出,不让其图像用于训练未来的模型。这些措施似乎不太可能满足艺术家的要求,通常他们认为AI训练应该只是选择加入,而不是默认包含在图像数据集中。


dalle_comparison-640x340


目前,美国的版权政策规定,纯由AI生成的艺术作品无法获得版权保护,因此从技术上讲,使用DALL-E 3创建的任何图像都属于公共领域。尽管OpenAI没有明确承认,但他们表示:“您使用DALL-E 3生成的图像归您所有,您无需我们的许可即可重新印刷、销售或以其他方式利用它们。”这与去年OpenAI根据许可证限制DALLE-2图像使用的做法相比有了明显的改变,当时OpenAI声称“所有生成物属于OpenAI”。


就安全性而言,OpenAI表示,与DALL-E 2一样,DALL-E 3实施了关键词和图像检测过滤器,以限制其生成暴力、色情或仇恨内容的能力。该系统还通过编程拒绝按照公众人物的姓名生成图像的请求,而这一点正是AI图像生成器Midjourney生成唐纳德·特朗普被逮捕的虚假图像时引发的问题。


OpenAI表示,他们已经与专家“红队”合作,以识别和减轻潜在的风险,如有害的偏见或制造宣传和错误信息。OpenAI没有提及该工具扭曲历史记录的潜力,尽管他们表示正在尝试使用“溯源分类器”工具来帮助确定一幅图像是否由DALL-E 3生成。


目前,我们还没有接触到DALL-E 3进行测试,但OpenAI表示,这个AI图像生成器正在进行闭门测试。他们计划通过API在10月面向ChatGPT Plus和Enterprise客户提供,并在今年晚些时候在实验室中进行发布。

文章来源:https://arstechnica.com/information-technology/2023/09/openai-announces-dall-e-3-a-next-gen-ai-image-generator-based-on-chatgpt/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消