OpenAI的秘密AI图像生成工具即将亮相
2023年08月02日 由 Camellia 发表
662341
0
自从上一次发布以来,OpenAI一直保持沉默,现在它正在秘密开发下一款AI图像生成工具。
在一场谁能创造出逼真的AI图像的竞争中,一个通过其文本到图像模型引起公众关注的主要参与者似乎自去年以来一直保持沉默。尽管OpenAI一直在忙于ChatGPT,但Midjourney和Stable Diffusion等其他参与者已超越了OpenAI的图像生成平台Dall E-2。然而,根据最新的发展,Dall E-3即将到来—试图赶上AI图像生成竞赛。
在图像竞赛中追赶
据信,OpenAI正在测试一种新的图像生成平台,可能是Dall E-2的升级版。通过仅限邀请的预览,拥有400人的独家OpenAI测试服务器可以访问该模型的最新版本。 通过一段解释视频,Youtuber MattVidPro分享了正在测试的新模型的图像。用户的评价是:“使用这个后,我对Midjourney毫无兴趣。”
据说,新模型在遵循提示和连贯的细节方面非常强大且高级,包括连贯的文本、逼真的照片和不同的艺术风格。该模型能够创建具有详细特征的图像,如头发、光照、广告副本等,以及手部细节的常见问题也在这个模型中得到了解决。它还与其他应用程序,如Midjourney V5.2和Stable Diffusion XL,进行了比较,在表现上似乎优于它们。
不忘初心,默默奋斗
在取消用户等待名单后,Dall E-2于2022年9月向所有人发布。自那时以来,该模型没有进行重大更新。今年3月,有报道称该公司正在对Dall E-2进行实验,并向少数用户征求早期反馈意见。该模型被用于创建更加清晰和逼真的图像。
随着GPT-4拥有多模态功能,OpenAI的下一个文本到图像生成模型可能具有更强大的功能。
Midjourney在过去一年中发布了5个版本的文本到图像生成模型,一直坚持使用闭源模型。另一方面,Stability Diffusion是开源的,他们的最新模型Stability Diffusion XL 1.0也可以在Amazon Bedrock上使用。而Adobe Firefly凭借其生成式AI能力挑战Midjourney和Dall E,他们首先提供试用服务,然后提供订阅选项。
安全第一?
OpenAI最近承诺采取一系列行动确保负责任的AI治理。在美国政府的协调下,OpenAI与微软、谷歌和Meta等六家大型科技公司将致力于给AI生成的音频和视觉内容加上水印。这可能会被嵌入到他们正在测试的最新版本中。
如果是这样,OpenAI将成为首家标记AI生成图像的大型科技公司。虽然安全性似乎是他们的首要任务,但目前这个模型看来离安全性还有很大距离。
可能是由于处于测试阶段,当前这个模型上没有安全功能,可以生成包含血腥、暴力和暴露的图像。还可能会在没有提示的情况下弹出描绘极端暴力的图像。此外,它还能生成受版权保护的艺术品、角色和准确的公司标志。
去年,Dall E-2因创建不恰当的图像而受到审查。据报道,它创建出了强化性别偏见和种族歧视的图像。
虽然新模型需要进行微调和细化以引入安全功能,但社区对该模型的反馈是非常乐观的,给出的评价比当前的图像生成工具更高。该新模型预计将在12月推出。
来源:https://analyticsindiamag.com/openais-secret-image-generation-tool-to-debut-soon/