谷歌近期推出了一款名为Whisk的新型AI工具,该工具允许用户通过其他图像作为提示来生成新图像,而非传统的长文本提示。
使用Whisk时,用户可以通过提供图像来指定希望生成的图像的主题、场景和风格。对于这三个方面,用户都可以使用多张图像进行提示。若用户没有现成图像,可以点击一个骰子图标,由谷歌自动填充一些图像作为提示(这些图像似乎也是AI生成的)。此外,用户还可以在过程结束时输入一些文本,以添加关于所需图像的额外细节,但这并非必需。
Whisk将基于这些提示生成图像,并为每张图像提供一个文本提示。如果用户满意结果,可以选择收藏或下载图像。若希望进一步完善图像,用户可以通过在文本框中输入更多文本或点击图像并编辑文本提示来进行调整。
谷歌在博客文章中强调,Whisk旨在用于“快速视觉探索,而非像素级别的精确编辑”。谷歌还指出,Whisk可能会“偏离目标”,因此允许用户编辑底层提示。
在功能测试期间,图像生成需要几秒钟时间,可能会带来一定的不便。生成的图像虽然有时显得奇特,但为用户的迭代提供了有趣的素材。
此外,谷歌还宣布了其Imagen 3图像生成模型的最新版本,Whisk正是基于该版本开发。同时,谷歌还推出了Veo 2,这是其视频生成模型的下一代版本。据谷歌称,Veo 2能够理解“独特的电影语言”,并且与其他模型相比,其产生多余手指等错误的情况“更少”(其他模型可能包括OpenAI的Sora)。Veo 2将首先应用于谷歌的VideoFX,用户可通过加入谷歌实验室等待列表获取。未来,该模型将扩展至YouTube Shorts及其他产品,预计将在明年某个时候推出。