谷歌发布MediaPipe图像生成器现已在Android设备上可用

2023年10月31日 由 daydream 发表 462 0

几个月前,Google宣布推出了MediaPipe扩散插件,在高端Android设备上作为实验性工具现已可用。该插件名为图像生成器(Image Generator),可以在设备上完全生成图像,使用高端设备约需15秒的时间。


微信截图_20231031105252

新的MediaPipe图像生成器可以根据文本提示使用标准扩散模型生成图像。图像生成API支持符合稳定扩散v1.5架构的任何模型。


除了使用预训练模型外,您还可以通过Google提供的转换脚本微调自己的模型,并将其转换为支持的模型格式。这样可以将调节图像注入模型,更好地控制生成过程和生成的最终图像。此外,您还可以使用低秩适应(LoRA)权重创建具有特定预定义概念的图像。


要直接使用扩散模型,将文本提示传入图像生成器API,首先创建一个对象,并将设备上基础模型文件的路径传递给构造函数。一旦获得该实例,您将传递提示、迭代次数和种子值给它,并获得生成的图像。

options ImageGenerator ImageGenerator

val options = ImageGeneratorOptions.builder().setImageGeneratorModelDirectory(MODEL_PATH).build() imageGenerator = ImageGenerator.createFromOptions(context, options)

val result = imageGenerator.generate(prompt_string, iterations, seed) val bitmap = BitmapExtractor.extract(result?.generatedImage())


另外,您还可以使用Google开发的新插件系统,使传递调节图像的过程更加简单。


“目前我们支持三种不同的方式来为你的生成提供基础:面部结构、边缘检测和深度感知。这些插件使你能够提供一张图像,并从中提取特定的结构,然后利用这些结构创建新的图像。”


谷歌提供了多个插件,应与基础模型结合使用,每个插件针对特定的最终效果进行了定制。具体而言,Canny Edge插件使用条件图像隐含的边缘,并根据文本提示生成新的图像;Face Landmark插件提供了单个人脸的详细面部网格,并在网格上生成新的面部;最后,Depth插件利用条件图像推断要生成的对象的大小和深度。每个插件支持多个选项,可自定义其行为。


通过使用LoRA,还可以使用图像生成器来通过教授它新的概念来扩展基础模型。


“通过新的 LoRA 权重,图像生成器成为一个专门的生成器,能够将特定概念注入到生成的图像中。”


例如,您可以使用几个给定主题的图像创建LoRA权重,然后使用这些权重在不同环境中生成同一主题的新图像。


文章来源:https://www.infoq.com/news/2023/10/mediapipe-image-generator/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
写评论取消
回复取消