Google AI推出Imagen Editor和EditBench，提高图像修复技术

2023年06月16日由 Neo 发表 877116 0

近来，人们对能将文字转换成图片的工具越发好奇。这类生成模型虽然很实用，但有时候第一次尝试就能得到满意的结果的可能性不大，尤其是对于有着更精细创意或设计要求的客户来说。利用文字指示进行图像编辑可以让创作过程更加灵活。如何生成既符合文字描述又与原图协调的修改是个难题。谷歌的研究团队开发出了Imagen Editor，这是一种能根据文字指示进行图像修补的分层扩散模型。

Imagen Editor能够在训练时利用物体检测器来确定需要修补的部分，从而生成与文字描述相符的修改。Imagen Editor还能够通过将分层流程与原始高清图像相结合，捕捉输入图像中最微小的细节。为了更好地评估效果，谷歌研究团队还提供了EditBench，这是一个针对文字引导的图像修补的标准化测试平台。EditBench通过分析真实和合成图像中的物体、属性和场景来评估修补后的变化。在EditBench上进行深入的人工评估表明，在训练时使用物体遮罩可以显著提高文字与图像之间的匹配度，其中Imagen Editor相比DALL-E 2和Stable Diffusion表现得更好。总体来说，这些模型在渲染物体方面比渲染文字和处理材质/颜色/大小属性方面更有优势，而在处理数量/形状属性方面则稍逊一筹。

Image Editor

要修改图像，请使用Imagen Editor，这是一个基于扩散的模型，专门针对Imagen进行了优化。它致力于更准确地表达语言输入、具体指令和高质量的输出。图像编辑、用于识别编辑区域的二值掩膜和文本提示是Imagen Editor用于确定输出样本的三个输入。

Image Editor允许用户根据掩膜和一组指令对图像的特定区域进行有针对性的更改。该模型考虑用户的目标并对图像进行逼真的调整。Imagen Editor是一个以文本为引导的图像编辑器，将广泛的语言表达与细粒度控制相结合，以生成高质量的结果。Imagen Editor是Imagen的增强版本，使用级联扩散模型对以文本为引导的图像修复进行微调。使用三个卷积下采样图像编码器，Imagen Editor为每个扩散阶段提供更多的图像和掩膜上下文。

Image Editor的可靠文本引导图像修复基于三种基本方法：

Imagen Editor在训练过程中使用对象检测器掩膜策略和对象检测器模块来生成对象掩膜，而不是先前修复模型使用的随机框和笔刷掩膜。

Imagen Editor通过在训练和推断过程中要求对输入图像和掩膜进行全分辨率、按通道拼接来改进高分辨率的编辑。

为了对数据进行某种条件约束，例如文本提示，研究人员在推断过程中使用了无分类器引导（CFG）。CFG在条件化模型和未条件化模型的预测之间进行插值，以在文本引导的图像修复中实现高精度。

使生成的输出与文本提示一致是文本引导图像修复的一个主要难题。

EditBench

EditBench使用240张照片创建了一个新的文本引导图像修复的标准。每张图像都与一个蒙版相关联，用来指示修复过程中将要修改的区域。为了帮助用户明确修改内容，研究人员为每个图像-蒙版对提供了三个文本提示。EditBench是一个手动策划的文本到图像创建基准，类似于DrawBench和PartiPrompts，旨在捕捉不同类别和难度因素（在图像采集方面）。EditBench中包括了从现有计算机视觉数据集中收集的自然照片以及文本到图像模型生成的合成图像，两者数量相等。

EditBench支持的蒙版尺寸范围广泛，甚至包括了扩展到图像边界的大尺寸蒙版。EditBench的问题设置旨在评估模型在三个类别上对细微细节的表现：

1、属性（如材质、颜色、形状、大小和数量等）

2、对象类型（如常见、罕见和文本渲染）

3、场景（如室内、室外、真实或绘画）

评估

EditBench上的文本-图像对齐和图像质量经过研究团队进行了严格的人工测试。此外，他们还将人类偏好与计算化指标进行比较和对比。他们对四个模型进行了分析：

Image Editor (IM)
Imagen EditorRM (IMRM)
Stable Diffusion (SD)
DALL-E 2 (DL2)

为了评估训练过程中进行物体遮罩的好处，研究人员将Imagen Editor与Imagen EditorRM进行了比较。为了将我们的工作与其他人的工作相比较，并更广泛地检查当前技术水平的局限性，我们还对Stable Diffusion和DALL-E 2进行了评估。

总结

所提供的图像编辑模型是一类更大的生成模型的一部分，它们在内容生成方面提供了以前无法实现的能力。然而，它们也有可能生成对个人或整个社会有害的内容。在语言建模中普遍认为，文本生成模型可能无意中反映和放大训练数据中存在的社会偏见。Imagen Editor是Imagen的文本引导图像修复的改进版本。Imagen Editor依赖于训练过程中的对象遮罩策略和新增加的卷积层来进行高分辨率编辑。EditBench是一个基于文本描述进行图像修复的大规模、系统性评测。EditBench对基于属性、基于对象和基于场景的修复系统进行了全面测试。

来源：https://www.marktechpost.com/2023/06/14/google-ai-unveils-imagen-editor-and-editbench-to-improve-and-evaluate-text-guided-image-inpainting/

标签：

0 评论

欢迎关注ATYUN官方公众号

商务合作及内容投稿请联系邮箱:bd@atyun.com

上一篇梅赛德斯试图将ChatGPT引入车载系统

下一篇文本转语音有了新突破：Meta发布了机器学习模型Voicebox

评论登录

要发表评论，您必须先登录。

jonatasgrosman/wav2vec2-large-xlsr-53-english facebook/dino-vitb16 bert-base-uncased xlm-roberta-large xlm-roberta-base gpt2 microsoft/resnet-50 facebook/dino-vits8

优化 LLM 提示的成本、延迟和性能的 4 种技术