苹果发布开源AI模型MGIE:指令驱动的图像编辑新突破

2024年02月07日 由 daydream 发表 389 0

苹果发布了一个名为“MGIE”的新开源AI模型,该模型可以根据自然语言指令编辑图像。MGIE(即MLLM指导的图像编辑)利用多模态大型语言模型(MLLM)来解释用户命令并执行像素级操作。该模型可以处理各种编辑方面,如Photoshop风格的修改、全局照片优化和局部编辑。


微信截图_20240207103102


MGIE 是苹果公司与加州大学圣巴巴拉分校研究人员合作的成果。该模型已在 2024 年国际学习表征会议(ICLR)上发表,该会议是人工智能研究的顶级会议之一。论文展示了MGIE在改进自动度量和人工评估方面的有效性,同时保持了具有竞争力的推理效率。


MGIE 是如何工作的?


MGIE 使用 MLLM 的想法,MLLM 是一种强大的人工智能模型,可以同时处理文本和图像,从而增强基于指令的图像编辑能力。MLLM在跨模态理解和视觉感知响应生成方面表现出了非凡的能力,但尚未广泛应用于图像编辑任务。


微信截图_20240207103154


MGIE 通过两种方式将MLLM集成到图像编辑过程中: 首先,它使用 MLLM 从用户输入中推导出富有表现力的指令。这些指令简洁明了,为编辑过程提供了明确的指导。例如,当输入 "让天空更蓝 "时,MGIE 可以生成 "将天空区域的饱和度提高 20%"的指令。


其次,它利用 MLLM 生成视觉想象力,即所需编辑的潜在表征。这种表征捕捉了编辑的本质,可用于指导像素级操作。MGIE 采用了一种新颖的端到端训练方案,可联合优化指令推导、视觉想象和图像编辑模块。


MGIE 能做什么?


MGIE 可以处理各种编辑场景,从简单的颜色调整到复杂的对象操作。该模型还能根据用户的偏好执行全局和局部编辑。MGIE 的部分特点和功能如下:


基于指令的表达式编辑: MGIE 可以生成简洁明了的指令,有效指导编辑过程。这不仅能提高编辑质量,还能增强整体用户体验。


Photoshop 式修改: MGIE 可以执行常见的 Photoshop 风格编辑,如裁剪、调整大小、旋转、翻转和添加滤镜。该模型还可以应用更高级的编辑,如更改背景、添加或删除对象以及混合图像。


全局照片优化: MGIE 可以优化照片的整体质量,如亮度、对比度、清晰度和色彩平衡。该模型还可以应用素描、绘画和漫画等艺术效果。


局部编辑: MGIE 可以编辑图像中的特定区域或对象,如脸部、眼睛、头发、衣服和配饰。模型还可以修改这些区域或对象的属性,如形状、大小、颜色、纹理和风格。


如何使用 MGIE?


MGIE 是 GitHub 上的一个开源项目,用户可以在这里找到代码、数据和预训练模型。该项目还提供了一个演示笔记本,展示如何使用 MGIE 完成各种编辑任务。用户还可以通过 Hugging Face Spaces(一个机器学习(ML)项目共享与协作平台)上的网络演示在线试用 MGIE。


MGIE 的设计简单易用,可灵活定制。用户可以提供编辑图像的自然语言指令,MGIE 将生成编辑后的图像以及衍生指令。用户还可以向 MGIE 提供反馈,以完善编辑或要求不同的编辑。MGIE 还可与其他需要图像编辑功能的应用程序或平台集成。


为什么 MGIE 如此重要?


MGIE 是基于指令的图像编辑领域的一个突破,对于人工智能和人类创造力来说,这是一项具有挑战性的重要任务。MGIE 展示了使用 MLLM 增强图像编辑的潜力,并为跨模态交互和交流开辟了新的可能性。


MGIE 不仅是一项研究成果,也是适用于各种场景的实用工具。MGIE 可以帮助用户创建、修改和优化图像,用于个人或专业用途,如社交媒体、电子商务、教育、娱乐和艺术。MGIE 还能让用户通过图像表达自己的想法和情感,激发他们的创造力。


对于苹果公司来说,MGIE 也彰显了该公司在人工智能研发领域日益增长的实力。近年来,这家消费科技巨头迅速扩展了机器学习能力,MGIE 或许是其在人工智能如何增强日常创意任务方面最令人印象深刻的展示。


虽然 MGIE 代表着一项重大突破,但专家们表示,要改进多模态人工智能系统,还有很多工作要做。但这一领域的进展速度正在迅速加快。如果 MGIE 的发布能说明什么,那么这种辅助型人工智能可能很快就会成为不可或缺的创意助手。

文章来源:https://venturebeat.com/ai/apple-releases-mgie-a-revolutionary-ai-model-for-instruction-based-image-editing/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消