InstantID:轻松创建一致角色的新技术

2024年01月26日 由 daydream 发表 521 0

在人工智能图像生成中,最常被请求的功能之一是能够轻松创建一致的角色。这将开启新的创意可能性,从降低动画电影和视频游戏的制作成本,到让业余创作者能够轻松打造自己的数字身份。然而,可靠地生成保留独特视觉特征的复杂面部细节,尤其是在各种姿势和场景中,仍然是一个难以实现的目标。


微信截图_20240126104701


北京InstantX团队的新研究为实现这一目标迈出了充满希望的一步。他们的“InstantID”引入了一种无需调整的方法,只需使用单一面部图像作为参考即可实现一致的角色生成。


微信截图_20240126104922


目前,量化低秩适应(QLoRA)代表了实现一致角色生成的最前沿技术。然而,使用QLoRA需要微调(在描绘所需角色的图像数据集上训练模型)。这是一个耗时的过程,并且必须从头开始为每个新角色重复进行。


相比之下,InstantID无需任何专门训练就能达到类似的保真度。这种零次推理能力使一致的角色生成比以往任何时候都更容易实现。


微信截图_20240126104931


InstantID是一个与现有扩散模型(如Stable Diffusion)兼容的即插即用模块。其核心是一种新技术,它使用面部识别模型而不是常见的CLIP图像编码器来提取鲁棒的语义身份嵌入。


增强身份嵌入的是一个解耦的交叉注意力机制,它便于图像提示而不损害文本编辑能力。这使得InstantID能够保持样式控制 - 通过文本提示更改头发颜色或服装等细节,同时保持面部身份的一致性。


第三个组成部分是一个IdentityNet模块,它从参考图像中编码空间细节以进一步提高真实性。根据研究人员的实验,InstantID仅使用单一面部图像就能在不同姿势、表情和光照条件下产生非常一致的描述。


虽然还处于早期研究阶段,但InstantID预示着一个未来,创建个性化数字身份或打造可识别的角色可能变得极其容易。对于媒体制作而言,这可以显著降低动画成本。例如,动漫工作室可以围绕一个持久的视觉身份制作剧集,而无需反复重绘同一个角色。独立游戏开发者也可以减少昂贵的角色建模。


在网络空间中,一致的头像生成可以使个人资料图片、YouTube视频或新兴的元宇宙更具创造力。对于注重隐私的个人而言,在不必暴露个人照片的情况下可靠地合成公众形象可以降低面部识别的风险。


当然,与任何生成技术一样,一致的角色合成也带来了关于同意、错误信息和知识产权的新挑战。研究人员承认,随着这项技术的发展,必须将道德考虑放在首位。但这足够吗?


虽然增强创造力的突破值得庆祝,但轻松合成逼真人脸的能力也带来了值得谨慎关注的隐患——特别是围绕同意和潜在滥用的问题。随着这项技术变得功能更强大,我们必须解决一些棘手的问题,包括研究人员在开源技术时的责任(如果有的话),以及我们自己肖像的个性使用权和所有权。


最紧迫的是,这方面的一个主要担忧是,像InstantID这样的技术将大规模启用新型的非自愿深度伪造——尤其是个性化深度伪造色情内容。不用说,必须对保护性解决方案进行积极持续的研究,包括像SythID这样的强大水印技术,以及通过Content Authenticity Initiative等举措改进操纵检测,这将是至关重要的。


总的来说,虽然InstantID开启了充满创意可能性的世界,并承诺赋予创造力,但维护同意和培养负责任的规范应该是该技术伦理路线图上的优先事项。研究人员、开发人员、监管机构和用户必须共同努力,制定道德准则和保障措施,确保在我们日益数字化的世界中负责任地使用这些强大工具。


文章来源:https://www.maginative.com/article/instantid-allows-you-to-easily-create-consistent-characters-with-generative-ai/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消