超逼真人类图像生成新方法:HyperHuman框架及其文本到图像模型

2023年10月20日 由 neo 发表 425 0

量子计算经常被誉为具有革命性的问题解决能力,特别是在经典计算机面临巨大限制的情况下。虽然大部分讨论都围绕着渐近性能的理论优势,但识别量子计算机在有限规模问题中的实际应用是至关重要的。具体的例子展示了量子计算机能够比经典计算机更高效地解决哪些问题,以及如何利用量子算法来完成这些任务。近年来,多方的研究努力探索了量子计算的现实应用,为特定的问题领域提供了从这项新兴技术中受益的见解。

Screenshot-2023-10-20-at-1.38.52-AM

基于扩散的文本到图像(T2I)模型已经成为图像生成的首选方法,因为它们具有可扩展性和训练稳定性。然而,像 Stable Diffusion 这样的模型需要帮助来生成高保真度的人类图像。传统的可控人类生成方法存在局限性。研究者提出了 HyperHuman 框架来克服这些挑战,它能够捕捉外观和潜在结构之间的相关性。它包括一个大规模的人类中心数据集、一个潜在结构扩散模型和一个结构引导细化器,实现了超现实人类图像生成方面的最先进性能。

从用户条件(如文本和姿势)生成超现实人类图像对于图像动画和虚拟试穿等应用是至关重要的。早期使用 VAEs 或 GANs 的方法在训练稳定性和容量方面存在局限性。扩散模型已经彻底改变了生成式 AI,但现有的 T2I 模型在人体解剖和自然姿势方面存在不一致性。HyperHuman 引入了一个框架,它能够捕捉外观-结构相关性,确保人类图像生成中的高真实感和多样性,并解决了这些挑战。

HyperHuman 是一个用于生成超现实人类图像的框架。它包括一个庞大的人类中心数据集 HumanVerse,其中包含 3.4 亿张带有人体姿势、深度和表面法线等综合注释的图像。HyperHuman 采用了一个潜在结构扩散模型,它可以同时去噪深度和表面法线以及生成 RGB 图像。它们的框架在各种场景下产生超现实人类图像。

他们的研究使用了各种指标来评估 HyperHuman 框架,包括 FID、KID 和 FID CLIP 用于衡量图像质量和多样性,CLIP 相似度用于衡量文本-图像对齐度,以及姿势准确度指标。HyperHuman 在图像质量和姿势准确度方面表现出色,在 CLIP 分数方面排名第二,尽管使用了较小的模型。他们的框架在图像质量、文本对齐度和常用 CFG 尺度方面都表现出平衡的性能。

总之,HyperHuman 框架提出了一种生成超现实人类图像的新方法,克服了一致性和自然性方面的挑战。它利用 HumanVerse 数据集和一个潜在结构扩散模型,生成高质量、多样性和文本对齐的图像。该框架的结构引导细化器提高了视觉质量和分辨率。它在超现实人类图像生成方面取得了显著的进步,比以前的模型具有更高的性能和鲁棒性。未来的研究可以探索使用深度先验(如 LLMs)来实现文本到姿势的生成,从而消除对人体骨架输入的需求。

文章来源:https://www.marktechpost.com/2023/10/19/can-we-generate-hyper-realistic-human-images-this-ai-paper-presents-hyperhuman-a-leap-forward-in-text-to-image-models/
欢迎关注ATYUN官方公众号
商务合作及内容投稿请联系邮箱:bd@atyun.com
评论 登录
热门职位
Maluuba
20000~40000/月
Cisco
25000~30000/月 深圳市
PilotAILabs
30000~60000/年 深圳市
写评论取消
回复取消