OpenAI的一组研究人员近日发布了一篇论文,介绍了一种新型模型——连续时间一致性模型(sCM)。该模型在图像、视频和音频等多媒体内容的生成速度上,相较于传统扩散模型提升了50倍。具体而言,sCM能够在约0.1秒内生成图像,而传统扩散模型则需要超过5秒。
sCM的引入使得OpenAI仅用两个采样步骤就达到了与传统模型相当的样本质量,从而在加速生成过程的同时保证了质量不受影响。
该创新由程路和杨松在arXiv.org上发布的预审论文及今日发布的博客文章中进行了描述。这一创新使得模型能够在两个步骤内生成高质量样本,显著快于之前需要数百个步骤的扩散模型。
杨松也是2023年OpenAI研究人员(包括前首席科学家伊利亚·苏茨克维)发表的论文的主要作者之一,该论文提出了“一致性模型”的概念,即“同一条轨迹上的点映射到同一个初始点”。
尽管扩散模型在生成逼真图像、3D模型、音频和视频方面取得了显著成果,但其采样效率低下,通常需要数十到数百个连续步骤,这使得它们不太适合实时应用。
理论上,这项技术为OpenAI开发近乎实时的AI图像生成模型提供了基础。
在传统扩散模型中,需要大量去噪步骤来创建样本,这导致了其速度缓慢。相比之下,sCM能够在一到两个步骤内直接将噪声转换为高质量样本,从而降低了计算成本和时间。
OpenAI最大的sCM模型拥有15亿个参数,在单个A100 GPU上生成样本的时间仅为0.11秒。这相比扩散模型在计时墙上实现了50倍的速度提升,使得实时生成AI应用变得更加可行。
sCM团队在ImageNet 512×512上训练了一个连续时间一致性模型,并扩展到了15亿个参数。即使在这个规模下,模型的样本质量也能与最好的扩散模型相媲美,在ImageNet 512×512上实现了1.88的Fréchet Inception Distance(FID)分数。
这使得样本质量与扩散模型的差距缩小到了10%以内,而扩散模型则需要更多的计算资源才能达到类似的结果。
OpenAI的新方法已经与其他最先进的生成模型进行了广泛的基准测试。通过测量FID分数和有效采样计算来评估样本质量,研究表明sCM在显著降低计算开销的同时提供了顶级结果。
虽然之前的快速采样方法在样本质量降低或训练设置复杂方面遇到了困难,但sCM克服了这些挑战,同时提供了速度和高保真度。
sCM的成功还归功于其能够与教师扩散模型(从中提炼知识)按比例扩展的能力。随着sCM和教师扩散模型的规模增加,样本质量的差距进一步缩小,增加sCM中的采样步骤数可以进一步减少质量差异。
sCM模型的快速采样和可扩展性为多个领域的实时生成AI提供了新的可能性。从图像生成到音频和视频合成,sCM为需要快速、高质量输出的应用提供了实用解决方案。
此外,OpenAI的研究还暗示了进一步优化系统的潜力,这可能进一步加速性能,使这些模型能够满足各行业的特定需求。