想象的领域不再是纯粹的抽象概念,麻省理工学院计算机科学与AI实验室(CSAIL)的研究人员将创新的AI模型变成现实。他们的新技术将两个看似无关的物理定律融入到迄今为止表现最佳的生成式模型中:扩散,通常用于说明元素的随机运动,例如热在房间中的传播或气体在空间中的扩散,以及泊松流,利用电荷活动的原理。
这种和谐的融合使得该模型在生成新图像方面表现出卓越性能,超越了现有的最先进模型。自诞生以来,“Poisson Flow Generative Model ++”(PFGM++)在从抗体和RNA序列生成到音频制作和图形生成等各个领域中找到了潜在的应用。该研究成果已在arXiv预印本服务器上发布。
该模型可以生成复杂的模式,例如创建逼真的图像或模仿真实世界中的过程。PFGM++是基于团队之前的工作PFGM做出的改进。PFGM从被称为“Poisson”方程的数学方程背后的方法中获得灵感,然后将其应用到模型试图学习的数据上。
为了实现这一点,团队使用了一个巧妙的技巧:他们在模型的“空间”中增加了一个额外的维度,有点像从二维草图到三维模型的转变。这个额外的维度为操作提供了更多的空间,将数据放置在更大的背景下,并帮助在生成新样本时从各个方向进行处理。
未参与该研究工作的麻省理工学院核科学实验室理论粒子物理学家、国家科学基金会人工智能与基础相互作用研究所(NSF AI IAIFI)主任Jesse Thaler表示:“PFGM++是物理学家和计算机科学家跨学科合作推动的AI进展的一个例子。”“近年来,基于AI的生成式模型产生了许多惊人的结果,从逼真的图像到清晰的文本流。值得注意的是,一些最强大的生成模型是建立在物理学的经过时间考验的概念,例如对称性和热力学。”Thaler解释道。
PFGM的基本机制并不像听上去那么复杂。研究人员将数据点比作放置在扩展维度世界中的微小电荷。这些电荷产生一个“电场”,电荷会沿着电力线向上移动进入一个额外的维度,从而在一个巨大的想象半球上形成均匀分布。
生成过程就像回放录像带:从想象半球上均匀分布的一组电荷开始,沿着电力线追踪它们沿着电线返回平面的行动轨迹,使其对齐以匹配原始数据分布。这个有趣的过程让神经模型能够学会电场,并生成与原始数据相似的新数据。
PFGM++模型将PFGM中的电场扩展到一个复杂的更高维度框架中。当不断扩展这些维度时,一些意想不到的事情发生了,模型开始呈现出另一个重要类别的模型,即扩散模型。这项工作的关键在于要找到平衡点。PFGM和扩散模型位于一个光谱的两端:前者强大但难以处理,后者更简单但不太稳定。
PFGM++模型达到了一个最合适的平衡点,平衡了稳健性和易用性。这种创新为更高效的图像和模式生成铺平了道路,标志着技术的重大进步。除了可调节的维度外,研究人员提出了一种新的训练方法,使模型能够更高效地学习电场。
为了将这个理论变为现实,团队解决了描述这些电荷在电场中运动的一对微分方程。他们使用广泛接受的评估指标Frechet Inception Distance(FID)评估模型生成的图像与真实图像的质量。PFGM++进一步展示了对误差的更高抵抗力和对微分方程中步长的稳健性。
展望未来,他们的目标是在特定数据、架构和任务上以系统化方法、通过分析神经网络的估计误差行为来确定D的“最佳点”值。他们还计划将PFGM++应用于现代大规模的文本到图像/视频生成。
"扩散模型已成为推动生成式AI革命的重要驱动力。"OpenAI的研究科学家杨松表示。 "PFGM++呈现了对扩散模型的强大推广,通过改进图像生成对扰动和学习误差的鲁棒性,使用户能够生成更高质量的图像。此外,PFGM++揭示了电静力学和扩散模型之间的惊人联系,为扩散模型研究提供了新的理论洞察。"
NVIDIA高级研究科学家Karsten Kreis表示:"PFGM++不仅依赖于物理学灵感的公式,还在实践中提供了最先进的生成建模性能。它甚至超越当前主流的扩散模型,这使其成为一个非常强大的生成建模工具。我设想它们在从数字内容创建到生成性药物发现等各个领域都能够应用。从更广义上讲,我相信进一步探索受物理学启发的生成建模框架在未来具有巨大潜力,而PFGM++只是一个开始。“