一个新的、潜在革命性的人工智能框架“Blackout Diffusion”从一个完全空白的图片生成图像,这意味着,与其他生成扩散模型不同,这种机器学习算法不需要启动一个“随机种子”就可以开始工作。
在最近的国际机器学习会议上提出的Blackout Diffusion生成的样本可以与当前的扩散模型,如DALL-E或Midjourney相媲美,但比这些模型需要的计算资源更少。
洛斯阿拉莫斯国家实验室的AI研究员、Blackout Diffusion的共同作者哈维尔·桑托斯(Javier Santos)表示:“生成建模正在引领下一次工业革命,它具备协助许多任务的能力,如生成软件代码、法律文件乃至艺术品。"
"生成建模可以被用来进行科学发现,而我们团队的工作为将生成扩散建模应用于本质上不是连续的科学问题奠定了基础和实用算法。"
扩散模型创建出与它们训练数据类似的样本。它们通过获取一幅图像并重复添加噪声直到图像无法识别的方法工作。在整个过程中,模型尝试学习如何将其恢复到原始状态。
当前模型需要输入噪声,意味着它们需要某种形式的数据以开始生成图像。
“我们展示了由Blackout Diffusion生成的样本质量与当前模型相当,使用了更小的计算空间.”洛斯阿拉莫斯物理学家、Blackout Diffusion合作项目的负责人林彦廷(Yen-Ting Lin)说。
Blackout Diffusion的另一个独特之处在于它所工作的空间。现存的生成扩散模型在连续空间中工作,这意味着它们所在的空间是密集且无限的。然而,在连续空间中工作限制了它们在科学应用方面的潜力。
"为了运行现有的生成扩散模型,从数学上讲,扩散必须生存在一个连续域上,它不能是离散的。" 林说。
另一方面,该团队的理论框架在离散空间中工作(意味着空间中的每个点之间都有一定距离隔离),这为各种应用打开了机会,如文本和科学应用。
该团队在包括修改后的国家标准与技术研究所数据库(Modified National Institute of Standards and Technology database)在内的多个标准化数据集上测试了Blackout Diffusion;CIFAR-10数据集,包含10个不同类别中物体的图像;以及CelebFaces属性数据集,该数据集由超过200,000幅人脸图像组成。
此外,团队还利用Blackout Diffusion的离散特性澄清了一些关于扩散模型内部运作方式的广泛误解,提供了对生成式扩散模型的重要理解。
他们还为未来的科学应用框架提供了设计原则。"这证明了对离散态扩散建模的首个基础性研究,并指示了使用离散数据进行未来科学应用的方向。" 林说。
该团队解释称,生成扩散建模在潜力上可以大大加快多个科学模拟在超级计算机上运行所花费的时间,这既支持科学进步,也减少了计算科学的碳足迹。他们提到的一些广泛的例子包括地下储藏库动态、用于药物发现的化学模型,以及单分子和单细胞基因表达,用以了解生命体中生化机制。