模型:

facebook/DiT-XL-2-512

英文

可扩展的Transformer扩散模型(DiT)

摘要

我们训练潜在扩散模型,将常用的U-Net骨干网络替换为在潜在图像块上操作的Transform​er。我们通过Gflops衡量的前向传递复杂度分析了我们的Diffusion Transfo​rmers(DiTs)的可扩展性。我们发现,具有更高Gflops的DiTs,无论是通过增加Transformer的深度/宽度还是增加输入令牌的数量,均具有更低的FID。除了良好的可扩展性,我们的DiT-XL/2模型在基于类别的ImageNet 512×512和256×256基准测试中超越了所有以前的扩散模型,后者在256×256基准测试上实现了最先进的FID(2.27)。