AIBetas消息,12月1日,Stability AI 日前宣布推出 Stable Diffusion XL Turbo(SDXL Turbo),为此前 SDXL 模型的改进版本,号称采用了“对抗性扩散蒸馏技术(Adversarial Diffusion Distillation)”,将图片生成迭代步骤从原先的 50 步减少至 1 步,据称“仅仅进行一次迭代步骤就能生成高品质图像”。
关键特点:
- SDXL Turbo通过一种新的蒸馏技术实现了最先进的性能,使单步图像生成达到前所未有的质量,将所需的步骤数从50步减少到仅1步。
- 有关该模型新蒸馏技术的具体技术细节,请参阅我们的研究论文,该技术利用了对抗性训练和评分蒸馏的结合。
- 可以在Hugging Face下载模型权重和代码,目前以非商业研究许可证发布,仅允许个人非商业使用。
- 在Stability AI的图像编辑平台Clipdrop上测试SDXL Turbo,展示了实时文本到图像生成能力的beta演示。
根据官方介绍,SDXL Turbo是一种新的文本到图像模式。SDXL Turbo基于一种名为对抗性扩散蒸馏(ADD)的新颖蒸馏技术,使模型能够在单一步骤中合成图像输出,并在保持高采样保真度的同时生成实时文本到图像输出,需要注意的是,SDXL Turbo目前尚未用于商业用途。
SDXL Turbo采用了扩散模型技术的新进展,基于SDXL 1.0的基础上进行了迭代,并实现了一种新的文本到图像模型蒸馏技术:对抗性扩散蒸馏。通过整合ADD,SDXL Turbo获得了许多与GANs(生成对抗网络)相同的优势,例如单步图像输出,同时避免了其他蒸馏方法中经常观察到的伪影或模糊。关于这种模型的新蒸馏技术的SDXL Turbo研究论文可以在此处查看。
为了选择SDXL Turbo,官方表示通过使用相同的提示生成输出,比较了多种不同的模型变体(StyleGAN-T++、OpenMUSE、IF-XL、SDXL和LCM-XL)。然后,人类评估者被随机展示两个输出,并被要求挑选最符合提示方向的输出。接下来,使用相同方法完成了图像质量的额外测试。在这些盲测试中,SDXL Turbo能够以单步击败LCM-XL的4步配置,以及以4步击败SDXL的50步配置。从这些结果中,可以看到SDXL Turbo以显著较低的计算要求胜过最先进的多步模型,而不牺牲图像质量。
SDXL Turbo在推理速度方面取得了重大改进。在A100上,SDXL Turbo生成512×512图像的时间为207毫秒(包括提示编码、单一去噪步骤和解码,fp16),其中67毫秒由单个UNet前向评估占据。
暂无评论内容