前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。
该方法实现了在训练效率上62倍、生成速度上35倍的提升。

VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就会“牵一发而动全身”,比如只想改变猫的颜色,结果体型、表情都跟着变。
和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐,实现了多任务通用。

下面具体来看。
主动构建语义与细节融合的特征空间
在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码),供后续扩散模型学习生成逻辑。
但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。
直接导致两个问题:
-
一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑;
-
二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。
并且,生成的特征空间用途单一,除了图像生成,几乎无法适配图像识别、语义分割等其他视觉任务。
面对VAE的困境,谢赛宁团队的RAE技术选择了极致聚焦生成的思路。直接复用DINOv2、MAE等成熟的预训练编码器,不额外修改编码器结构,仅通过优化解码器来还原图像细节,同时针对性地改造扩散模型架构。
最终实现了生成效率与质量的跨越式提升,简单说就是把重心全放在了“把图生成得又快又好”上。
而清华&快手可灵团队的SVG技术,则走了兼顾生成与多任务通用的路线,核心差异就在于对特征空间的构建逻辑上。
RAE是直接复用预训练特征,SVG 则是主动构建语义与细节融合的特征空间。
