首页 > 车圈原创 > 车圈原创 > VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

发布时间:2025-10-29 15:17:10来源: 13041198719

前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。

该方法实现了在训练效率上62倍、生成速度上35倍的提升。

图片

VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就会“牵一发而动全身”,比如只想改变猫的颜色,结果体型、表情都跟着变。

和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐,实现了多任务通用。

图片

下面具体来看。

主动构建语义与细节融合的特征空间

在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码),供后续扩散模型学习生成逻辑。

但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。

直接导致两个问题:

  • 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑;

  • 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。

并且,生成的特征空间用途单一,除了图像生成,几乎无法适配图像识别、语义分割等其他视觉任务。

面对VAE的困境,谢赛宁团队的RAE技术选择了极致聚焦生成的思路。直接复用DINOv2、MAE等成熟的预训练编码器,不额外修改编码器结构,仅通过优化解码器来还原图像细节,同时针对性地改造扩散模型架构。

最终实现了生成效率与质量的跨越式提升,简单说就是把重心全放在了“把图生成得又快又好”上。

而清华&快手可灵团队的SVG技术,则走了兼顾生成与多任务通用的路线,核心差异就在于对特征空间的构建逻辑上。

RAE是直接复用预训练特征,SVG 则是主动构建语义与细节融合的特征空间。

图片

车圈原创更多>>

方盒子新选手登场 传祺越7官图正式发布 扒开2026款HR-V的配置表 本田已经这么勇了吗? 极氪8X底盘用料大揭秘,性能旗舰果然名不虚传 全新奔驰纯电GLC SUV开启预售;字节跳动声明无造车计划 比亚迪城市智驾兜底,其他车企为什么不跟? 外卖党、通勤族、预算党:城市通勤电摩到底该怎么挑 从月销过万到月销三千,新款尚界H5预售 能否助其重回万辆? 新势力过“生死线”,出口一片火热,真能止跌回暖 6月上市,零跑C10/C11/C16都改了啥? 消息称印度塔塔汽车计划引进奇瑞整车平台,推进高端电动汽车项目 单品牌力克日系三强,中国汽车改写韩国进口车市场格局 极狐品牌向上的接力棒,问道V9接手了 单月出口三刷纪录、新能源破10万:奇瑞集团5月销量快报 以一敌三碾压日系!比亚迪首次拿下韩国第三 大湾区车展实拍!上汽大众双ePro新车,合资插混终于亲民了 不要被厂家宣传带偏了!大五座和大六座SUV该怎么选? 丰田普锐斯PHEV召回!后车门开关线路有瑕疵免费回厂修正 上汽奥迪摊牌了! E7X的上市定价 让消费者永远是赢家 中国第四款专属配色/氤氲蓝主题/ 劳斯莱斯库里南新色发布 秋季上市 / 单电机续航900km / 启境GX7谍照首曝 GTI 灵魂正式电动化!大众 ID. Polo GTI 登场 80万车主之选,实测全维进阶的新红旗H5,家用商务两相宜! 要买轿车的有福了,上半年还有这5款值得期待,颜值高配置牛! 悦意08预售10.49万起,800V+6C快充,央企新品牌能打动年轻人吗 预售价37万元起,越野“卷王”全新猛士M817性能拉满! 比理想L6、汉兰达都大的星光L,要做一台更有品质的五菱 三品牌矩阵全员登场 蔚来全系阵容亮相粤港澳大湾区车展 10.49-14.49万元 一汽悦意08开启预售 2026款星途ES更多官图发布!智能化升级,配备猎鹰700+27个传感器 何小鹏公开\"抛弃\"激光雷达!纯视觉智驾要赢了