首页 > 车圈原创 > 车圈原创 > VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

VAE再被补刀!清华快手SVG扩散模型亮相,训练提效6200%,生成提速3500%

发布时间:2025-10-29 15:17:10来源: 13041198719

前脚谢赛宁刚宣告VAE在图像生成领域退役,后脚清华与快手可灵团队也带着无VAE潜在扩散模型SVG来了。

该方法实现了在训练效率上62倍、生成速度上35倍的提升。

图片

VAE为何被接连抛弃?主要还是因为语义纠缠的缺陷——语义特征都放在同一个潜空间,调一个数值就会“牵一发而动全身”,比如只想改变猫的颜色,结果体型、表情都跟着变。

和谢赛宁团队极简复用预训练编码器、改造DiT架构,专注于生成性能的RAE不同,SVG通过语义+细节双分支+分布对齐,实现了多任务通用。

图片

下面具体来看。

主动构建语义与细节融合的特征空间

在传统的「VAE+扩散模型」图像生成范式中,VAE的核心作用是将高分辨率图像压缩为低维的潜空间特征(可以理解为图像的简化代码),供后续扩散模型学习生成逻辑。

但这样会使不同类别、不同语义的图像特征会混乱地交织在一起,比如猫和狗的特征边界模糊不清等。

直接导致两个问题:

  • 一是扩散模型训练效率极低,需要数百万步迭代才能勉强理清特征逻辑;

  • 二是生成过程繁琐,往往需要经过几十甚至上百步采样才能输出清晰图像。

并且,生成的特征空间用途单一,除了图像生成,几乎无法适配图像识别、语义分割等其他视觉任务。

面对VAE的困境,谢赛宁团队的RAE技术选择了极致聚焦生成的思路。直接复用DINOv2、MAE等成熟的预训练编码器,不额外修改编码器结构,仅通过优化解码器来还原图像细节,同时针对性地改造扩散模型架构。

最终实现了生成效率与质量的跨越式提升,简单说就是把重心全放在了“把图生成得又快又好”上。

而清华&快手可灵团队的SVG技术,则走了兼顾生成与多任务通用的路线,核心差异就在于对特征空间的构建逻辑上。

RAE是直接复用预训练特征,SVG 则是主动构建语义与细节融合的特征空间。

图片

车圈原创更多>>

欧盟委员会正式公布《工业加速法案》(IAA),以“提升低碳转型竞争力”为名,推出严格的战略产业本地含量要求 沃尔沃汽车12月至2月销量下滑10% 在鸿蒙智行技术焕新发布会上,华为产品负责人宣布问界M9全系累计交付量突破28万台 华为乾崑发布最高896线激光雷达,将首搭尊界S800与问界M9 宝马工厂人形机器人,电爪来自中国 奇瑞汽车正式发布瑞虎7L官方图片,新车定位紧凑型SUV,将于2026年一季度正式上市 奔驰GLC终端让利大幅加码,多地经销商报出最高优惠12.5万元,入门版裸车价下探至27万出头 iCAR V27完整配置正式曝光,凭借越级智能与硬核实力,迅速成为硬派方盒子SUV市场焦点 OPPO Find N6真机现身,折痕控制很不错! IDC:智能手机市场恐将因存储芯片供应短缺而下滑13% 魅族确认放弃手机业务:后续聚焦AI驱动软件产品 OPPO Find N6确认配备AI手写笔,其搭载行业首发AI功能! 蓝厂最强旗舰来了!vivo X300 Ultra官宣:全大底三主摄加持 影像灭霸 博通发布多维堆叠芯片平台 高管扬言今明两年能卖出100万颗 百度2.0:一场由AI驱动的核心价值重构 京东APP正式上线「百亿超市」,剑指即时零售 2026年印尼汽车购置激励政策尚未明确,消费者延后购车,政府拟将资金转向国产车开发 3M凭借其材料科学领域的创新技术,正为汽车行业提供更加安全、环保与高效的解决方案 格兰海芬嘉定基地扩产增能项目签约,预计2026年实现产值约4.7亿 新合作!泉州市与宁德时代合作共建智能零碳电池工厂 上海2026汽车以旧换新政策落地,最高补贴2万元 流媒体后视镜风口正劲,华阳前装配套量同比激增近400% 单张不到五毛钱!谷歌深夜发布Nano Banana 2,没有颠覆性,但量大管饱! AI智能体不是越多越强:信息冗余构成了LLM Agent Scaling的瓶颈 特斯拉官宣进军摩洛哥市场,向这个北非国家推出Model 3和Model Y两款车型 保时捷992代911 GT3 RS首台车在越南正式上路 苹果硬抗内存飙升压力!iPhone 18 Pro/Pro Max起售价不变 2025年全球手机存量报告:苹果、三星破10亿断层领先 小米第三 iPhone 17 Pro Max续航测试:WiFi比5G多约3小时使用时长 三星官宣2月26日举办Galaxy Unpacked发布会