生数科技
menu

研究

100-200倍的视频生成加速框架TurboDiffusion

2025年12月5日

为了提高 Diffusion 模型,尤其是视频生成模型的推理速度,清华 TSAIL 实验室联合生数科技发布 Diffusion 加速框架 TurboDiffusion,其中包含了多项加速技术,可以100-200倍几乎无损地加速视频生成。 TurboDiffusion TurboDiffusion 主要包含四种技术来加速扩散模型。 首先,TurboDiffusion 使用 SageAttention进行低比特量化注意力加速,具体采用的是 SageAttention2++ 版本。 其次,TurboDiffusion 使用 Sparse-Linear Attention(SLA)实现稀疏注意力加速。由于稀疏计算与低比特 Tensor Core 加速是正交的,SLA 可以构建在 SageAttention 之上,在推理过程中进一步获得数倍的额外加速。 第三,TurboDiffusion 引入 rCM进行步数蒸馏加速,该方法目前属于该方向的先进方案之一。 最后,TurboDiffusion 对 Linear 层采用 W8A8 量化进行加速,使用 INT8 数据类型,并在 128×128 的块粒度上进行分块量化。 这4项核心技术均由清华大学TSAIL团队联合生数科技自主研发,对 AI 多模态大模型的技术突破与产业落地具有里程碑式的价值与深远影响力。其中,SageAttention 更是全球首个实现注意力计算量化加速的技术方案,已被工业界大规模部署应用。 例如,SageAttention 已成功集成至 NVIDIA 推理引擎 Tensor RT,同时完成在华为昇腾、摩尔线程 S6000 等主流 GPU 平台的部署与落地。此外,腾讯混元、字节豆包、阿里 Tora、生数 Vidu、智谱清影、百度飞桨、昆仑万维、Google Veo3、商汤、vLLM 等国内外头部科技企业及团队,均已在核心产品中应用该技术,凭借其卓越性能创造了可观的经济效益。 对于开源的文生视频或图生视频模型,使用 TurboDiffusion 分别可以在单张RTX 5090上获得 100 倍以及最高 200 倍的端到端生成加速,详情可以见 TurboDiffusion。 在 Vidu 模型上使用 TurboDiffusion 中包含的技术也可以在不损失视频生成质量的前提下获得极高的推理加速效果。例如,在生成 1080p 分辨率、8 秒时长的高质量视频时,相比没有任何推理加速优化的视频生成,TurboDiffusion 可以将端到端的生成延迟从 900s 提速到 8s。