NEW
Chipmunk 引入无训练加速扩散变压器 - Blockchain.News

Chipmunk 引入无训练加速扩散变压器

realtime news Apr 22, 2025 02:32

Chipmunk 利用动态稀疏性来加速扩散变压器,在视频和图像生成中无需额外训练即可实现显著的速度提升。

Chipmunk 引入无训练加速扩散变压器

Together.ai 引入了一种用于加速扩散变压器的新方法——Chipmunk,承诺在视频和图像生成中提供显著的速度改进。据 Together.ai 称,该方法利用动态列稀疏增量且无需额外训练。

动态稀疏性以实现更快处理

Chipmunk 采用一种技术,通过对先前步骤中缓存的注意力权重和 MLP 激活进行动态计算稀疏增量。这种方法使 Chipmunk 在像 HunyuanVideo 这样的平台上比传统方法快达3.7倍的视频生成。在特定配置中显示了2.16倍的速度提升,并在 FLUX.1-dev 上生成图像的速度高达1.6倍的加速。

解决扩散变压器的挑战

扩散变压器(DiTs)广泛用于视频生成,但其高时间和成本需求限制了其可及性。Chipmunk 通过关注两个关键见解来解决这些挑战:模型激活的缓慢变化特性和其固有的稀疏性。通过重新制定这些激活以计算跨步增量,该方法提高了它们的稀疏性和效率。

硬件感知优化

Chipmunk 的设计包括一种硬件感知的稀疏模式,利用非连续列在全局内存中优化为密集的共享内存块。此方法结合快速内核,实现了显著的计算效率和速度改进。该方法利用 GPU 偏向于处理大块的特点,与原生块大小一致以实现优化性能。

内核优化

为了进一步提升性能,Chipmunk 集成了多项内核优化。这些优化包括通过自定义 CUDA 内核实现的快速稀疏识别、使用 CUDA 驱动程序 API 的高效缓存回写以及专门的持久内核。这些创新使执行更加高效,减少了计算时间和资源使用。

开源和社区参与

Together.ai 通过在 GitHub 上发布 Chipmunk 的资源,积极拥抱开源社区,邀请开发者探索和利用这些进展。这一举措是加速 FLUX-1.dev 和 DeepSeek R1 等各种架构模型性能的更广泛努力的一部分。

欲了解更多详细洞察和技术文档,感兴趣的读者可以访问 Together.ai 的完整博客文章。

Image source: Shutterstock