NVIDIA TensorRT 提升 RTX GPU 上的 Stable Diffusion 3.5 性能
realtime news Jun 12, 2025 07:17
NVIDIA 的 TensorRT SDK 显著提升了 Stable Diffusion 3.5 的性能,将 VRAM 需求减少了 40%,并使 RTX GPU 的效率翻倍。

NVIDIA 推出了一个重大增强的 AI 模型性能工具:TensorRT,这是一个高级软件开发工具包(SDK),可以显著提升 NVIDIA GeForce RTX 和 RTX PRO GPU 上 Stable Diffusion 3.5 的效率。据 NVIDIA 所述,这一创新不仅使 AI 模型的性能翻倍,还将 VRAM 使用减少了 40%。
革新 AI 性能
生成式 AI 继续改变数字内容创作,模型的复杂性和 VRAM 的需求不断增长。最新的 Stable Diffusion 3.5 大型模型最初需要超过 18GB 的 VRAM,这限制了其可访问性。NVIDIA 通过与 Stability AI 合作应用量化技术,特别是 FP8 量化,显著减少了 VRAM 的消耗。
新优化的模型,Stable Diffusion 3.5 大型和中型,利用 TensorRT SDK 来增强性能。该 SDK 专为 RTX GPUs 优化模型权重和执行图表,与之前的 PyTorch 实现相比,SD3.5 大型的性能提升了 2.3 倍,SD3.5 中型的性能提升了 1.7 倍。
适用于 RTX 的 TensorRT:游戏规则改变者
在 Microsoft Build 上亮相的 TensorRT for RTX 现已作为独立 SDK 提供,从而使开发者能够轻松集成和优化 RTX GPU 上的 AI 模型。这个新版本允许即时编译(JIT),大大减少了针对不同 GPU 类别优化模型所需的时间。
该 SDK 的小巧体积与 Windows ML 的兼容性使其成为寻求部署高性能 AI 应用的开发者的有吸引力选项。通过集成 TensorRT,开发者能够实现性能的显著提升并最大程度减少内存使用,从而为更高效的 AI 驱动应用铺平道路。
更广泛的影响与未来前景
NVIDIA 与 Stability AI 的合作不仅局限于优化。双方正在努力推出作为 NVIDIA NIM 微服务的 Stable Diffusion 3.5,从而简化创作者和开发者的部署过程。预计该微服务将于七月推出,为在各类应用中实施 AI 模型提供了简化的方法。
随着 NVIDIA 继续创新,其在 AI 和机器学习领域的努力将重塑生成式 AI 模型的能力。随着技术的不断进步,利益相关者可以期待更强大和高效的 AI 解决方案,以满足数字内容创作及其他领域日益增长的需求。
Image source: Shutterstock