NVIDIA 的 FP4 图像生成提升 RTX 50 系列 GPU 性能
realtime news May 14, 2025 08:22
NVIDIA 最新的 TensorRT 更新引入了针对 RTX 50 系列 GPU 的 FP4 图像生成,提升了 AI 模型的性能和效率。探索生成式 AI 技术的进步。

NVIDIA 推出了具有重大进展的生成式 AI 技术,发布了搭载新 GeForce RTX 50 系列 GPU 的 Blackwell 平台。据 NVIDIA 称,这些 GPU 配备了支持 4 位浮点计算 (FP4) 的第五代 Tensor Cores,这是加速复杂生成式 AI 模型的关键升级。
FP4 量化和模型优化
FP4 量化技术旨在提升图像生成模型的性能和质量,因为这些模型在速度、分辨率和复杂性方面的要求越来越高。NVIDIA 的 TensorRT 软件生态系统支持 FP4 量化,提供的库可方便在 PC 和工作站上进行本地推理部署。这标志着传统 16 位和 8 位计算模式的重大转变。
NVIDIA 已通过先进的后训练量化 (PTQ) 和量化感知训练 (QAT) 技术成功地将 FLUX 模型量化为 FP4 权重。这种方法减少了初始图像质量下降,特别是在细节上,并通过使用合成数据进行的微调来改善评估指标。
导出和部署
为了高效部署,FP4 模型被导出到 ONNX 格式,从而精确定义输入/输出张量和离线量化的权重张量。导出过程中结合了标准的 ONNX 去量化节点和 TensorRT 自定义操作符,以维持数值稳定性。
这些模型的部署随着 TensorRT 具备处理量化操作符的能力而进一步简化,从而实现端到端的推理过程。与流行的图像生成工具 ComfyUI 的集成,让用户能够通过 NVIDIA 优化的 TensorRT 引擎利用高质量的 FLUX 流程。
FP4 的性能提升
在 NVIDIA 的 Blackwell GPU 中引入 FP4 提供了多种优势,包括比 FP32 和 FP8 更高的数学吞吐量和更小的内存占用。FP4 数据类型还确保在优化性能的同时保持任务准确性,相较于 INT4 提供更优的推理精度。
在实际应用中,FP4 推理使 FLUX 流程在变压器模型的全连接层中显示出显著的性能提升,相比于 FP8,实现了高达 3.1 倍的性能。这种性能提升对在消费级桌面设备上有效运行大规模模型至关重要。
影响和未来前景
FP4 图像生成的进步彰显了 NVIDIA 推动 AI 技术边界的承诺。通过在消费级硬件上启用强大的生成式 AI 功能,NVIDIA 正在民主化接入先进 AI 工具,为各领域的创新应用铺平道路。
随着 FP4 集成到 TensorRT 10.8 的发布中,NVIDIA 在 AI 硬件和软件创新方面继续领先,为开发者和研究人员提供强大的工具以探索 AI 驱动图像生成的新前沿。
Image source: Shutterstock