Place your ads here email us at info@blockchain.news
NEW
NVIDIA发布NVFP4,用于增强低精度AI推理 - Blockchain.News

NVIDIA发布NVFP4,用于增强低精度AI推理

realtime news Jun 24, 2025 11:28

NVIDIA推出了NVFP4,这是一种在Blackwell架构下的新4位浮点格式,旨在通过提高准确性和效率来优化AI推理。

NVIDIA发布NVFP4,用于增强低精度AI推理

NVIDIA宣布推出NVFP4,这是一种创新的4位浮点格式,旨在通过优化性能和准确性来增强AI模型推理。根据NVIDIA的官方博客,该开发是NVIDIA Blackwell GPU架构的一部分,旨在为开发者提供一种低精度计算的新工具。

NVFP4:AI推理的进步

NVFP4格式基于低位‘微’浮点格式的概念,为开发者提供了更大的灵活性。它的结构类似于其他4位浮点格式,具有1个符号位、2个指数位和1个尾数位,允许值的范围大约在-6和6之间。

低精度格式的一个重大挑战是保持数值准确性。NVIDIA通过高精度比例编码和两级微块缩放策略解决了这个问题,该策略将一个细粒度的缩放因子应用于张量内的每个16值微块。这种方法最大限度地减少了量化误差并增强了值的表示精度。

NVFP4的比较优势

与其前身如MXFP4相比,NVFP4提供了若干优势。通过将块大小从32个值减少到16个值,NVFP4允许在张量动态范围内进行更局部的适应,减少量化误差并保持模型性能。这种更精细的缩放对于在具有大数和小数混合的应用中保持AI模型的准确性至关重要。

与FP8相比,NVFP4表现出最小的准确性下降,确保模型智能在量化过程中得到保留。例如,在关键的语言建模任务中,NVFP4的准确性从FP8下降不到1%,在某些情况下甚至提高了准确性。

效率和节能

NVFP4不仅减少了内存占用和计算复杂性,还显著提高了能效。支持NVFP4的NVIDIA Blackwell架构能实现比以前的型号如NVIDIA H100张量核心高达50倍的能效改进。这种改进对于大型AI部署至关重要,因为能源消耗是一个重要问题。

实施与采纳

NVIDIA的生态系统正在迅速采用NVFP4精度,以应对AI工作负载不断增长的需求。像TensorRT模型优化器和LLM压缩器这样的工具提供了将模型量化为NVFP4的简化工作流程。此外,已预量化的检查点在Hugging Face等平台上可供立即部署。

NVFP4的推出标志着AI模型优化方面的显著进步,为开发者提供了一种在不牺牲准确性的前提下提高推理效率的强大工具。随着NVFP4的普及,NVIDIA继续支持其在各种AI框架和应用中的集成。

欲了解更多信息,请访问NVIDIA博客

Image source: Shutterstock
Place your ads here email us at info@blockchain.news