有效的FP8训练：探索每张量和每块缩放策略

NEW

有效的FP8训练：探索每张量和每块缩放策略 - Blockchain.News

在人工智能的领域中，对高效低精度训练的需求促使开发了复杂的缩放策略，特别是针对FP8格式。根据NVIDIA最近的博客文章，了解这些策略可以显著增强AI模型训练中的数值稳定性和准确性。

每张量缩放技术

每张量缩放是FP8训练中的一个关键策略，其中每个张量—如权重、激活或梯度—都被分配一个独特的缩放因子。这种方法缓解了FP8的窄动态范围问题，防止数值不稳定，并确保更准确的训练。

在每张量技术中，延迟缩放和当前缩放尤其突出。延迟缩放依赖于历史最大值来平滑异常值，减少可能导致训练不稳定的突然变化。而当前缩放则实时适应，优化FP8表示以适应即时数据特性，从而增强模型的收敛性。

虽然每张量方法奠定了基础，但在张量内，它们常常面临块级别可变性的问题。每块缩放通过将张量划分为可管理的块，每块使用一个专用的缩放因子来解决此问题。这种细粒度的方法确保了高低幅值区域都能精确表示，保持训练的稳定性和模型的质量。

NVIDIA的MXFP8格式就是这方面的一个例子，实施了针对Blackwell架构优化的块式缩放。通过将张量划分为32值的块，MXFP8利用仅有指数的缩放因子来维持有利于深度学习的数值特性。

基于每块概念，微缩放FP8 (MXFP8) 与MX数据格式标准一致，提供一个共享的细粒度块级缩放框架，适用于各种低精度格式。这包括定义缩放数据类型、元素编码和缩放块大小。

MXFP8的块级划分和硬件优化的缩放因子允许精确调整到局部张量统计，最大限度地减少量化误差并提高训练效率，尤其是针对大型模型。

NVIDIA的NeMo框架提供了这些缩放策略的实际实现，允许用户为混合精度训练选择不同的FP8方法。选项包括延迟缩放、每张量当前缩放、MXFP8和块级缩放。

这些先进的缩放技术对于充分发挥FP8的潜力至关重要，为大规模深度学习模型的高效稳定训练提供了一条可行途径。欲了解更多详细信息，请访问NVIDIA博客。

Image source: Shutterstock