QAT量化

背景与挑战

随着大模型规模持续增长，其训练和推理所需的显存已成为硬件瓶颈。为此，低精训练策略通过压缩权重精度来降低显存占用，使其成为大模型效率优化中一个关键技术方向。

解决方案

针对微调和训练场景，通过模拟MXFP4格式的量化-反量化过程引入量化误差，但权重仍以高精度（如BF16）存储和更新，从而让模型适应量化后的精度损失。前向传播中，权重会被量化为MXFP4（E2M1+块缩放）再反量化回高精度参与计算，反向传播则通常借助梯度直通估计（STE），使梯度能有效更新原始权重，从而适配W4A16的低精策略。

使用方法

需在训练脚本中加入以下配置，开启MXFP4低精量化功能： --qat-scheme w4a16-mxfp4

注意

其他设置或不设置均会使用原始策略。

使用效果

精度损失控制在可接受范围