| feat: release bf16 weights after mxfp8 quantization to optimize memory
Co-authored-by: h00638954<huangzhiyuan8@huawei.com>
# message auto-generated for no-merge-commit merge:
!3369 merge mega_release_bf16 into master
feat: release bf16 weights after mxfp8 quantization to optimize memory
Created-by: sinat_20276189
Commit-by: sinat_20276189;h00638954
Merged-by: ascend-robot
Description: ## What this PR does / why we need it?
**背景:**
在 FP8/MXFP8 混合精度训练中,大模型(尤其是 MoE 架构)的 Linear 层完成权重量化并生成 FP8 Reuse Cache(复用缓存)后,原有的 BF16 高精度权重物理内存依然驻留在显存中直到反向传播更新。这种冗余极大地限制了单卡能容纳的模型层数。本 PR 旨在通过在量化后安全释放 BF16 权重,榨干显存红利,从而支持更深层的大模型全量megatron 训练。
## Does this PR introduce *any* user-facing change?
**无破坏性改变,对用户透明。**
* **新特性使能方式介绍:** 本特性作为底层的极致显存优化,在配置了 MXFP8 量化且命中缓存复用逻辑时自动生效,无新增外露 API。
## How was this patch tested?
**正确性与有效性验证:**
**显存收益验证:** 在多卡megatron 训练配置下,通过 NPU Profiling 对比优化前后的 Memory Allocated 峰值,确认静态显存占用显著下降。详见md文档描述
See merge request: Ascend/MindSpeed!3369 | 1 个月前 |