ascend-robot[Modify] Fix document formatting errors

parameter_lr_wd_tuning

问题分析

多模态大模型涉及多种模态融合，例如VLM模型包含视觉编码器、语言解码器等多类模块，不同模块（如视觉特征提取层、语言注意力层、偏置/归一化层）对学习率（LR）和权重衰减（WD）的敏感度存在差异。全局统一的LR/WD配置无法适配各模块的差异化优化需求，可能导致部分模块欠拟合或过拟合，影响模型多模态对齐效果和最终模型性能。

解决方案

新增参数名关键词驱动的LR缩放与WD排除功能：

支持通过关键词匹配参数名，对指定参数排除权重衰减，避免特定等参数因WD导致的优化偏差；
支持通过关键词匹配参数名，对指定参数（如VLM的视觉模块）应用自定义LR乘数，实现精细化的参数级学习率调控；
所有匹配逻辑采用大小写不敏感的字符串匹配

使用方法

上述特性默认关闭，如需启用，在模型启动shell训练脚本中添加如下参数（以下仅做配置方式展示，需根据实际需要修改）：

GPT_ARGS="
    ...
    --weight-decay-exclude-modules norm bias \ # 排除指定参数的权重衰减，根据实际需要设置参数关键词
    --lr-scale-modules vision \  # 对视觉模块参数缩放学习率（如mult=0.5）
    --lr-mult 0.5 \
"