MindSpeed-LLM/docs/pytorch/models/moe_model.md-代码预览-MindSpeed-LLM:基于昇腾生态的大语言模型分布式训练套件 - AtomGit

8f995bcb创建于 2025年11月29日历史提交

MindSpeed-LLM 预置MoE大模型

认证【Pass】表示经过昇腾官方版本测试的模型。【Test】表示模型处于内部测试阶段，未完成充分的性能测试和验收，在实际使用中可能存在未被发现的问题，待后续充分验证后会发布正式版本。相关使用问题可反馈至MindSpeed-LLM/issues。

版本要求：CANN版本≥8.1.RC1，PTA版本≥7.0.RC1。

MTP说明：master分支是参考Megatron-LM实现，与2.0.0分支实现方案不同，训练loss表现不一致，使能方式如下：

# MTP层数
--mtp-num-layers
# MTP loss系数
--mtp-loss-scaling-factor

DeepSeek2：使用examples/mcore/deepseek2/pretratin_deepseek2_100b_8k_C_ptd.sh进行八机预训练任务时，需确保首节点有1.2T的host内存，第二节点有1.1T的host内存，以此类推。可通过以下命令进行查询
```
# 查询host内存，通过free字段确定当前可用host内存
free -h
```