MindSpeed-LLM 预置MoE大模型

认证【Pass】表示经过昇腾官方版本测试的模型。【Test】表示模型处于内部测试阶段,未完成充分的性能测试和验收,在实际使用中可能存在未被发现的问题,待后续充分验证后会发布正式版本。相关使用问题可反馈至MindSpeed-LLM/issues

模型 下载链接 脚本位置 序列 实现 集群 贡献方 认证
Qwen3 30B qwen3_moe 4K Mcore 2x8 【Ascend】 【Pass】
235B 4K Mcore 16x8 【Ascend】 【Test】
Qwen2 57B-A14B qwen2_moe 4K Mcore 8x8 【GTS】 【Pass】
Mixtral 8x7B mixtral 32K Mcore 8x8 【Ascend】 【Pass】
8x22B 32K Mcore 8x8 【NAIE】 【Pass】
64K Mcore 8x8 【NAIE】 【Test】
DeepSeek-V2 236B deepseek2 8K Mcore 20x8 【Ascend】 【Pass】
DeepSeek-V2-coder 236B deepseek2_coder 8K Mcore 20x8 【Ascend】 【Test】
DeepSeek-V2-Lite 16B deepseek2_lite 8K Mcore 1x8 【Ascend】 【Pass】
DeepSeek-V2.5 236B deepseek25 8K Mcore 20x8 【NAIE】 【Test】
DeepSeek-V3 671B deepseek3 4K Mcore 64x8 【Ascend】 【Pass】
MiniCPM 8x2B minicpm 4K Mcore 1x8 【NAIE】 【Test】
Phi3.5 MoE-instruct phi35 4K Mcore 2x8 【GTS】 【Test】
Hunyuan 389B hunyuanLarge 8K Mcore 8x8 【Ascend】 【Pass】
GPT4 MoE-175B gpt4 128K Mcore 8x8 【Ascend】 【Pass】

说明

DeepSeek3模型

版本要求:CANN版本≥8.1.RC1,PTA版本≥7.0.RC1。

MTP说明:master分支是参考Megatron-LM实现,与2.0.0分支实现方案不同,训练loss表现不一致,使能方式如下:

# MTP层数
--mtp-num-layers
# MTP loss系数
--mtp-loss-scaling-factor

社区BUG列表

  1. DeepSeek2:使用examples/mcore/deepseek2/pretratin_deepseek2_100b_8k_C_ptd.sh进行八机预训练任务时,需确保首节点有1.2T的host内存,第二节点有1.1T的host内存,以此类推。可通过以下命令进行查询

    # 查询host内存,通过free字段确定当前可用host内存
    free -h