MindSpore框架模型支持列表

MindSpore框架根据模型实现方式分为稠密模型和稀疏模型,详情请查看以下支持列表。

表格字段说明

  • 模型:模型名称
  • 下载链接:模型权重下载地址,点击可直接访问Hugging Face等模型仓库
  • 脚本位置:模型在本项目中的训练脚本路径,可用于快速定位和使用模型
  • 序列长度:支持的最大文本序列长度
  • 训练后端:仅支持以mcore方式实现的模型,对Legacy方式实现的模型无支持计划。
  • 集群规模:模型训练时推荐使用的集群规模配置,格式为"节点数×卡数"
  • 支持版本:最终支持的维护版本,空白表示从上线起到当前master分支均在维护

稠密模型

稠密模型(Dense Model)是传统的深度学习模型结构,其神经元之间的连接是密集的,每一层的大多数或所有神经元都与下一层的所有神经元相连。这种模型很简单,训练相对直接,但参数量较大,计算成本较高。

模型 下载链接 脚本位置 序列长度 训练后端 集群规模 支持版本
ChatGLM3 6B chatglm3 8K Mcore 1x8 2.3.0
64K Mcore 2x8
GLM4 9B glm4 8K Mcore 1x8 2.3.0
32K Mcore 2x8 2.3.0
32B 8K Mcore 2x8
CodeLlama 34B codellama 4K Mcore 2x8 2.2.0
InternLM2 20B internlm2 4K Mcore 1x8 2.2.0
32K Mcore 1x8
InternLM2.5 1.8B internlm25 32K Mcore 1x8
7B 32K Mcore 1x8
20B 32K Mcore 2x8
LLaMA2 7B llama2 4K Mcore 1x8 2.3.0
16K Mcore 1x8
32K Mcore 1x8
13B 4K Mcore 1x8 2.3.0
34B 4K Mcore 2x8
70B 4K Mcore 4x8
LLaMA3 8B llama3 8K Mcore 1x8 2.3.0
70B 8K Mcore 4x8
LLaMA3.1 8B llama31 8K Mcore 1x8 2.3.0
128K Mcore 4x8 支持中
70B 8K Mcore 4x8
LLaMA3.2 1B llama32 8K Mcore 1x8 2.3.0
3B 8K Mcore 1x8
LLaMA3.3 70B-Instruct llama33 8K Mcore 4x8
Qwen1.5 0.5B qwen15 8K Mcore 1x8 2.2.0
1.8B 8K Mcore 1x8
4B 8K Mcore 1x8
7B 8K Mcore 1x8
14B 8K Mcore 1x8
32B 8K Mcore 4x8
72B 8K Mcore 8x8
110B 8K Mcore 8x8
CodeQwen1.5 7B 8K Mcore 1x8 2.2.0
Qwen2 7B qwen2 4K Mcore 1x8 2.2.0
Qwen2.5 0.5B qwen25 32K Mcore 1x8
1.5B 32K Mcore 1x8
3B 32K Mcore 1x8
7B 4K Mcore 1x8 2.3.0
32K Mcore 1x8 2.3.0
14B 4K Mcore 1x8 2.3.0
32K Mcore 2x8
32B 4K Mcore 4x8
32K Mcore 4x8
72B 4K Mcore 4x8
32K Mcore 8x8
Qwen3 0.6B qwen3 4K Mcore 1x8 2.3.0
1.7B 4K Mcore 1x8
4B 4K Mcore 1x8
8B 4K Mcore 1x8
14B 4K Mcore 1x8
32B 4K Mcore 2x8
Yi 34B yi 4K Mcore 2x8 2.2.0
Yi1.5 6B yi15 4K Mcore 1x8 2.2.0
9B 4K Mcore 1x8
34B 4K Mcore 2x8
Mistral 7B mistral 32K Mcore 1x8 2.2.0
Gemma 2B gemma 8K Mcore 1x8 2.2.0
7B 8K Mcore 1x8
Gemma2 9B gemma2 8K Mcore 1x8
27B 8K Mcore 2x8
grok-1 40B grok-1 8K Mcore 4x8
MiniCPM 2B minicpm 4K Mcore 1x8 2.2.0
Phi3.5 mini-instruct phi35 4K Mcore 1x8 2.3.0
DeepSeek-R1-Distill-Qwen 1.5B deepseek_r1_distill_qwen 4K Mcore 1x8 2.2.0
7B 4K Mcore 1x8
14B 4K Mcore 1x8
32B 8K Mcore 2x8
DeepSeek-R1-Distill-LLaMA 8B deepseek_r1_distill_llama 8K Mcore 1x8 2.2.0
70B 8K Mcore 4x8

稀疏模型

稀疏模型(Sparse Model)采用了稀疏连接的神经元结构,只有少数神经元之间存在连接。典型的稀疏模型如混合专家模型(Mixture of Experts, MoE),包含多个专家网络,每次训练只激活部分专家。这种设计可以显著减少参数量和计算复杂度,提高训练效率,特别适合处理大规模数据集和复杂任务。但稀疏模型训练也存在缺点,易出现专家负载不均衡导致训练不稳定。

模型 下载链接 脚本位置 序列长度 训练后端 集群规模 支持版本
Qwen3 30B qwen3_moe 4K Mcore 2x8
235B 4K Mcore 16x16
Qwen2 57B-A14B qwen2_moe 4K Mcore 8x8 2.2.0
Mixtral 8x7B mixtral 32K Mcore 8x8 2.2.0
8x22B 32K Mcore 8x8
64K Mcore 8x8
DeepSeek-V2 236B deepseek2 8K Mcore 20x8 2.2.0
DeepSeek-V2-coder 236B deepseek2_coder 8K Mcore 20x8 2.2.0
DeepSeek-V2-Lite 16B deepseek2_lite 8K Mcore 1x8 2.3.0
DeepSeek-V2.5 236B deepseek25 8K Mcore 20x8 支持中
DeepSeek-V3 671B deepseek3 4K Mcore 64x8
MiniCPM 8x2B minicpm 4K Mcore 1x8 2.2.0
Phi3.5 MoE-instruct phi35 4K Mcore 2x8
GLM4.5 106B glm45-moe 4K Mcore 8x16