MindSpore框架模型支持列表
MindSpore框架根据模型实现方式分为稠密模型和稀疏模型,详情请查看以下支持列表。
表格字段说明:
- 模型:模型名称
- 下载链接:模型权重下载地址,点击可直接访问Hugging Face等模型仓库
- 脚本位置:模型在本项目中的训练脚本路径,可用于快速定位和使用模型
- 序列长度:支持的最大文本序列长度
- 训练后端:仅支持以mcore方式实现的模型,对Legacy方式实现的模型无支持计划。
- 集群规模:模型训练时推荐使用的集群规模配置,格式为"节点数×卡数"
- 支持版本:最终支持的维护版本,空白表示从上线起到当前master分支均在维护
稠密模型
稠密模型(Dense Model)是传统的深度学习模型结构,其神经元之间的连接是密集的,每一层的大多数或所有神经元都与下一层的所有神经元相连。这种模型很简单,训练相对直接,但参数量较大,计算成本较高。
| 模型 | 下载链接 | 脚本位置 | 序列长度 | 训练后端 | 集群规模 | 支持版本 |
|---|---|---|---|---|---|---|
| ChatGLM3 | 6B | chatglm3 | 8K | Mcore | 1x8 | 2.3.0 |
| 64K | Mcore | 2x8 | ||||
| GLM4 | 9B | glm4 | 8K | Mcore | 1x8 | 2.3.0 |
| 32K | Mcore | 2x8 | 2.3.0 | |||
| 32B | 8K | Mcore | 2x8 | |||
| CodeLlama | 34B | codellama | 4K | Mcore | 2x8 | 2.2.0 |
| InternLM2 | 20B | internlm2 | 4K | Mcore | 1x8 | 2.2.0 |
| 32K | Mcore | 1x8 | ||||
| InternLM2.5 | 1.8B | internlm25 | 32K | Mcore | 1x8 | |
| 7B | 32K | Mcore | 1x8 | |||
| 20B | 32K | Mcore | 2x8 | |||
| LLaMA2 | 7B | llama2 | 4K | Mcore | 1x8 | 2.3.0 |
| 16K | Mcore | 1x8 | ||||
| 32K | Mcore | 1x8 | ||||
| 13B | 4K | Mcore | 1x8 | 2.3.0 | ||
| 34B | 4K | Mcore | 2x8 | |||
| 70B | 4K | Mcore | 4x8 | |||
| LLaMA3 | 8B | llama3 | 8K | Mcore | 1x8 | 2.3.0 |
| 70B | 8K | Mcore | 4x8 | |||
| LLaMA3.1 | 8B | llama31 | 8K | Mcore | 1x8 | 2.3.0 |
| 128K | Mcore | 4x8 | 支持中 | |||
| 70B | 8K | Mcore | 4x8 | |||
| LLaMA3.2 | 1B | llama32 | 8K | Mcore | 1x8 | 2.3.0 |
| 3B | 8K | Mcore | 1x8 | |||
| LLaMA3.3 | 70B-Instruct | llama33 | 8K | Mcore | 4x8 | |
| Qwen1.5 | 0.5B | qwen15 | 8K | Mcore | 1x8 | 2.2.0 |
| 1.8B | 8K | Mcore | 1x8 | |||
| 4B | 8K | Mcore | 1x8 | |||
| 7B | 8K | Mcore | 1x8 | |||
| 14B | 8K | Mcore | 1x8 | |||
| 32B | 8K | Mcore | 4x8 | |||
| 72B | 8K | Mcore | 8x8 | |||
| 110B | 8K | Mcore | 8x8 | |||
| CodeQwen1.5 | 7B | 8K | Mcore | 1x8 | 2.2.0 | |
| Qwen2 | 7B | qwen2 | 4K | Mcore | 1x8 | 2.2.0 |
| Qwen2.5 | 0.5B | qwen25 | 32K | Mcore | 1x8 | |
| 1.5B | 32K | Mcore | 1x8 | |||
| 3B | 32K | Mcore | 1x8 | |||
| 7B | 4K | Mcore | 1x8 | 2.3.0 | ||
| 32K | Mcore | 1x8 | 2.3.0 | |||
| 14B | 4K | Mcore | 1x8 | 2.3.0 | ||
| 32K | Mcore | 2x8 | ||||
| 32B | 4K | Mcore | 4x8 | |||
| 32K | Mcore | 4x8 | ||||
| 72B | 4K | Mcore | 4x8 | |||
| 32K | Mcore | 8x8 | ||||
| Qwen3 | 0.6B | qwen3 | 4K | Mcore | 1x8 | 2.3.0 |
| 1.7B | 4K | Mcore | 1x8 | |||
| 4B | 4K | Mcore | 1x8 | |||
| 8B | 4K | Mcore | 1x8 | |||
| 14B | 4K | Mcore | 1x8 | |||
| 32B | 4K | Mcore | 2x8 | |||
| Yi | 34B | yi | 4K | Mcore | 2x8 | 2.2.0 |
| Yi1.5 | 6B | yi15 | 4K | Mcore | 1x8 | 2.2.0 |
| 9B | 4K | Mcore | 1x8 | |||
| 34B | 4K | Mcore | 2x8 | |||
| Mistral | 7B | mistral | 32K | Mcore | 1x8 | 2.2.0 |
| Gemma | 2B | gemma | 8K | Mcore | 1x8 | 2.2.0 |
| 7B | 8K | Mcore | 1x8 | |||
| Gemma2 | 9B | gemma2 | 8K | Mcore | 1x8 | |
| 27B | 8K | Mcore | 2x8 | |||
| grok-1 | 40B | grok-1 | 8K | Mcore | 4x8 | |
| MiniCPM | 2B | minicpm | 4K | Mcore | 1x8 | 2.2.0 |
| Phi3.5 | mini-instruct | phi35 | 4K | Mcore | 1x8 | 2.3.0 |
| DeepSeek-R1-Distill-Qwen | 1.5B | deepseek_r1_distill_qwen | 4K | Mcore | 1x8 | 2.2.0 |
| 7B | 4K | Mcore | 1x8 | |||
| 14B | 4K | Mcore | 1x8 | |||
| 32B | 8K | Mcore | 2x8 | |||
| DeepSeek-R1-Distill-LLaMA | 8B | deepseek_r1_distill_llama | 8K | Mcore | 1x8 | 2.2.0 |
| 70B | 8K | Mcore | 4x8 |
稀疏模型
稀疏模型(Sparse Model)采用了稀疏连接的神经元结构,只有少数神经元之间存在连接。典型的稀疏模型如混合专家模型(Mixture of Experts, MoE),包含多个专家网络,每次训练只激活部分专家。这种设计可以显著减少参数量和计算复杂度,提高训练效率,特别适合处理大规模数据集和复杂任务。但稀疏模型训练也存在缺点,易出现专家负载不均衡导致训练不稳定。
| 模型 | 下载链接 | 脚本位置 | 序列长度 | 训练后端 | 集群规模 | 支持版本 |
|---|---|---|---|---|---|---|
| Qwen3 | 30B | qwen3_moe | 4K | Mcore | 2x8 | |
| 235B | 4K | Mcore | 16x16 | |||
| Qwen2 | 57B-A14B | qwen2_moe | 4K | Mcore | 8x8 | 2.2.0 |
| Mixtral | 8x7B | mixtral | 32K | Mcore | 8x8 | 2.2.0 |
| 8x22B | 32K | Mcore | 8x8 | |||
| 64K | Mcore | 8x8 | ||||
| DeepSeek-V2 | 236B | deepseek2 | 8K | Mcore | 20x8 | 2.2.0 |
| DeepSeek-V2-coder | 236B | deepseek2_coder | 8K | Mcore | 20x8 | 2.2.0 |
| DeepSeek-V2-Lite | 16B | deepseek2_lite | 8K | Mcore | 1x8 | 2.3.0 |
| DeepSeek-V2.5 | 236B | deepseek25 | 8K | Mcore | 20x8 | 支持中 |
| DeepSeek-V3 | 671B | deepseek3 | 4K | Mcore | 64x8 | |
| MiniCPM | 8x2B | minicpm | 4K | Mcore | 1x8 | 2.2.0 |
| Phi3.5 | MoE-instruct | phi35 | 4K | Mcore | 2x8 | |
| GLM4.5 | 106B | glm45-moe | 4K | Mcore | 8x16 |