MindSpore后端支持说明
MindSpeed MM已支持接入华为自研AI套件MindSpore,旨在提供华为全栈易用的端到端的多模态模型训练解决方案,以此获得更极致的性能体验。MindSpore后端提供了一套对标PyTorch的API,用户无需进行额外代码适配即可无缝切换。
🔥🔥🔥Latest News
🚀🚀🚀 MindSpore后端已支持CogVideoX、Qwen2.5VL、Qwen25Omni、Qwen3VL模型。
版本配套
MindSpeed MM + MindSpore后端的依赖配套如下表,安装步骤参考基础安装指导。
| 依赖软件 | |
|---|---|
| 昇腾NPU驱动固件 | 在研版本 |
| 昇腾 CANN | 在研版本 |
| MindSpore | 2.7.2 |
| Python | >=3.10 |
环境部署
具体部署步骤请查看部署文档。
快速上手
快速上手操作请查看快速上手文档。
模型/特性介绍
已支持特性概览
| 模型 \ 特性 | TP | TP-SP | VPP | PP | CP | EP | Distributed Optimizer | Recomputation | LoRA |
|---|---|---|---|---|---|---|---|---|---|
| CogVideoX系列-T2V | ✔ | ✔ | CP (Ulysses) | ✔ | ✔ | ||||
| CogVideoX系列-I2V | ✔ | ✔ | CP (Ulysses) | ✔ | ✔ | ||||
| Qwen2.5VL-7B | ✔ | ✔ | ✔ | ||||||
| Qwen2.5VL-72B | ✔ | ✔ | ✔ | ||||||
| Qwen2.5Omni-7B | ✔ | ✔ | |||||||
| Qwen3VL-8B | ✔ | ✔ | ✔ | ||||||
| Qwen3VL-30B | ✔ | ✔ | ✔ | ✔ |
备注:
- TP: Tensor Parallel
- TP-SP: Tensor Parallel with Sequence Parallel
- VPP: Virtual Pipeline Parallel
- PP: Pipeline Parallel
- DSP: Dynamic Sequence Parallel
- CP (Ulysses): Context Parallel by leveraging Deepspeed Ulysses with Sequence Parallel
- CP (Ring Attention): Context Parallel with Ring Attention
- Distributed Optimizer: Zero Redundancy Optimizer (ZeRO)
- Recomputation: Reducing Activation Recomputation
- LoRA: Low-Rank Adaptation
支持模型
| 模型任务 | 模型 | 参数量 | 任务 | 集群 | 精度格式 | NPU性能 | 参考性能 | 平均序列长度 | 支持情况 | 支持版本 |
|---|---|---|---|---|---|---|---|---|---|---|
| 多模态生成 | ||||||||||
| CogVideoX-T2V | 5B | 预训练 | 1x8 | BF16 | 0.46 (SPS) | / | ✅ | 2.3.0 | ||
| CogVideoX-I2V | 5B | 预训练 | 1x8 | BF16 | 0.46 (SPS) | / | ✅ | 2.3.0 | ||
| CogVideoX 1.5-T2V | 5B | 预训练 | 1x8 | BF16 | 2.09 (SPS) | / | ✅ | 2.3.0 | ||
| 5B | Lora微调 | 1x8 | BF16 | 3.03 (SPS) | / | 支持中 | ||||
| CogVideoX 1.5-I2V | 5B | 预训练 | 1x8 | BF16 | 2.01 (SPS) | / | ✅ | 2.3.0 | ||
| 5B | Lora微调 | 1x8 | BF16 | 3.92 (SPS) | / | 支持中 | ||||
| Wan2.1-I2V | 1.3B | 预训练 | 1x8 | BF16 | 0.61 (SPS) | / | ✅ | 2.3.0 | ||
| Wan2.1-T2V | 1.3B | 预训练 | 1x8 | BF16 | 0.73 (SPS) | / | ✅ | 2.3.0 | ||
| 1.3B | Lora微调 | 1x8 | BF16 | / | / | 支持中 | ||||
| 多模态理解 | Qwen2.5-VL | 3B | 微调 | 1x8 | BF16 | 21.79 (SPS) | 563 | 支持中 | ||
| 7B | 微调 | 1x8 | BF16 | 12.67 (SPS) | 563 | ✅ | 2.3.0 | |||
| 32B | 微调 | 2x8 | BF16 | / | 563 | 支持中 | ||||
| 72B | 微调 | 8x8 | BF16 | 256.28 (TPS) | 563 | ✅ | 2.3.0 | |||
| Qwen25Omni | 7B | 微调 | 1x8 | BF16 | / | / | ✅ | 2.3.0 | ||
| Qwen3VL | 8B | 微调 | 1x8 | BF16 | / | / | ✅ | 2.3.0 | ||
| 30B | 微调 | 1x16 | BF16 | / | / | ✅ | 2.3.0 |
特性规划
工具使用
昇腾Profiling采集工具
MindSpeed MM集成了昇腾profiling采集工具,以提供对模型运行情况的分析。该工具能够依照配置采集模型的算子、显存等关键信息,同时支持动静态两种采集方式,协助开发者分析模型瓶颈,并可根据实际场景需求选择使用。
具体方法见 README 的profiling章节。
MindStudio Insight性能分析工具
针对大模型集群场景的性能调优,这里推荐一款优秀的可视化调优工具MindStudio Insight。 MindStudio Insight提供了包括Timeline视图、通信分析、计算耗时等的可视化呈现,以便用户分析潜在的性能瓶颈,并指导如何采取措施消除或减少这些瓶颈。
具体使用方法见《MindStudio Insight操作指南》,下载地址《MindStudio Insight》。