MindSpeed MM 支持模型列表

【现版本实测性能(硬件信息:Atlas 900 A2 PODc)】

下述列表中支持的模型,我们在各模型的README文件中提供了相应的使用说明,里面有详细的模型训练、推理、微调等流程

模型列中的超链接指向各模型的文件夹地址, 参数量列中的超链接指向模型的社区资源地址

认证【Pass】表示已经通过测试的模型,【Test】表示测试中的模型

Samples per Second 为 (SPS); Frames per Second 为 (FPS); Tokens per Second 为 (TPS)

(注:此处SPS、FPS展示集群吞吐;TPS展示单卡吞吐)

平均序列长度是指在性能测试过程中所使用数据集的平均序列长度,通过统计各个序列长度的出现频率进行加权平均计算得出

亲和场景为调整少量结构或参数,使得模型更加亲和昇腾,性能更优

A3 为硬件 Atlas A3 训练系列产品

MindSpeed MM模型列表
模型任务 模型 参数量 任务 集群 精度格式 NPU性能 参考性能 平均序列长度 认证
多模态生成
Lumina-mGPT 2.0 7B 微调 1x8 BF16 8.24 (SPS) 8.79 (SPS) 1024 【Pass】
OpenSoraPlan1.5 8.5B 预训练 1x8 BF16 0.83 (SPS) / / 【北大贡献】
Wan2.2-T2V 5B 预训练 1x4 (A3) BF16 3.18 (SPS) 2.93 (SPS) / 【Test】
A14B 预训练 1x8 (A3) BF16 0.710 (SPS) 0.292 (SPS) / 【Test】
Wan2.2-TI2V 5B 预训练 1x4 (A3) BF16 3.18 (SPS) 2.93 (SPS) / 【Test】
Wan2.2-I2V A14B 预训练 1x8 (A3) BF16 0.671 (SPS) 0.294 (SPS) / 【Test】
Wan2.1-T2V 1.3B 预训练 1x8 BF16 0.918 (SPS) 1.04 (SPS) / 【Pass】
1.3B Lora微调 1x8 BF16 0.954 (SPS) 1.042 (SPS) / 【Pass】
14B 预训练 1x8 BF16 0.160 (SPS) 0.160 (SPS) / 【Pass】
14B Lora微调 1x8 BF16 0.179 (SPS) 0.174 (SPS) / 【Pass】
Wan2.1-I2V 1.3B 预训练 1x8 BF16 0.76 (SPS) / / 【Pass】
14B 预训练 1x8 BF16 0.130 (SPS) / / 【Pass】
14B Lora微调 1x8 BF16 0.179 (SPS) 0.173 (SPS) / 【Pass】
Self-Forcing 1.3B DMD蒸馏 1x8 BF16 0.225 (FPS) 0.282 (FPS) / 【Test】
HunyuanVideo-T2V 13B 预训练 1x8 BF16 0.171 (SPS) 0.181 (SPS) / 【Pass】
HunyuanVideo-I2V 13B 预训练 1x8 BF16 0.164 (SPS) 0.202 (SPS) / 【Pass】
HunyuanVideo1.5-T2V 8B 预训练 1x8 BF16 / / / 【Pass】
OpenSora 1.0 5.5B 预训练 1x8 BF16 3.18 (SPS) 2.04 (SPS) / 【Pass】
OpenSora 1.2 5.2B 预训练 1x8 BF16 7.31 (SPS) 8.15 (SPS) / 【Test】
OpenSora 2.0-T2V 11B 预训练 1x8 BF16 1.33 (SPS) 1.46 (SPS) / 【Pass】
OpenSoraPlan 1.2 8.7B 预训练 1x8 BF16 0.42 (SPS) 0.37 (SPS) / 【Pass】
OpenSoraPlan 1.3-T2V 8.6B 预训练 1x8 BF16 1.29 (SPS) 1.27 (SPS) / 【Pass】
OpenSoraPlan 1.3-I2V 8.6B 预训练 1x8 BF16 1.17 (SPS) 1.15 (SPS) / 【Pass】
WFVAE 0.18B 预训练 1x8 BF16 23.860 (SPS) 26.091 (SPS) / 【Pass】
CogVideoX-T2V 5B 预训练 1x8 BF16 1.14 (SPS) 1.00 (SPS) 6976 【Pass】
CogVideoX-I2V 5B 预训练 1x8 BF16 1.13 (SPS) 0.84 (SPS) 6976 【Pass】
CogVideoX 1.5-T2V 5B 预训练 1x8 BF16 1.44 (SPS) 1.75 (SPS) 6976 【Pass】
5B Lora微调 1x8 BF16 2.76 (SPS) 2.64 (SPS) / 【Pass】
CogVideoX 1.5-I2V 5B 预训练 1x8 BF16 1.43 (SPS) 1.44 (SPS) 6976 【Pass】
5B Lora微调 1x8 BF16 2.33 (SPS) 2.04 (SPS) / 【Pass】
Qihoo-T2X 1.1B 推理 1x1 BF16 / / / 【奇虎360贡献】
SDXL 3.5B 预训练 1x8 BF16 29.92 (FPS) 30.65 (FPS) / 【Pass】
3.5B 预训练 1x8 FP16 28.51 (FPS) 30.23 (FPS) / 【Pass】
SD3.5 8.1B 全参微调 1x8 BF16 26.20 (FPS) 28.33 (FPS) / 【Pass】
8.1B Lora微调 1x8 FP16 47.93 (FPS) 47.95 (FPS) / 【Pass】
Flux 12B 全参微调 1x8 BF16 55.23 (FPS) 53.65 (FPS) / 【Pass】
Flux2-T2I 32B 全参微调 1x8 BF16 1.28 (FPS) 1.24 (FPS) / 【Test】
Flux2-I2I 32B 全参微调 1x8 BF16 0.61 (FPS) 0.60 (FPS) / 【Test】
Flux-Kontext 12B 全参微调 1x8 BF16 1.97 (FPS) 2.00 (FPS) / 【Pass】
Qwen-Image 27B Lora微调 1x8 BF16 23.02 (FPS) 21.54 (FPS) / 【Pass】
Qwen-Image-Edit 27B Lora微调 1x8 BF16 20.59 (FPS) 17.47 (FPS) / 【Test】
多模态理解
GLM-4.1V 9B 微调 1x8 BF16 1074.64(TPS) 908.49(TPS) 707 【Pass】
DeepSeek-OCR 3B 微调 1x8 BF16 1327.694(TPS) / / 【Test】
LLaVA 1.5 7B 全参微调 1x8 BF16 3632.31 (TPS) 3757.98 (TPS) 602 【Test】
InternVL 2.0 2B 微调 1x8 BF16 7653.12 (TPS) 5089.99 (TPS) 1813 【Pass】
8B 微调 1x8 BF16 2914.39 (TPS) 2492.87 (TPS) 1813 【Pass】
26B 微调 1x8 BF16 750.12 (TPS) 738.79 (TPS) 1813 【Pass】
76B 全参微调 8x16 BF16 214 (TPS) 191 (TPS) 1813 【Pass】
InternVL 2.5 78B 微调 8x8 BF16 228.33 / 1896 【Test】
InternVL 3.0 8B 微调 1x8 BF16 2344.58 (TPS) 2211.93 (TPS) 2653 【Pass】
78B 微调 4x8 (A3) BF16 228.82 (TPS) 283.15 (TPS) 1932 【Pass】
InternVL 3.5 30B 微调 1x8 (A3) BF16 52.76 (TPS) 47.73 (TPS) 201 【Test】
Qwen2-VL 2B 微调 1x8 BF16 2941.17 (TPS) 3004.04 (TPS) 689 【Pass】
7B 微调 1x8 BF16 1143.74 (TPS) 1004.22 (TPS) 689 【Pass】
72B 微调 4x8 (A3) BF16 261.25 (TPS) 257.63 (TPS) 689 【Pass】
Qwen2.5-VL 3B 微调 1x8 BF16 2047.19 (TPS) 1876.66 (TPS) 689 【Pass】
7B 微调 1x8 BF16 1620.87 (TPS) 1091.20 (TPS) 689 【Pass】
32B 微调 2x8 BF16 257.50 (TPS) / 689 【Pass】
72B 微调 4x8 (A3) BF16 322.96 (TPS) 256.28 (TPS) 689 【Pass】
Qwen3-VL 8B 微调 1x8 BF16 146.54 (TPS) 129.71 (TPS) 179 【Test】
30B 微调 1x8 (A3) BF16 179.57 (TPS) / 185 【Test】
235B 微调 16x8 (A3) BF16 598.05 (TPS) / 16116 【Test】
Qwen2.5-Omni 7B 微调 1x8 BF16 575.01 (TPS) 534.28 (TPS) 296 【Pass】
Qwen3-Omni 30B 微调 2x4 (A3) BF16 131.3 (TPS) 16.4 (TPS) 288 【Test】
Magistral-Small-2509 24B 微调 1x8 BF16 1.843 (SPS) 1.185 (SPS) / 【Test】
语音识别 Whisper 1.5B 预训练 1x8 BF16 93.38 (SPS) 109.23 (SPS) / 【Test】
语音生成 CosyVoice3 0.5B 预训练 1x8 BF16 290.91 (SPS) 326.11 (SPS) 24 【Test】