快速开始

本章节以 Wan2.1 模型为例,展示如何使用 MindIE SD 进行文本生成视频,关于该模型的更多推理内容请参见 Modelers - MindIE

开始推理前,请先按 安装指导 完成环境准备和 MindIE SD 安装。

模型下载与运行

1. 获取推理脚本

从魔乐社区克隆 Wan2.1 推理脚本仓库,并安装依赖:

git clone https://modelers.cn/MindIE/Wan2.1.git && cd Wan2.1
pip install -r requirements.txt

2. 获取模型权重

上述仓库包含推理脚本,不包含模型权重文件。权重需要单独下载,以 Wan2.1 为例,支持以下模型:

模型 说明 权重下载
Wan2.1-T2V-14B 文生视频 HuggingFace
Wan2.1-I2V-14B-480P 图生视频(480P) HuggingFace
Wan2.1-I2V-14B-720P 图生视频(720P) HuggingFace

下载完成后,权重目录结构应如下(以 Wan2.1-T2V-14B 为例):

Wan2.1-T2V-14B/
├── config.json
├── model_index.json
├── models/
│   ├── dit/
│   ├── vae/
│   └── text_encoder/
└── ...

说明

  • 除 HuggingFace 外,也可从 modelscope 获取模型权重。
  • 如需下载其他模型的权重(FLUX.1-dev、HunyuanVideo 等),请参见模型/框架支持情况中的链接。

3. 运行推理

将权重路径设置到 model_base 参数,运行推理脚本。参数解释详情请参见参数配置

# Wan2.1-T2V-14B 8 卡推理
cp MindIE-SD/examples/wan/infer_t2v.sh ./
export model_base="/path/to/Wan2.1-T2V-14B"
bash infer_t2v.sh

加速效果展示

下面以 Wan2.1 模型为例,展示在 Atlas 800I A2 推理服务器(1*64G)上单卡和多卡实现不同加速特性的加速效果。

其中:

单卡加速效果

Cache 加速效果

Baseline + Cache 加速比1.6 + Cache 加速比2.0 + Cache 加速比2.4
860.2s 631.7s 1.36x 541.8s 1.59x 516.9s *1.66x

并行策略效果

双卡单个并行策略效果

模型 卡数 并行策略 视频输出分辨率 算子优化 cache 算法优化 FA 稀疏 50 步 E2E 耗时(s) 加速比
Wan2.1 2 VAE 832*480 548.8 1.02x
Wan2.1 2 TP 832*480 502.8 1.12x
Wan2.1 2 CFG 832*480 332.6 1.69x
Wan2.1 2 Ulysses 832*480 327.6 *1.71x

注:* 表示最优加速效果。

多卡并行策略组合效果

模型 卡数 并行策略 视频输出分辨率 算子优化 cache 算法优化 FA 稀疏 50 步 E2E 耗时(s) 加速比
Wan2.1 4 TP=4, VAE 832*480 204.0 2.754x
Wan2.1 4 CFG=2, TP=2, VAE 832*480 175.8 3.19x
Wan2.1 4 Ulysses=4, VAE 832*480 151.1 3.71x
Wan2.1 4 CFG=2, Ulysses=2, VAE 832*480 147.9 *3.79x
Wan2.1 8 TP=8, VAE 832*480 141.5 3.96x
Wan2.1 8 CFG=2, TP=4, VAE 832*480 102.9 5.45x
Wan2.1 8 Ulysses=8, VAE 832*480 78.1 7.18x
Wan2.1 8 CFG=2, Ulysses=4, VAE 832*480 76.4 *7.34x

注:* 表示最优加速效果。