多模态生成模型量化
模型介绍
SD3 Stable Diffusion 3, 由stability.ai发布的强大的文本到图像模型,在多主题提示、图像质量和拼写功能方面的性能得到了大幅提升。
Open-Sora-Plan v1.2 是一个开源的多模态视频生成模型,由北大-兔展AIGC联合实验室共同发起,专注于高效视频生成任务。
Flux.1是由 Black Forest Labs 开发的一款开源的 120 亿参数的图像生成模型,它能够根据文本描述生成高质量的图像。
HunyuanVideo 是腾讯发布的一种新颖的开源视频基础模型,它在视频生成方面的性能可与领先的闭源模型相媲美,甚至优于领先的闭源模型。
Wan2.1 是阿里巴巴发布的一套全面且开放的视频基础模型,它突破了视频生成的界限。支持文本到视频(T2V)、图像到视频(I2V)、文本到图像(T2I)等多种生成任务。
环境配置
- 配套CANN版本请选择8.2.RC1及之后的版本
- 具体环境配置请参考使用说明
- 当前多模态生成模型统一接口依赖于pydantic库
- pip install pydantic
- SD3-Medium依赖于diffusers库
- pip install -U diffusers
- Open-Sora-Plan v1.2相关环境配置参考MindIE/open_sora_planv1_2
- 参考 open_sora_planv1_2 readme 安装浮点模型的环境依赖,并确保浮点推理能正常运行
- pip install huggingface_hub==0.25.2
- Flux.1-dev相关环境配置参考MindIE/FLUX.1-dev
- 参考 Flux readme 安装浮点模型的环境依赖,并确保浮点推理能正常运行
- HunyuanVideo相关环境配置参考MindIE/hunyuan_video
- 参考 HunyuanVideo readme 安装浮点模型的环境依赖,并确保浮点推理能正常运行
- Wan2.1相关环境配置参考MindIE/Wan2.1
- 参考 Wan2.1 readme 安装浮点模型的环境依赖,并确保浮点推理能正常运行
支持的模型版本与量化策略
| 模型系列 | 模型版本 | HuggingFace链接 | W8A8 | W8A16 | W4A16 | W4A4 | 稀疏量化 | KV Cache | Attention | 时间步量化 | FA3量化 | 量化命令 |
|---|---|---|---|---|---|---|---|---|---|---|---|---|
| SD3 | SD3-Medium | SD3-Medium | ✅ | W8A8静态量化 | ||||||||
| Open-Sora-Plan | Open-Sora-Plan v1.2 | Open-Sora-Plan v1.2 | ✅ | W8A8静态量化 | ||||||||
| FLUX | FLUX.1-dev | FLUX.1-dev | ✅ | ✅ | ✅ | ✅ | W8A8静态量化 / W8A8分时间步量化 / FA3+W8A8动态量化 / 异常值抑制+W8A8动态量化 | |||||
| HunyuanVideo | HunyuanVideo | HunyuanVideo | ✅ | ✅ | ✅ | ✅ | W8A8静态量化 / W8A8分时间步量化 / FA3+W8A8动态量化 / 异常值抑制+W8A8动态量化 | |||||
| Wan2.1 | Wan2.1-T2V-14B | Wan2.1-T2V-14B | ✅ | W8A8动态量化 |
说明:
- ✅ 表示该量化策略已通过msModelSlim官方验证,功能完整、性能稳定,建议优先采用。
- 空格表示该量化策略暂未通过msModelSlim官方验证,用户可根据实际需求进行配置尝试,但量化效果和功能稳定性无法得到官方保证。
- 点击量化命令列中的链接可跳转到对应的具体量化命令
使用案例
使用量化前,需要加载模型和校准数据,其中加载模型依赖于diffusers库(如SD3-Medium)或多模态生成模型魔乐社区推理工程仓(如Open-Sora-Plan v1.2、Flux.1-dev、HunyuanVideo、Wan2.1),请先确保依据推理工程仓可以正常进行浮点推理。
- Open-Sora-Plan v1.2推理工程仓:MindIE/open_sora_planv1_2
- Flux.1-dev推理工程仓:MindIE/FLUX.1-dev
- HunyuanVideo推理工程仓MindIE/hunyuan_video
- Wan2.1推理工程仓MindIE/Wan2.1