版本配套说明
产品版本信息
| 项目 | 内容 |
|---|---|
| 产品名称 | MindIE SD |
| 产品版本 | 3.0.0 |
| 版本类型 | 正式版本 |
| 维护周期 | 三个月 |
相关产品版本配套说明
| 产品名称 | 版本 |
|---|---|
| CANN | 8.5.1 |
| Ascend Extension for PyTorch | 7.3.0 |
| Ascend HDK | 版本配套关系参见 CANN版本配套说明(注:CANN 8.5.1和CANN 8.5.0版本配套的HDK版本一致) |
版本兼容性说明
MindIE SD各组件需要配套使用,请勿跨版本混用各组件。
表 1 软件版本兼容性说明
| CANN | Ascend Extension for PyTorch |
|---|---|
| 8.5.1 | 7.3.0 |
版本使用注意事项
暂无
3.0.0更新说明
新增特性
| 编号 | 详细 |
|---|---|
| 1 | 量化能力增强。支持 FA dynamic FP8,新增 W4A4_DYNAMIC 量化格式,补齐 W4A4 量化算法公共逻辑,并新增 W4A4MXFP4DualQuantLinear 能力,提升多种量化场景下的适配范围与部署灵活性。 |
| 2 | 算子与插件能力增强。新增 aclnn LayerNorm 插件和对外接口,新增 adaLayerNormV2 插件及 layer 实现,同时补充 sparse_block_estimate、block_sparse_attention、laser_attention、la_preprocess 等 aclnn 能力,增强算子覆盖度。 |
| 3 | 运行时能力增强。新增多实例共享内存能力,支持多个实例共享权重内存,降低重复占用;新增 block 级 CPU offload 能力,支持细粒度模块在 CPU 与 NPU 之间动态搬运,缓解显存压力。 |
| 4 | 注意力与布局适配增强。attention_forward 与 rf_v2 支持 BNSD layout 输入,支持通过环境变量指定使用 FA,降低上层模型接入改造成本。 |
| 5 | 调度与服务能力增强。新增 Dynamic EPLB 调度能力,新增服务化样例支持,并完成 wan2.2 服务侧同步适配与精度修复,提升服务部署与推理场景可用性。 |
| 6 | 量化算子底层实现优化。将原有基于 torch-atb 实现的量化算子统一迁移为 aclnn 原生算子,提升算子兼容性与稳定性,可完美支持 torch.compile 等编译优化特性,增强框架适配能力。 |
修改特性
| 编号 | 详细 |
|---|---|
| 1 | 自定义 plugin 算子命名移除 _mindie_sd 后缀,namespace 统一切换为 mindiesd,命名规范进一步统一。 |
| 2 | FA 量化场景下,FIA 算子输出格式调整为与输入 query 格式保持一致,降低格式不一致带来的兼容性问题。 |
| 3 | 针对 npu_quant_matmul 算子新增约束完成适配,减少新旧约束切换带来的接入风险。 |
| 4 | aclnn 编译工程完成体系化适配,构建链路、目录管理和错误处理能力得到增强,提升算子工程构建效率与稳定性。 |
删除特性
无
接口变更说明
本章节的接口变更说明包括新增、修改、废弃和删除。接口变更只体现代码层面的修改,不包含文档本身在语言、格式、链接等方面的优化改进。
- 新增:表示此次版本新增的接口。
- 修改:表示本接口相比于上个版本有修改。
- 废弃:表示该接口自作出废弃声明的版本起停止演进,且在声明一年后可能被移除。
- 删除:表示该接口在此次版本被移除。
| 类名/API原型 | 变更类别 | 变更说明 |
|---|---|---|
| • def mindiesd.layernorm_scale_shift • def mindiesd.fast_layernorm • def mindiesd.sparse_attention |
新增 | 新增接口 |
| • class mindiesd.Linear • class mindiesd.QuantFA |
删除 | 删除接口 |
已解决的问题
| 序号 | 类别 | 问题描述 |
|---|---|---|
| 1 | 安装与兼容性 | 安装编译后的 MindIE-SD 运行测试时出现 libopapi.so 缺失问题,影响安装后测试与基础功能验证。 |
| 2 | 安装与兼容性 | 对较新版本 torch 的兼容性不足,影响与新版本推理镜像协同使用。 |
| 3 | 安装与兼容性 | 构建包缺少 plugin,影响安装包完整性和插件能力加载。 |
| 4 | 算子与编译场景 | Flux.1-dev 在新环境开启 compile 后调用 aclnnAdaLayerNorm 失败,导致编译加速路径不可用。 |
| 5 | 算子与编译场景 | test_rainfusionattention.py 中接口使用错误,导致相关测试执行失败。 |
| 6 | 缓存与测试质量 | DiT Cache Agent 中 block_end 校验与左闭右开规则不一致,影响缓存场景使用。 |
| 7 | 缓存与测试质量 | 测试精度对比方式单一,仅使用余弦相似度,精度评估维度不够完整。 |
遗留问题
| 序号 | 类别 | 问题描述 |
|---|---|---|
| 1 | 算子 | 缺乏基于CATLASS和Triton实现的矩阵乘法算子 |
| 2 | 易用性提升 | 需支持更多的扩展,比如cache-dit等 |
| 3 | 性能提升 | 需支持更多的并行通算掩盖和融合方案 |
升级影响
升级过程中对现行系统的影响
-
对业务的影响
软件版本升级过程中会导致业务中断。
-
对网络通信的影响
对网络通信无影响。
升级后对现行系统的影响
暂无
漏洞修补列表
暂无