版本配套说明

产品版本信息

项目 内容
产品名称 MindIE SD
产品版本 3.0.0
版本类型 正式版本
维护周期 三个月

相关产品版本配套说明

产品名称 版本
CANN 8.5.1
Ascend Extension for PyTorch 7.3.0
Ascend HDK 版本配套关系参见 CANN版本配套说明(注:CANN 8.5.1和CANN 8.5.0版本配套的HDK版本一致)

版本兼容性说明

MindIE SD各组件需要配套使用,请勿跨版本混用各组件。

表 1 软件版本兼容性说明

CANN Ascend Extension for PyTorch
8.5.1 7.3.0

版本使用注意事项

暂无

3.0.0更新说明

新增特性

编号 详细
1 量化能力增强。支持 FA dynamic FP8,新增 W4A4_DYNAMIC 量化格式,补齐 W4A4 量化算法公共逻辑,并新增 W4A4MXFP4DualQuantLinear 能力,提升多种量化场景下的适配范围与部署灵活性。
2 算子与插件能力增强。新增 aclnn LayerNorm 插件和对外接口,新增 adaLayerNormV2 插件及 layer 实现,同时补充 sparse_block_estimate、block_sparse_attention、laser_attention、la_preprocess 等 aclnn 能力,增强算子覆盖度。
3 运行时能力增强。新增多实例共享内存能力,支持多个实例共享权重内存,降低重复占用;新增 block 级 CPU offload 能力,支持细粒度模块在 CPU 与 NPU 之间动态搬运,缓解显存压力。
4 注意力与布局适配增强。attention_forward 与 rf_v2 支持 BNSD layout 输入,支持通过环境变量指定使用 FA,降低上层模型接入改造成本。
5 调度与服务能力增强。新增 Dynamic EPLB 调度能力,新增服务化样例支持,并完成 wan2.2 服务侧同步适配与精度修复,提升服务部署与推理场景可用性。
6 量化算子底层实现优化。将原有基于 torch-atb 实现的量化算子统一迁移为 aclnn 原生算子,提升算子兼容性与稳定性,可完美支持 torch.compile 等编译优化特性,增强框架适配能力。

修改特性

编号 详细
1 自定义 plugin 算子命名移除 _mindie_sd 后缀,namespace 统一切换为 mindiesd,命名规范进一步统一。
2 FA 量化场景下,FIA 算子输出格式调整为与输入 query 格式保持一致,降低格式不一致带来的兼容性问题。
3 针对 npu_quant_matmul 算子新增约束完成适配,减少新旧约束切换带来的接入风险。
4 aclnn 编译工程完成体系化适配,构建链路、目录管理和错误处理能力得到增强,提升算子工程构建效率与稳定性。

删除特性

接口变更说明

本章节的接口变更说明包括新增、修改、废弃和删除。接口变更只体现代码层面的修改,不包含文档本身在语言、格式、链接等方面的优化改进。

  • 新增:表示此次版本新增的接口。
  • 修改:表示本接口相比于上个版本有修改。
  • 废弃:表示该接口自作出废弃声明的版本起停止演进,且在声明一年后可能被移除。
  • 删除:表示该接口在此次版本被移除。
类名/API原型 变更类别 变更说明
• def mindiesd.layernorm_scale_shift
• def mindiesd.fast_layernorm
• def mindiesd.sparse_attention
新增 新增接口
• class mindiesd.Linear
• class mindiesd.QuantFA
删除 删除接口

已解决的问题

序号 类别 问题描述
1 安装与兼容性 安装编译后的 MindIE-SD 运行测试时出现 libopapi.so 缺失问题,影响安装后测试与基础功能验证。
2 安装与兼容性 对较新版本 torch 的兼容性不足,影响与新版本推理镜像协同使用。
3 安装与兼容性 构建包缺少 plugin,影响安装包完整性和插件能力加载。
4 算子与编译场景 Flux.1-dev 在新环境开启 compile 后调用 aclnnAdaLayerNorm 失败,导致编译加速路径不可用。
5 算子与编译场景 test_rainfusionattention.py 中接口使用错误,导致相关测试执行失败。
6 缓存与测试质量 DiT Cache Agent 中 block_end 校验与左闭右开规则不一致,影响缓存场景使用。
7 缓存与测试质量 测试精度对比方式单一,仅使用余弦相似度,精度评估维度不够完整。

遗留问题

序号 类别 问题描述
1 算子 缺乏基于CATLASS和Triton实现的矩阵乘法算子
2 易用性提升 需支持更多的扩展,比如cache-dit等
3 性能提升 需支持更多的并行通算掩盖和融合方案

升级影响

升级过程中对现行系统的影响

  • 对业务的影响

    软件版本升级过程中会导致业务中断。

  • 对网络通信的影响

    对网络通信无影响。

升级后对现行系统的影响

暂无

漏洞修补列表

暂无