MindIE-SD/tests/layers/moe · Ascend/MindIE-SD - AtomGit

ascend-robot[Bugfix][moe]Fix MoE MXFP8 test compatibility

文件	最后提交记录	最后更新时间
__init__.py	[Feature] Support fused moe Co-authored-by: betta18<jiangmengyu1@huawei.com> # message auto-generated for no-merge-commit merge: !310 merge support_fused_moe_new into dev [Feature] Support fused moe Created-by: betta18 Commit-by: betta18 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20251224 --> # Which issue(s) this PR fixes or accomplishes Fix part of #ISSUE ID # Purpose 本 PR 新增 MindIE-SD 的 `fused_moe` 融合算子接口，用于支持开源框架在 NPU 上执行 MoE 前向计算。当前 PR 接入的是 `fused_moe` 的 fallback 路径，已基于 `vllm-omni` 中 HunyuanImage-3.0 模型的 MindIE-SD MoE 组网路径完成适配验证。当前 `fused_moe` 对外提供统一入口，并区分两条执行路径： - 融合算子路径：预留融合 MoE 算子入口，当前版本暂不支持。 - fallback 路径：本 PR 接入的执行路径，用于完成 MoE 路由、专家计算和结果合并流程。 fallback 路径将 MoE 前向过程拆分为多个阶段： - `prepare`：整理输入激活和 router logits，并根据输入 layout 准备后续计算所需的数据。 - `select_experts`：根据 router 输出，为每个 token 选择对应的 top-k experts，并生成 routing weights。 - `dispatch`：根据专家选择结果，将 token 按 expert 路由并重排，生成专家计算所需的输入。 - `mlp`：执行专家侧 grouped MLP 计算，完成 routed experts 的前馈计算。 - `combine`：将专家输出按原 token 顺序合并，恢复 routed MoE 的输出结果。 - `finalize`：完成输出恢复和通信后的收尾处理。通过 fallback 路径的阶段化封装，外部调用方只需要使用 `fused_moe` 统一入口，即可完成当前版本支持的 MoE 前向计算流程。主要修改包括： - 新增并导出 `fused_moe` 融合算子接口。 - 预留融合 MoE 算子路径，并接入 fallback 路径作为当前执行实现。 - 新增 `mindiesd.layers.moe` 阶段化 MoE fallback 实现。 - 新增 runtime context 处理逻辑，用于集中校验外部入参、生成通信上下文并封装各阶段输入对象。 - 新增专家选择逻辑，支持 top-k routing、routing weight 归一化和自定义 routing function。 - 新增 static dispatcher，用于完成静态 token 分发、expert token 统计和结果恢复。 - 新增 dynamic dispatcher，用于完成动态 token 分发、all-to-all token 交换和结果恢复。 - 新增 grouped expert MLP 计算逻辑，基于 `torch_npu.npu_grouped_matmul` 完成专家前馈计算。 - 新增 MoE 通信上下文和基础通信算子封装。 - 扩展 NPU 平台识别，新增 A3 平台，并使相关 MoE/attention 路径能够识别 A3。 - 新增 `fused_moe` 中文特性文档，补充接口说明、参数约束、融合算子路径、fallback 路径、通信配置和使用示例。后续计划： - 性能优化。 - 支持量化。 # Test Plan 测试重点包括： - `fused_moe` 入口： - 融合算子路径当前版本暂不支持时回退到 fallback 路径。 - fallback 路径调用阶段化 MoE 实现。 - fallback `moe` 主流程： - static dispatcher 路径。 - dynamic dispatcher 路径。 - 无通信组、TP 通信组、EP 通信组场景。 - runtime context： - 外部输入参数校验。 - prepare、routing、dispatch、MLP compute 阶段输入对象封装。 - MoE 通信上下文选择。 - 专家选择： - top-k expert 选择。 - top-k weight 归一化。 - 自定义 routing function。 - token dispatch/combine： - static dispatch 的 token 排序、expert token 统计和结果恢复。 - dynamic dispatch 的 all-to-all token 交换和顺序恢复。 - grouped expert MLP： - w13 / w2 两阶段 grouped matmul。 - bias 路径。 - swiglu activation。 - 通信算子： - all-gather。 - reduce-scatter。 - all-reduce。 - all-to-all single。 - 精度测试： - 对比 static MoE 输出与参考实现结果的一致性。 - 对比 grouped expert MLP 输出与参考实现结果的一致性。 - 验证 HunyuanImage-3.0 MindIE-SD MoE 组网路径下的推理结果正确性。 # Test Report 在 MindIE-SD 中新增 MoE 相关单元测试，主要覆盖 fallback 路径中的通信算子、专家选择、runtime context、主流程、专家 MLP 计算和 token dispatch/combine 等核心逻辑： - `tests/layers/moe/test_comm_ops.py` - `tests/layers/moe/test_experts_selector.py` - `tests/layers/moe/test_runtime_context.py` - `tests/layers/moe/test_moe.py` - `tests/layers/moe/test_moe_mlp.py` - `tests/layers/moe/test_token_dispatcher.py` 在 `vllm-omni` 框架中，基于 HunyuanImage-3.0 的 MindIE-SD MoE 组网路径完成端到端推理验证，结果正确。验证覆盖： - EP / TP 通信场景。 - static / dynamic dispatcher 路径。 - `tokens_full` 不同输入 layout。 - `reduce_results` 不同结果规约配置。 See merge request: Ascend/MindIE-SD!310	1 个月前
common.py	[Feature][moe]Support W8A8 MXFP8 MoE inference Co-authored-by: betta18<jiangmengyu1@huawei.com> # message auto-generated for no-merge-commit merge: !354 merge support_fused_moe_mxfp8 into dev [Feature][moe]Support W8A8 MXFP8 MoE inference Created-by: betta18 Commit-by: betta18 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20251224 --> # Purpose 本 PR 为 MindIE-SD MoE 接入 W8A8 MXFP8 量化推理能力，用于支持 A5 设备上的 MoE 前向计算。主要修改包括： - 扩展 MoE 量化上下文，新增 W8A8 MXFP8 量化算法识别、设备约束校验和动态量化入口。 - 在 MoE MLP 阶段新增 W8A8 MXFP8 grouped MLP 计算路径，使用 `npu_grouped_matmul_swiglu_quant_v2` 和 MXFP scale 完成专家侧计算。 - 调整 static / dynamic dispatcher 的量化处理逻辑： - static MoE 支持 MXFP8 init routing 量化模式； - dynamic MoE 中 MXFP8 延后到 MLP 阶段量化，避免通信阶段处理不适配的 scale layout。 - 补充 A2/A3 INT8 与 A5 MXFP8 的设备区分校验，避免不支持设备误走量化路径。 - 更新 fused_moe 中文特性文档，补充 W8A8 dynamic quant 和 W8A8 MXFP8 quant 的支持范围、参数说明和使用示例。 # Test Plan 测试重点包括： - MoE 量化上下文： - W8A8 dynamic quant / W8A8 MXFP8 quant / 非量化配置解析。 - A2/A3/A5 设备支持范围校验。 - init routing quant mode 选择逻辑。 - MoE MLP： - 非量化 grouped MLP 路径。 - W8A8 dynamic quant grouped MLP 路径。 - W8A8 MXFP8 grouped MLP 路径。 - 内部动态量化输入与外部预量化输入结果一致性。 - Token dispatcher： - static dispatcher 下 INT8 / MXFP8 量化 dispatch 行为。 - dynamic dispatcher 下 INT8 提前量化、MXFP8 延后到 MLP 量化的行为。 - prequantized input 与 internal quant input 的 dispatch 结果一致性。 - 主流程： - W8A8 dynamic quant MoE 输出 shape / dtype。 - W8A8 MXFP8 quant MoE 输出 shape / dtype。 # Test Report 在 MindIE-SD 中新增和更新 MoE 相关单元测试，覆盖量化上下文、MLP 计算、token dispatch 和主流程： - `tests/layers/moe/test_moe_context.py` - `tests/layers/moe/test_moe_mlp.py` - `tests/layers/moe/test_token_dispatcher.py` - `tests/layers/moe/test_moe.py` - `tests/layers/moe/common.py` 测试覆盖设备区分： - 非量化路径：CPU / NPU 兼容测试。 - W8A8 dynamic quant：A2 / A3 设备测试。 - W8A8 MXFP8 quant：A5 设备测试。已补充 `docs/zh/features/fused_moe.md`，说明当前支持非量化、W8A8 dynamic quant 和 W8A8 MXFP8 quant MoE 路径。 See merge request: Ascend/MindIE-SD!354	13 天前
test_comm_ops.py	[Feature][moe]Support NPU moe_gating_top_k and moe_gating_top_k_softmax in fused MoE module Co-authored-by: betta18<jiangmengyu1@huawei.com> # message auto-generated for no-merge-commit merge: !318 merge support_fused_softmax_topk into dev [Feature][moe]Support NPU moe_gating_top_k and moe_gating_top_k_softmax in fused MoE module Created-by: betta18 Commit-by: betta18 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20251224 --> # Which issue(s) this PR fixes or accomplishes N/A - 内部特性开发，无对应 Issue。 # Purpose 在 fused_moe 模块中接入 `torch_npu.npu_moe_gating_top_k` 和 `torch_npu.npu_moe_gating_top_k_softmax` 两个 CANN 算子，替代原先 Python 端 softmax/sigmoid + topk 组合实现，将专家选择阶段下沉到 NPU，提升路由效率。算子选择策略： - `npu_moe_gating_top_k_softmax`：应用于 softmax 非分组路由（`routing_method="softmax"` 且分组路由参数为默认值），接口更轻量； - `npu_moe_gating_top_k`：应用于 sigmoid 路由或分组路由场景，完整支持分组路由等高级功能。性能对比（softmax + topk 组合，num_tokens=256, num_experts=64, top_k=8）： - 小算子实现（softmax + topk 分步执行）：114 us - 融合算子实现（`npu_moe_gating_top_k_softmax`）：61 us - 加速比：约 1.87x 同时新增以下能力： - 分组路由：通过 `k_group`、`group_count`、`group_select_mode` 参数支持先选 expert group、再从选中 group 选 top-k experts 的路由策略； - 路由方法：`routing_method` 参数支持 `softmax` 和 `sigmoid` 两种打分方式； - 参数校验：`validate_moe_inputs` 中新增分组路由相关边界校验； - 测试覆盖：新增 NPU gating top-k 算子与 PyTorch 参考实现的一致性测试，覆盖 softmax/sigmoid、分组/非分组、group_select_mode 0/1 共 4 种路由组合，并新增 `test_gating_topk_softmax_matches_torch_reference` 专门验证 softmax 非分组路径在各种输入形状下的正确性。此外，将 MoE 测试环境按 CPU 兼容和 NPU 依赖拆分： - CPU 兼容测试（`MINDIE_TEST_MODE=CPU` 跳过）仅验证 custom_routing_function 路径和参数校验逻辑； - NPU 依赖测试（`MINDIE_TEST_MODE=NPU` 跳过）验证算子与参考实现的一致性，使 CI 可在无 NPU 环境下运行部分测试。 # Test Plan 1. CPU 兼容测试（`MINDIE_TEST_MODE=CPU`）：验证 custom_routing_function 路径和参数校验逻辑； 2. NPU 依赖测试（`MINDIE_TEST_MODE=NPU`）：验证 NPU gating top-k 算子输出与 `torch_grouped_topk_reference` 参考实现的一致性，包括两种算子的各条路径； 3. E2E 前向测试：`test_moe.py` 中静态 MoE NPU 全流程前向测试； 4. 参数校验测试：`test_moe_context.py` 中新增 routing_method、k_group、 group_count、group_select_mode 非法值校验。 # Test Report 已在 NPU 环境执行测试，结果如下： - `TestExpertsSelectorNPU.test_gating_topk_matches_torch_reference`：PASS （softmax、grouped_softmax、sigmoid、grouped_sigmoid 4 个子 case 全部通过） - `TestExpertsSelectorNPU.test_gating_topk_softmax_matches_torch_reference`：PASS （B=2/4/1/3, num_experts=8/16/32/64, top_k=2/4/1/8 共 4 种形状组合全部通过） - `TestMoeFunction.test_static_moe_matches_torch_reference`：PASS （top_k=1 和 top_k=2 两个子 case 全部通过，atol=5e-2, rtol=5e-2） - `TestMoEContext` 参数校验测试：PASS - `TestExpertsSelector.test_custom_router_output_is_forwarded`：PASS（CPU 通路） See merge request: Ascend/MindIE-SD!318	27 天前
test_experts_selector.py	[Feature][moe]Support INT8 MoE inference Co-authored-by: betta18<jiangmengyu1@huawei.com> # message auto-generated for no-merge-commit merge: !329 merge support_fused_moe_int8 into dev [Feature][moe]Support INT8 MoE inference Created-by: betta18 Commit-by: betta18 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20251224 --> # Which issue(s) this PR fixes or accomplishes Fix part of #ISSUE ID # Purpose 本 PR 在 MindIE-SD 的 `fused_moe` 阶段化 MoE 路径中新增 INT8 MoE 推理支持，并同步完善接口参数、运行时上下文、阶段间数据封装、MLP 计算、Token 分发和中文特性文档。主要修改包括： - 新增 `quant_type`、`w13_weight_scale`、`w2_weight_scale` 参数，支持通过 `fused_moe` 入口传入 INT8 MoE 所需权重和 scale。 - 扩展 MoE 入参校验，覆盖 INT8 权重 dtype、scale 类型、scale shape、bias 限制和非量化路径参数约束。 - 新增 MoE quant context，用于在 MoE 主流程、dispatcher 和 grouped MLP 之间传递量化模式。 - 重构 MoE 阶段间数据结构，新增 `MoEWeights`、`MoEPrepareOutput`、`MoETokenDispatchOutput`，统一封装 prepare、dispatch 和 MLP 阶段输入输出。 - 新增 INT8 grouped MLP 路径，支持动态量化激活、复用 dispatcher 侧量化输出、INT8 权重 NZ 格式检查与转换。 - 扩展 static / dynamic dispatcher 的 INT8 支持： - static 路径支持 `npu_moe_init_routing_v2` 生成或复用 dynamic scale。 - dynamic 路径支持在 all-to-all 前量化 Token，并同步交换 dynamic scale。 - 更新 `docs/zh/features/fused_moe.md`，补充 INT8 参数说明、量化约束和使用示例。 # Test Plan 测试重点包括： - MoE 入参校验： - INT8 权重 dtype 校验。 - quantization scale 类型、shape 和 dtype 校验。 - INT8 路径不支持 bias 的校验。 - 非量化路径不允许传入 scale 的校验。 - MoE context 和阶段封装： - quant context 设置与查询。 - `MoEWeights`、`MoEPrepareOutput`、`MoETokenDispatchOutput` 构造。 - prepare、dispatch、MLP 阶段输入输出封装。 - Token dispatch： - static dispatcher INT8 dispatch。 - static dispatcher 复用 prepare 阶段 dynamic scale。 - static dispatcher 在 partial input 场景下先量化再 all-gather。 - dynamic dispatcher 在 all-to-all 前量化 Token，并同步传递 dynamic scale。 - dynamic dispatcher split copy event 同步逻辑。 - Grouped MLP： - 非量化 BF16 / FP16 grouped MLP 精度。 - INT8 grouped MLP 使用 dispatcher 侧量化输出。 - INT8 权重 NZ 格式检查与自动转换。 - INT8 内部动态量化路径与外部量化输入路径一致性。 - 端到端 MoE： - static MoE 非量化精度。 - INT8 MoE 输出 shape 和 dtype。 - dispatcher 自动选择和手动 override。 # Test Report 在 MindIE-SD 中新增和更新 MoE 相关单元测试，覆盖 INT8 MoE 的参数校验、上下文封装、Token 分发、grouped MLP 和主流程： - `tests/layers/moe/test_moe_context.py` - `tests/layers/moe/test_token_dispatcher.py` - `tests/layers/moe/test_moe_mlp.py` - `tests/layers/moe/test_moe.py` - `tests/layers/moe/test_experts_selector.py` 已覆盖： - INT8 参数校验和异常路径。 - static / dynamic dispatcher 的 INT8 dispatch 行为。 - dynamic scale 在 prepare、dispatch、MLP 阶段间的传递。 - INT8 权重 NZ 格式检查和转换。 - INT8 grouped MLP 内部动态量化与外部量化输入的一致性。 - BF16 / FP16 非量化 MoE 精度回归。 See merge request: Ascend/MindIE-SD!329	19 天前
test_moe.py	[Feature][moe]Support W8A8 MXFP8 MoE inference Co-authored-by: betta18<jiangmengyu1@huawei.com> # message auto-generated for no-merge-commit merge: !354 merge support_fused_moe_mxfp8 into dev [Feature][moe]Support W8A8 MXFP8 MoE inference Created-by: betta18 Commit-by: betta18 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20251224 --> # Purpose 本 PR 为 MindIE-SD MoE 接入 W8A8 MXFP8 量化推理能力，用于支持 A5 设备上的 MoE 前向计算。主要修改包括： - 扩展 MoE 量化上下文，新增 W8A8 MXFP8 量化算法识别、设备约束校验和动态量化入口。 - 在 MoE MLP 阶段新增 W8A8 MXFP8 grouped MLP 计算路径，使用 `npu_grouped_matmul_swiglu_quant_v2` 和 MXFP scale 完成专家侧计算。 - 调整 static / dynamic dispatcher 的量化处理逻辑： - static MoE 支持 MXFP8 init routing 量化模式； - dynamic MoE 中 MXFP8 延后到 MLP 阶段量化，避免通信阶段处理不适配的 scale layout。 - 补充 A2/A3 INT8 与 A5 MXFP8 的设备区分校验，避免不支持设备误走量化路径。 - 更新 fused_moe 中文特性文档，补充 W8A8 dynamic quant 和 W8A8 MXFP8 quant 的支持范围、参数说明和使用示例。 # Test Plan 测试重点包括： - MoE 量化上下文： - W8A8 dynamic quant / W8A8 MXFP8 quant / 非量化配置解析。 - A2/A3/A5 设备支持范围校验。 - init routing quant mode 选择逻辑。 - MoE MLP： - 非量化 grouped MLP 路径。 - W8A8 dynamic quant grouped MLP 路径。 - W8A8 MXFP8 grouped MLP 路径。 - 内部动态量化输入与外部预量化输入结果一致性。 - Token dispatcher： - static dispatcher 下 INT8 / MXFP8 量化 dispatch 行为。 - dynamic dispatcher 下 INT8 提前量化、MXFP8 延后到 MLP 量化的行为。 - prequantized input 与 internal quant input 的 dispatch 结果一致性。 - 主流程： - W8A8 dynamic quant MoE 输出 shape / dtype。 - W8A8 MXFP8 quant MoE 输出 shape / dtype。 # Test Report 在 MindIE-SD 中新增和更新 MoE 相关单元测试，覆盖量化上下文、MLP 计算、token dispatch 和主流程： - `tests/layers/moe/test_moe_context.py` - `tests/layers/moe/test_moe_mlp.py` - `tests/layers/moe/test_token_dispatcher.py` - `tests/layers/moe/test_moe.py` - `tests/layers/moe/common.py` 测试覆盖设备区分： - 非量化路径：CPU / NPU 兼容测试。 - W8A8 dynamic quant：A2 / A3 设备测试。 - W8A8 MXFP8 quant：A5 设备测试。已补充 `docs/zh/features/fused_moe.md`，说明当前支持非量化、W8A8 dynamic quant 和 W8A8 MXFP8 quant MoE 路径。 See merge request: Ascend/MindIE-SD!354	13 天前
test_moe_context.py	[Bugfix][moe]Fix MoE MXFP8 test compatibility Co-authored-by: betta18<jiangmengyu1@huawei.com> # message auto-generated for no-merge-commit merge: !371 merge fix_moe_tests_bug into dev [Bugfix][moe]Fix MoE MXFP8 test compatibility Created-by: betta18 Commit-by: betta18 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20251224 --> # Which issue(s) this PR fixes or accomplishes Fix part of #ISSUE ID # Purpose 本 PR 修复 MoE 相关单元测试在不同 `torch_npu` / CANN 环境下的兼容性问题。主要修改包括： - 修正 unsupported quant config 测试中 `QuantConfig` 的构造方式，确保 `W4A16` 正确传入 `quant_algo`，从而验证 MoE 入参校验对不支持量化算法的拦截逻辑。 - 调整 MXFP8 mock 测试中对 `torch_npu.npu_dynamic_mx_quant` 的 patch 方式，避免低版本 `torch_npu` 环境缺少该接口时测试提前失败。 - 在 MXFP8 MLP mock 测试中补充 `torch_npu.float8_e8m0fnu` 临时 mock，保证测试关注点聚焦在 MoE MLP 调用参数与调度逻辑，而不依赖当前环境是否已提供完整 MXFP8 dtype 符号。 # Test Plan 测试重点包括： - MoE 入参校验： - 不支持的量化算法应正确抛出 `ParametersInvalid`。 - MoE MXFP8 MLP mock 路径： - 已预量化输入时不应重复调用 `npu_dynamic_mx_quant`。 - `npu_grouped_matmul_swiglu_quant_v2` 和 `npu_grouped_matmul` 的关键入参保持正确。 - Dynamic dispatcher MXFP8 mock 路径： - dynamic MXFP8 场景下 dispatch 阶段不提前量化，量化延后到 MLP 阶段。 # Test Report 已修复以下 MoE 测试兼容性问题： - `tests/layers/moe/test_moe_context.py` - `tests/layers/moe/test_moe_mlp.py` - `tests/layers/moe/test_token_dispatcher.py` See merge request: Ascend/MindIE-SD!371	11 天前
test_moe_mlp.py	[Bugfix][moe]Fix MoE MXFP8 test compatibility Co-authored-by: betta18<jiangmengyu1@huawei.com> # message auto-generated for no-merge-commit merge: !371 merge fix_moe_tests_bug into dev [Bugfix][moe]Fix MoE MXFP8 test compatibility Created-by: betta18 Commit-by: betta18 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20251224 --> # Which issue(s) this PR fixes or accomplishes Fix part of #ISSUE ID # Purpose 本 PR 修复 MoE 相关单元测试在不同 `torch_npu` / CANN 环境下的兼容性问题。主要修改包括： - 修正 unsupported quant config 测试中 `QuantConfig` 的构造方式，确保 `W4A16` 正确传入 `quant_algo`，从而验证 MoE 入参校验对不支持量化算法的拦截逻辑。 - 调整 MXFP8 mock 测试中对 `torch_npu.npu_dynamic_mx_quant` 的 patch 方式，避免低版本 `torch_npu` 环境缺少该接口时测试提前失败。 - 在 MXFP8 MLP mock 测试中补充 `torch_npu.float8_e8m0fnu` 临时 mock，保证测试关注点聚焦在 MoE MLP 调用参数与调度逻辑，而不依赖当前环境是否已提供完整 MXFP8 dtype 符号。 # Test Plan 测试重点包括： - MoE 入参校验： - 不支持的量化算法应正确抛出 `ParametersInvalid`。 - MoE MXFP8 MLP mock 路径： - 已预量化输入时不应重复调用 `npu_dynamic_mx_quant`。 - `npu_grouped_matmul_swiglu_quant_v2` 和 `npu_grouped_matmul` 的关键入参保持正确。 - Dynamic dispatcher MXFP8 mock 路径： - dynamic MXFP8 场景下 dispatch 阶段不提前量化，量化延后到 MLP 阶段。 # Test Report 已修复以下 MoE 测试兼容性问题： - `tests/layers/moe/test_moe_context.py` - `tests/layers/moe/test_moe_mlp.py` - `tests/layers/moe/test_token_dispatcher.py` See merge request: Ascend/MindIE-SD!371	11 天前
test_token_dispatcher.py	[Bugfix][moe]Fix MoE MXFP8 test compatibility Co-authored-by: betta18<jiangmengyu1@huawei.com> # message auto-generated for no-merge-commit merge: !371 merge fix_moe_tests_bug into dev [Bugfix][moe]Fix MoE MXFP8 test compatibility Created-by: betta18 Commit-by: betta18 Merged-by: ascend-robot Description: <!-- PR描述模板更新日期：20251224 --> # Which issue(s) this PR fixes or accomplishes Fix part of #ISSUE ID # Purpose 本 PR 修复 MoE 相关单元测试在不同 `torch_npu` / CANN 环境下的兼容性问题。主要修改包括： - 修正 unsupported quant config 测试中 `QuantConfig` 的构造方式，确保 `W4A16` 正确传入 `quant_algo`，从而验证 MoE 入参校验对不支持量化算法的拦截逻辑。 - 调整 MXFP8 mock 测试中对 `torch_npu.npu_dynamic_mx_quant` 的 patch 方式，避免低版本 `torch_npu` 环境缺少该接口时测试提前失败。 - 在 MXFP8 MLP mock 测试中补充 `torch_npu.float8_e8m0fnu` 临时 mock，保证测试关注点聚焦在 MoE MLP 调用参数与调度逻辑，而不依赖当前环境是否已提供完整 MXFP8 dtype 符号。 # Test Plan 测试重点包括： - MoE 入参校验： - 不支持的量化算法应正确抛出 `ParametersInvalid`。 - MoE MXFP8 MLP mock 路径： - 已预量化输入时不应重复调用 `npu_dynamic_mx_quant`。 - `npu_grouped_matmul_swiglu_quant_v2` 和 `npu_grouped_matmul` 的关键入参保持正确。 - Dynamic dispatcher MXFP8 mock 路径： - dynamic MXFP8 场景下 dispatch 阶段不提前量化，量化延后到 MLP 阶段。 # Test Report 已修复以下 MoE 测试兼容性问题： - `tests/layers/moe/test_moe_context.py` - `tests/layers/moe/test_moe_mlp.py` - `tests/layers/moe/test_token_dispatcher.py` See merge request: Ascend/MindIE-SD!371	11 天前