e4d00b70创建于 9 小时前历史提交

文件	最后提交记录	最后更新时间
full_quant_fused_infer_attention_score_story	full_quant_fused_infer_attention_score_story 文档修改	7 天前
grouped_matmul_story	Fix：warmup bug	9 小时前
kv_rms_norm_rope_cache_story	add kv_rms_norm_rope_cache sample	10 小时前
matmul_story	Fix：warmup bug	9 小时前
moe_dispatch_and_combine_story	修复打印及错误处理分支的问题	6 天前
moe_init_routing_story	支持通过 NPU_ARCH 配置样例编译架构	1 个月前
rms_norm_quant_story	修复 samples 编译告警：-Wc++20-extensions 与 -Wignored-attributes	13 天前
scalar_story	增加scalar优化原理与实践	1 个月前
CMakeLists.txt	add kv_rms_norm_rope_cache sample	10 小时前
README.md	add kv_rms_norm_rope_cache sample	10 小时前

Performance

最佳实践, 从Baseline到极致性能的调优实践。

grouped_matmul_story

分组矩阵乘性能优化专题，覆盖 grouped matmul 的 tiling、数据搬运与 kernel 实现，并提供 MXFP4/MXFP8 可运行示例及数据校验流程。

matmul_story

矩阵乘性能优化专题，覆盖 MatMul 与量化 MatMul（如 MXFP4）两类实践，包含性能分析文档、分步教程（baseline→SWAT→尾轮负载均衡→UnitFlag）以及可运行的 recipe 示例（A16W16、quant_matmul_mxfp4）。

rms_norm_quant_story

以 Ascend 950PR/950DT 训练/推理系列产品为例，介绍 RmsNormQuant 算子的完整性能优化实践。包括多核并行与数据预加载、内存带宽优化、核内流水线排布、硬件特性适配等优化策略，从理论分析到代码实践的端到端调优指南。

full_quant_fused_infer_attention_score_story

围绕 FIA（Fused Infer Attention Score）算子提供 per-block 全量化实现示例，包含输入数据生成、算子执行与结果校验流程。

moe_init_routing_story

以 Ascend950PR/DT 训练/推理系列产品为例，介绍 MoeInitRoutingV3 算子的完整性能优化实践。包括多核并行、内存带宽优化、核内流水线排布、SIMT编程、硬件特性适配等优化策略，从理论分析到代码实践的端到端调优指南。

moe_dispatch_and_combine_story

围绕 moe dispatch/combine 通信算子给出性能优化实践，包含构建运行命令、测试数据生成与精度校验流程。

kv_rms_norm_rope_cache_story

围绕 Ascend 950 上的 KvRmsNormRopeCache full-load 路径给出 MemBase 与 RegBase 两个 BF16 直调样例，展示 RMSNorm、interleave RoPE 与 Norm cache 更新的融合实现，以及从 MemBase 到 RegBase 的寄存器化优化点。