MindSpeed/mindspeed/op_builder · Ascend/MindSpeed - AtomGit

ascend-robotfeat(smart-swap): simplify the use of smart-swap

a86ca5b5创建于 2025年12月17日历史提交

文件	最后提交记录	最后更新时间
__init__.py	!2688 代码安全整改 Merge pull request !2688 from yuqi/safecode1	9 个月前
adaptive_cp_builder.py	!1298 修改编译选项 Merge pull request !1298 from arch_devil/master	1 年前
adaptive_recomputing_builder.py	!1970 remove custom cxx_abi arg Merge pull request !1970 from wangyuansheng8/master	1 年前
algorithm_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
atb_builder.py	!1810 remove --use-legacy-models arg from llama ST, add feature scenario and environmental variable annotations Merge pull request !1810 from wangyuansheng8/master	1 年前
builder.py	!1996 adjust include_paths for torch_npu Merge pull request !1996 from wangyuansheng8/master	1 年前
ffn_builder.py	!619 FFN GroupedMatmul兼容新老PTA Merge pull request !619 from Joy/master	1 年前
fused_adamw_v2_builder.py	!2341 add swap optimizer to core_r0.12.0 Merge pull request !2341 from wangyuansheng8/master	11 个月前
fused_ema_adamw_builder.py	!1603 add ema adamw optimizer Merge pull request !1603 from wangyuansheng8/master	1 年前
fusion_attention_v2_builder.py	!979 mfu 计算添加支持coc和matmul+add Merge pull request !979 from yangcheng/master	1 年前
gmm_builder.py	!1645 cleancode整改/gmm bugfix Merge pull request !1645 from 赵一帆/master	1 年前
groupmatmul_add_builder.py	!1576 flops计算新增支持gmm_add以及gmm接口 Merge pull request !1576 from yangcheng/master	1 年前
lcal_builder.py	!1807 兼容不支持ag-mm-rs的ATB版本，避免编译报错 Merge pull request !1807 from huangzhenyu/master-2dtp-cann8.0	1 年前
matmul_add_builder.py	!979 mfu 计算添加支持coc和matmul+add Merge pull request !979 from yangcheng/master	1 年前
npu_all_to_all_all_gather_bmm_builder.py	!2373 fix a2a ag bmm shape not equal Merge pull request !2373 from huangziming3/master	11 个月前
npu_bmm_reduce_scatter_all_to_all_builder.py	!1258 增加空tensor拦截 Merge pull request !1258 from LZH/master	1 年前
npu_dropout_add_layer_norm_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
npu_grouped_mat_mul_all_reduce_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
npu_inplace_mm_all_reduce_add_rms_norm_builder.py	!613 修复mm_all_reduce_add_rms_norm接口兼容性问题，适配RC2 Merge pull request !613 from 李道明/arn_compatibility	1 年前
npu_mm_all_reduce_add_rms_norm_builder.py	!1645 cleancode整改/gmm bugfix Merge pull request !1645 from 赵一帆/master	1 年前
npu_moe_token_permute_builder.py	!615 feat: use-fused-moe-token-permute-and-unpermute 融合算子 Merge pull request !615 from 邓佳/dev_moe	1 年前
npu_moe_token_unpermute_builder.py	!615 feat: use-fused-moe-token-permute-and-unpermute 融合算子 Merge pull request !615 from 邓佳/dev_moe	1 年前
npu_ring_attention_update_builder.py	!649 feat: use-fused-ring-attention-update融合算子 Merge pull request !649 from 邓佳/dev_fused	1 年前
npu_rotary_position_embedding_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
quant_gmm_builder.py	!968 Add weight quantize gmm ops Merge pull request !968 from 洪炜杰/hong0927	1 年前
rms_norm_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
smart_swap_builder.py	feat(smart-swap): simplify the use of smart-swap Co-authored-by: ChenDonYY<caichendong2@huawei.com> # message auto-generated for no-merge-commit merge: !2833 merge master into master feat(smart-swap): simplify the use of smart-swap Created-by: ChenDonYY Commit-by: ChenDonYY Merged-by: ascend-robot Description: fix: simplify the use of smart-swap 1. 实验需要对比，在使能特性前后，Loss精度、吞吐均值、内存占用。2000步Loss精度相对误差要求2%以内。 - Dense模型用例选取：tests_extend/system_tests/feature_tests/coc.sh - 吞吐比对： swap0 recomput1：80.7 swap0 recompute0：87.7 swap1 recomput0：87.0 - 内存比对： swap0 recomput1 [Rank 0] memory (MB) \| allocated: 15604.52587890625 \| max allocated: 27669.36279296875 \| reserved: 30404.0 \| max reserved: 30404.0 [Rank 1] memory (MB) \| allocated: 15604.52587890625 \| max allocated: 27669.36279296875 \| reserved: 30404.0 \| max reserved: 30404.0 [Rank 4] memory (MB) \| allocated: 16116.654296875 \| max allocated: 25036.85986328125 \| reserved: 26344.0 \| max reserved: 26344.0 [Rank 5] memory (MB) \| allocated: 16116.654296875 \| max allocated: 25036.85986328125 \| reserved: 26344.0 \| max reserved: 26344.0 swap0 recompute0 [Rank 0] memory (MB) \| allocated: 15604.52587890625 \| max allocated: 35925.6298828125 \| reserved: 37984.0 \| max reserved: 37984.0 [Rank 1] memory (MB) \| allocated: 15604.52587890625 \| max allocated: 35925.6298828125 \| reserved: 37984.0 \| max reserved: 37984.0 [Rank 4] memory (MB) \| allocated: 16116.654296875 \| max allocated: 33549.12744140625 \| reserved: 35164.0 \| max reserved: 35164.0 [Rank 5] memory (MB) \| allocated: 16116.654296875 \| max allocated: 33549.12744140625 \| reserved: 35164.0 \| max reserved: 35164.0 swap1 recompute0 [Rank 0] memory (MB) \| allocated: 15672.38427734375 \| max allocated: 28631.20361328125 \| reserved: 36132.0 \| max reserved: 36132.0 [Rank 1] memory (MB) \| allocated: 15672.38427734375 \| max allocated: 28631.20361328125 \| reserved: 36132.0 \| max reserved: 36132.0 [Rank 4] memory (MB) \| allocated: 16188.48046875 \| max allocated: 29610.9287109375 \| reserved: 33732.0 \| max reserved: 33732.0 [Rank 5] memory (MB) \| allocated: 16188.48046875 \| max allocated: 29610.9287109375 \| reserved: 33732.0 \| max reserved: 33732.0 - loss比对： ![coc_swap_compare.PNG](https://raw.gitcode.com/user-images/assets/7404741/bba011fd-8710-497b-9ace-19cac98111d9/coc_swap_compare.PNG 'coc_swap_compare.PNG') - MOE模型用例选取：tests_extend/system_tests/feature_tests/deepseek_mla.sh - 吞吐比对： swap0：55.2 swap1：56.0 - 内存比对： swap0 [Rank 0] memory (MB) \| allocated: 16443.3466796875 \| max allocated: 26676.16259765625 \| reserved: 32442.0 \| max reserved: 32442.0 [Rank 4] memory (MB) \| allocated: 25676.61572265625 \| max allocated: 36900.34814453125 \| reserved: 43500.0 \| max reserved: 43500.0 swap1 [Rank 0] memory (MB) \| allocated: 16518.9033203125 \| max allocated: 27864.86279296875 \| reserved: 32240.0 \| max reserved: 32240.0 [Rank 4] memory (MB) \| allocated: 25781.51123046875 \| max allocated: 38881.0888671875 \| reserved: 41112.0 \| max reserved: 41112.0 - loss比对： ![deepseek_mla_swap_compare.PNG](https://raw.gitcode.com/user-images/assets/7404741/9212a78b-f179-419b-9761-b8b8deb128f3/deepseek_mla_swap_compare.PNG 'deepseek_mla_swap_compare.PNG') 2. 自定义cpp算子（例如atb等）的接入示例。见`docs/features/smart_swap.md`。 See merge request: Ascend/MindSpeed!2833	5 个月前
swiglu_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
weight_quant_gmm_builder.py	!968 Add weight quantize gmm ops Merge pull request !968 from 洪炜杰/hong0927	1 年前