MindSpeed/mindspeed/op_builder · Ascend/MindSpeed - AtomGit

ascend-robotFeat: adaptor for DeepSeek V4

文件	最后提交记录	最后更新时间
__init__.py	Feat: adaptor for DeepSeek V4 Co-authored-by: wuweiqiang24<wuweiqiang11@huawei.com> # message auto-generated for no-merge-commit merge: !3427 merge master into master Feat: adaptor for DeepSeek V4 Created-by: wuweiqiang24 Commit-by: wuweiqiang24 Merged-by: ascend-robot Description: What this PR does / why we need it? Adaptor for DeepSeek V4!!! Does this PR introduce any user-facing change? Please describe whether the PR will result in any user-facing usage changes. If there is related documentation, please specify its path. How was this patch tested? Please explain how to verify the correctness and effectiveness of this feature, as well as its usage constraints and limitations. See merge request: Ascend/MindSpeed!3427	1 个月前
adaptive_cp_builder.py	!1298 修改编译选项 Merge pull request !1298 from arch_devil/master	1 年前
adaptive_recomputing_builder.py	!1970 remove custom cxx_abi arg Merge pull request !1970 from wangyuansheng8/master	1 年前
algorithm_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
atb_builder.py	!1810 remove --use-legacy-models arg from llama ST, add feature scenario and environmental variable annotations Merge pull request !1810 from wangyuansheng8/master	1 年前
builder.py	!1996 adjust include_paths for torch_npu Merge pull request !1996 from wangyuansheng8/master	1 年前
ffn_builder.py	!619 FFN GroupedMatmul兼容新老PTA Merge pull request !619 from Joy/master	1 年前
fused_adamw_v2_builder.py	!2341 add swap optimizer to core_r0.12.0 Merge pull request !2341 from wangyuansheng8/master	11 个月前
fused_ema_adamw_builder.py	!1603 add ema adamw optimizer Merge pull request !1603 from wangyuansheng8/master	1 年前
fusion_attention_v2_builder.py	!979 mfu 计算添加支持coc和matmul+add Merge pull request !979 from yangcheng/master	1 年前
gmm_builder.py	!1645 cleancode整改/gmm bugfix Merge pull request !1645 from 赵一帆/master	1 年前
groupmatmul_add_builder.py	!1576 flops计算新增支持gmm_add以及gmm接口 Merge pull request !1576 from yangcheng/master	1 年前
lcal_builder.py	!1807 兼容不支持ag-mm-rs的ATB版本，避免编译报错 Merge pull request !1807 from huangzhenyu/master-2dtp-cann8.0	1 年前
matmul_add_builder.py	!979 mfu 计算添加支持coc和matmul+add Merge pull request !979 from yangcheng/master	1 年前
npu_all_to_all_all_gather_bmm_builder.py	!2373 fix a2a ag bmm shape not equal Merge pull request !2373 from huangziming3/master	11 个月前
npu_bmm_reduce_scatter_all_to_all_builder.py	!1258 增加空tensor拦截 Merge pull request !1258 from LZH/master	1 年前
npu_dropout_add_layer_norm_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
npu_grouped_mat_mul_all_reduce_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
npu_inplace_mm_all_reduce_add_rms_norm_builder.py	!613 修复mm_all_reduce_add_rms_norm接口兼容性问题，适配RC2 Merge pull request !613 from 李道明/arn_compatibility	1 年前
npu_lightning_indexer_builder.py	Feat: adaptor for DeepSeek V4 Co-authored-by: wuweiqiang24<wuweiqiang11@huawei.com> # message auto-generated for no-merge-commit merge: !3427 merge master into master Feat: adaptor for DeepSeek V4 Created-by: wuweiqiang24 Commit-by: wuweiqiang24 Merged-by: ascend-robot Description: What this PR does / why we need it? Adaptor for DeepSeek V4!!! Does this PR introduce any user-facing change? Please describe whether the PR will result in any user-facing usage changes. If there is related documentation, please specify its path. How was this patch tested? Please explain how to verify the correctness and effectiveness of this feature, as well as its usage constraints and limitations. See merge request: Ascend/MindSpeed!3427	1 个月前
npu_mm_all_reduce_add_rms_norm_builder.py	!1645 cleancode整改/gmm bugfix Merge pull request !1645 from 赵一帆/master	1 年前
npu_moe_token_permute_builder.py	!615 feat: use-fused-moe-token-permute-and-unpermute 融合算子 Merge pull request !615 from 邓佳/dev_moe	1 年前
npu_moe_token_unpermute_builder.py	!615 feat: use-fused-moe-token-permute-and-unpermute 融合算子 Merge pull request !615 from 邓佳/dev_moe	1 年前
npu_ring_attention_update_builder.py	!649 feat: use-fused-ring-attention-update融合算子 Merge pull request !649 from 邓佳/dev_fused	1 年前
npu_rotary_position_embedding_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
npu_sparse_attn_shared_kv_builder.py	Feat: adaptor for DeepSeek V4 Co-authored-by: wuweiqiang24<wuweiqiang11@huawei.com> # message auto-generated for no-merge-commit merge: !3427 merge master into master Feat: adaptor for DeepSeek V4 Created-by: wuweiqiang24 Commit-by: wuweiqiang24 Merged-by: ascend-robot Description: What this PR does / why we need it? Adaptor for DeepSeek V4!!! Does this PR introduce any user-facing change? Please describe whether the PR will result in any user-facing usage changes. If there is related documentation, please specify its path. How was this patch tested? Please explain how to verify the correctness and effectiveness of this feature, as well as its usage constraints and limitations. See merge request: Ascend/MindSpeed!3427	1 个月前
npu_sparse_lightning_indexer_grad_kl_loss_builder.py	Feat: adaptor for DeepSeek V4 Co-authored-by: wuweiqiang24<wuweiqiang11@huawei.com> # message auto-generated for no-merge-commit merge: !3427 merge master into master Feat: adaptor for DeepSeek V4 Created-by: wuweiqiang24 Commit-by: wuweiqiang24 Merged-by: ascend-robot Description: What this PR does / why we need it? Adaptor for DeepSeek V4!!! Does this PR introduce any user-facing change? Please describe whether the PR will result in any user-facing usage changes. If there is related documentation, please specify its path. How was this patch tested? Please explain how to verify the correctness and effectiveness of this feature, as well as its usage constraints and limitations. See merge request: Ascend/MindSpeed!3427	1 个月前
quant_gmm_builder.py	!968 Add weight quantize gmm ops Merge pull request !968 from 洪炜杰/hong0927	1 年前
rms_norm_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
smart_swap_builder.py	feat(smart-swap): simplify the use of smart-swap Co-authored-by: ChenDonYY<caichendong2@huawei.com> # message auto-generated for no-merge-commit merge: !2833 merge master into master feat(smart-swap): simplify the use of smart-swap Created-by: ChenDonYY Commit-by: ChenDonYY Merged-by: ascend-robot Description: fix: simplify the use of smart-swap 1. 实验需要对比，在使能特性前后，Loss精度、吞吐均值、内存占用。2000步Loss精度相对误差要求2%以内。 - Dense模型用例选取：tests_extend/system_tests/feature_tests/coc.sh - 吞吐比对： swap0 recomput1：80.7 swap0 recompute0：87.7 swap1 recomput0：87.0 - 内存比对： swap0 recomput1 [Rank 0] memory (MB) \| allocated: 15604.52587890625 \| max allocated: 27669.36279296875 \| reserved: 30404.0 \| max reserved: 30404.0 [Rank 1] memory (MB) \| allocated: 15604.52587890625 \| max allocated: 27669.36279296875 \| reserved: 30404.0 \| max reserved: 30404.0 [Rank 4] memory (MB) \| allocated: 16116.654296875 \| max allocated: 25036.85986328125 \| reserved: 26344.0 \| max reserved: 26344.0 [Rank 5] memory (MB) \| allocated: 16116.654296875 \| max allocated: 25036.85986328125 \| reserved: 26344.0 \| max reserved: 26344.0 swap0 recompute0 [Rank 0] memory (MB) \| allocated: 15604.52587890625 \| max allocated: 35925.6298828125 \| reserved: 37984.0 \| max reserved: 37984.0 [Rank 1] memory (MB) \| allocated: 15604.52587890625 \| max allocated: 35925.6298828125 \| reserved: 37984.0 \| max reserved: 37984.0 [Rank 4] memory (MB) \| allocated: 16116.654296875 \| max allocated: 33549.12744140625 \| reserved: 35164.0 \| max reserved: 35164.0 [Rank 5] memory (MB) \| allocated: 16116.654296875 \| max allocated: 33549.12744140625 \| reserved: 35164.0 \| max reserved: 35164.0 swap1 recompute0 [Rank 0] memory (MB) \| allocated: 15672.38427734375 \| max allocated: 28631.20361328125 \| reserved: 36132.0 \| max reserved: 36132.0 [Rank 1] memory (MB) \| allocated: 15672.38427734375 \| max allocated: 28631.20361328125 \| reserved: 36132.0 \| max reserved: 36132.0 [Rank 4] memory (MB) \| allocated: 16188.48046875 \| max allocated: 29610.9287109375 \| reserved: 33732.0 \| max reserved: 33732.0 [Rank 5] memory (MB) \| allocated: 16188.48046875 \| max allocated: 29610.9287109375 \| reserved: 33732.0 \| max reserved: 33732.0 - loss比对： ![coc_swap_compare.PNG](https://raw.gitcode.com/user-images/assets/7404741/bba011fd-8710-497b-9ace-19cac98111d9/coc_swap_compare.PNG 'coc_swap_compare.PNG') - MOE模型用例选取：tests_extend/system_tests/feature_tests/deepseek_mla.sh - 吞吐比对： swap0：55.2 swap1：56.0 - 内存比对： swap0 [Rank 0] memory (MB) \| allocated: 16443.3466796875 \| max allocated: 26676.16259765625 \| reserved: 32442.0 \| max reserved: 32442.0 [Rank 4] memory (MB) \| allocated: 25676.61572265625 \| max allocated: 36900.34814453125 \| reserved: 43500.0 \| max reserved: 43500.0 swap1 [Rank 0] memory (MB) \| allocated: 16518.9033203125 \| max allocated: 27864.86279296875 \| reserved: 32240.0 \| max reserved: 32240.0 [Rank 4] memory (MB) \| allocated: 25781.51123046875 \| max allocated: 38881.0888671875 \| reserved: 41112.0 \| max reserved: 41112.0 - loss比对： ![deepseek_mla_swap_compare.PNG](https://raw.gitcode.com/user-images/assets/7404741/9212a78b-f179-419b-9761-b8b8deb128f3/deepseek_mla_swap_compare.PNG 'deepseek_mla_swap_compare.PNG') 2. 自定义cpp算子（例如atb等）的接入示例。见`docs/features/smart_swap.md`。 See merge request: Ascend/MindSpeed!2833	5 个月前
swiglu_builder.py	!359 change ascendspeed to mindspeed Merge pull request !359 from 邓佳/master	1 年前
weight_quant_gmm_builder.py	!968 Add weight quantize gmm ops Merge pull request !968 from 洪炜杰/hong0927	1 年前