shmem/examples/utils · CANN/shmem - AtomGit

cann-robotfeat(examples): add udma_perftest under shmem_perftest

文件	最后提交记录	最后更新时间
debug.h	文件名aclshmem改为shmem Co-authored-by: caixilong<caixilong2@h-partners.com>	5 个月前
gen_data.py	通算融合算子精度标准调整 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !208 merge precheck into master 通算融合算子精度标准调整 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 通算融合算子精度标准调整文档调整 torch用例数据类型支持老版本 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/168 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ![image.png](https://raw.gitcode.com/user-images/assets/8546182/db5a7273-f7d8-49a0-9579-81c197889b91/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8546182/aed550a2-5212-4cc7-ac0e-25daf91712bd/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/shmem!208	2 个月前
moe_perf_host.h	添加经典和双平面两种实现路径的Dispatch和Combine算子example Co-authored-by: xionglan2<xionglan2@huawei.com> # message auto-generated for no-merge-commit merge: !350 merge feature/dispatch-combine-examples into master 添加经典和双平面两种实现路径的Dispatch和Combine算子example Created-by: xionglan2 Commit-by: xionglan2 Merged-by: cann-robot Description: ## 描述本次 PR 将 `dispatch`、`combine`、`dispatch_doubleplane`、`combine_doubleplane` 四个 MoE 通信算子上库，并对 classic / DoublePlane 两类路径做统一整理和性能优化，目标是在保持现有输入输出语义不变的前提下，补齐基础能力、统一脚本与文档，并提升大包传输场景下的吞吐表现。具体改动包括： - 补齐 classic `dispatch` / `combine` 与 DoublePlane `dispatch_doubleplane` / `combine_doubleplane` 四个算子的构建、运行脚本和说明文档，统一功能验证和性能测试入口。 - `dispatch` 路径将输入token按路由规则分发到目标expert，生成后续combine所需的中间结果；`combine` 路径将个expert输出按源token和topK权重回传聚合，生成最终输出结果。 - `dispatch_doubleplane` / `combine_doubleplane` 引入基于 segment size 的自适应传输策略，在 direct MTE 与 SDMA 之间按段大小选择传输 plane；对大段优先走 SDMA，小段保留 direct 路径，以降低小包 SDMA 开销并提升大包场景吞吐。 - 保持四个算子的外部接口、输出格式和校验方式一致，便于后续统一冒烟、泛化和性能对比。 ## 关联的Issue https://gitcode.com/cann/shmem/issues/249 ## 测试已按以下维度进行验证，具体参数和结果可按实际执行情况补充： - 功能正确性：使用各目录 `scripts/run.sh` 完成 `dispatch`、`combine`、`dispatch_doubleplane`、`combine_doubleplane` 基础冒烟，校验 `expand_x`、`assist_info_for_combine`、`ep_recv_count`、`expert_token_nums`、`x_out` 与 golden 一致。 - 二级冒烟：覆盖 `[2/4/8]` 卡、`[int32_t/float16_t]`、`[bs/topk/h/expertPerPe]` 典型组合，确认 classic 与 DoublePlane 路径均可稳定运行。 - 算子泛化：覆盖不同 `pes`、`bs`、`h`、`topk`、`expertPerPe` 组合，验证不同 shape 下输出语义与 classic 基线保持一致。 - 性能验证：通过 `--perf` 模式对 `dispatch` vs `dispatch_doubleplane`、`combine` vs `combine_doubleplane` 进行 `full_op` 和 `comm_only` 对比，重点观察多卡场景下的带宽和耗时表现。 - 协议一致性：验证 DoublePlane 在 SDMA/direct 混合路径下，payload、assist、ready、count、status 的写入/可见性时序正确，无功能回归。验证结果如下： ![91CDE5B2-5437-41ED-A859-9F0C5013E64C.png](https://raw.gitcode.com/user-images/assets/8546182/a1858f90-6331-47a6-9347-46d1131a7550/91CDE5B2-5437-41ED-A859-9F0C5013E64C.png '91CDE5B2-5437-41ED-A859-9F0C5013E64C.png') ![D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png](https://raw.gitcode.com/user-images/assets/8546182/683ebd6c-df45-4d48-9c08-1360b7bbb0cc/D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png 'D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png') ![E19255BB-42E0-4CDE-E609-7E35E761F343.png](https://raw.gitcode.com/user-images/assets/8546182/7557886f-947a-4b17-b62f-107f1e1823b3/E19255BB-42E0-4CDE-E609-7E35E761F343.png 'E19255BB-42E0-4CDE-E609-7E35E761F343.png') ## 文档更新 - 更新/补充 `dispatch`、`combine`、`dispatch_doubleplane`、`combine_doubleplane` 的 README，说明构建、功能运行和性能测试方法。 - 更新/补充 DoublePlane 设计说明文档，记录分段判定、传输策略和控制面协议。 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：Add example/perftest See merge request: cann/shmem!350	4 天前
param.h	添加经典和双平面两种实现路径的Dispatch和Combine算子example Co-authored-by: xionglan2<xionglan2@huawei.com> # message auto-generated for no-merge-commit merge: !350 merge feature/dispatch-combine-examples into master 添加经典和双平面两种实现路径的Dispatch和Combine算子example Created-by: xionglan2 Commit-by: xionglan2 Merged-by: cann-robot Description: ## 描述本次 PR 将 `dispatch`、`combine`、`dispatch_doubleplane`、`combine_doubleplane` 四个 MoE 通信算子上库，并对 classic / DoublePlane 两类路径做统一整理和性能优化，目标是在保持现有输入输出语义不变的前提下，补齐基础能力、统一脚本与文档，并提升大包传输场景下的吞吐表现。具体改动包括： - 补齐 classic `dispatch` / `combine` 与 DoublePlane `dispatch_doubleplane` / `combine_doubleplane` 四个算子的构建、运行脚本和说明文档，统一功能验证和性能测试入口。 - `dispatch` 路径将输入token按路由规则分发到目标expert，生成后续combine所需的中间结果；`combine` 路径将个expert输出按源token和topK权重回传聚合，生成最终输出结果。 - `dispatch_doubleplane` / `combine_doubleplane` 引入基于 segment size 的自适应传输策略，在 direct MTE 与 SDMA 之间按段大小选择传输 plane；对大段优先走 SDMA，小段保留 direct 路径，以降低小包 SDMA 开销并提升大包场景吞吐。 - 保持四个算子的外部接口、输出格式和校验方式一致，便于后续统一冒烟、泛化和性能对比。 ## 关联的Issue https://gitcode.com/cann/shmem/issues/249 ## 测试已按以下维度进行验证，具体参数和结果可按实际执行情况补充： - 功能正确性：使用各目录 `scripts/run.sh` 完成 `dispatch`、`combine`、`dispatch_doubleplane`、`combine_doubleplane` 基础冒烟，校验 `expand_x`、`assist_info_for_combine`、`ep_recv_count`、`expert_token_nums`、`x_out` 与 golden 一致。 - 二级冒烟：覆盖 `[2/4/8]` 卡、`[int32_t/float16_t]`、`[bs/topk/h/expertPerPe]` 典型组合，确认 classic 与 DoublePlane 路径均可稳定运行。 - 算子泛化：覆盖不同 `pes`、`bs`、`h`、`topk`、`expertPerPe` 组合，验证不同 shape 下输出语义与 classic 基线保持一致。 - 性能验证：通过 `--perf` 模式对 `dispatch` vs `dispatch_doubleplane`、`combine` vs `combine_doubleplane` 进行 `full_op` 和 `comm_only` 对比，重点观察多卡场景下的带宽和耗时表现。 - 协议一致性：验证 DoublePlane 在 SDMA/direct 混合路径下，payload、assist、ready、count、status 的写入/可见性时序正确，无功能回归。验证结果如下： ![91CDE5B2-5437-41ED-A859-9F0C5013E64C.png](https://raw.gitcode.com/user-images/assets/8546182/a1858f90-6331-47a6-9347-46d1131a7550/91CDE5B2-5437-41ED-A859-9F0C5013E64C.png '91CDE5B2-5437-41ED-A859-9F0C5013E64C.png') ![D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png](https://raw.gitcode.com/user-images/assets/8546182/683ebd6c-df45-4d48-9c08-1360b7bbb0cc/D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png 'D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png') ![E19255BB-42E0-4CDE-E609-7E35E761F343.png](https://raw.gitcode.com/user-images/assets/8546182/7557886f-947a-4b17-b62f-107f1e1823b3/E19255BB-42E0-4CDE-E609-7E35E761F343.png 'E19255BB-42E0-4CDE-E609-7E35E761F343.png') ## 文档更新 - 更新/补充 `dispatch`、`combine`、`dispatch_doubleplane`、`combine_doubleplane` 的 README，说明构建、功能运行和性能测试方法。 - 更新/补充 DoublePlane 设计说明文档，记录分段判定、传输策略和控制面协议。 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：Add example/perftest See merge request: cann/shmem!350	4 天前
perf_data_process.py	ascendc+mte接口带宽性能用例 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !176 merge apiperf into master ascendc+mte接口带宽性能用例 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> mte和ascendc性能测试用例，提供图形化处理，md文件生成 profiling接口支持出参获取具体信息 soc_type指定950平台时切换打点频率 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/155 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 产物 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/c86d9e82-941c-4a62-bd16-1951a170389a/image.png 'image.png') csv数据 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/8be48f5d-da5f-431e-b31e-d3469959b840/image.png 'image.png') 图 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/f362b21a-c50d-4614-becd-a7d1b47f85dd/image.png 'image.png') md ![image.png](https://raw.gitcode.com/user-images/assets/8546182/fb1e2481-78f3-412a-be14-4117e1a33214/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/shmem!176	2 个月前
perftest_common_types.h	feat(examples): add udma_perftest under shmem_perftest Co-authored-by: suqwe<sujianjia@huawei.com> # message auto-generated for no-merge-commit merge: !367 merge feat/udma-perftest into master feat(examples): add udma_perftest under shmem_perftest Created-by: suqwe Commit-by: suqwe Merged-by: cann-robot Description: ## 描述新增 UDMA 引擎专用的性能测试样例 `examples/shmem_perftest/udma_perftest/`，平行于已有的 `mte_perftest`： - 新增样例 `udma_perftest`：覆盖 `aclshmemx_udma_put_nbi` / `aclshmemx_udma_get_nbi` / `aclshmemx_udma_put_signal_nbi` 三个 UDMA 低阶接口，模式包含 `put / bi_put / get / bi_get / put_signal`，配套 `main.cpp` / `udma_perftest_kernel.cpp` / `run.sh` / `CMakeLists.txt` / `README.md`。 - 目录重命名：`mte_perftest -> shmem_perftest`、内层 `inner -> mte_perftest`，把 MTE / UDMA / AscendC 三个样例统一收编到 `shmem_perftest` 下。 - HBM-only 范围：UDMA 引擎当前未对 Host 侧 DRAM 提供 RMA 路径，本样例仅测 HBM (`DEVICE_SIDE`)，不再支持 D2H / `HOST_SIDE`。 - 强制单核：UDMA 不允许同 peer 多核并发，`block_dim=1` 固定，`-b/--block-size`、`--block-range` 仅形式上保留。 - BW / Latency 双口径： - `--metric bw`（默认）：`prof_start → loop(_nbi) → quiet → prof_end`，窗口含 `quiet`。 - `--metric lat`：`prof_start → loop(put_nbi) → prof_end → quiet`，`quiet` 移到窗口外，仅测下发。 - 两种口径都是单 `SHMEMI_PROF_START/END` 包整段循环，再除以 `loop_count`，避免每次循环打点把 `pipe_barrier` 开销叠到延时数字上。 - `--batch` 提交粒度（仅 BW 路径）： - `--batch 0`（默认）等价于 `--batch <loop_count>`，全异步，仅末尾一次 `quiet`，反映稳态吞吐； - `--batch 1` 每次 `_nbi` 后立刻 `quiet`，等价于同步提交，反映"提交+完成"端到端开销； - `--batch N`（`1 < N < loop_count`）每 N 次 `_nbi` 一次 `quiet`，可观察 batch size 与吞吐的关系；`loop_count % N != 0` 时 `prof_end` 之前补一次 `quiet`。 - `--metric lat` 不受 `--batch` 影响。 - `put_signal` 行为：测试启动分配对称信号缓冲并初始化为 0，每次 `put_signal_nbi` 信号值线性递增；数据点结束后 host 端读回并校验 `signal_base + warmup + loop_count - 1`。 - 配套修复*：`put_signal_nbi` 内部传给 `write_notify` 的指针改为 typed pointer，避免 SOC 上 ABI 错位（`src/device/gm2gm/engine/shmem_device_udma.hpp`）。 ## 关联的Issue Fixes #311 ## 测试 - 在 Ascend950 上 `bash scripts/build.sh -examples -soc_type Ascend950` 通过；以 PR 当前 head 重新构建 `udma_perftest` target 链接成功。 - `./run.sh -t put -d float --exponent-range 8 17 --loop-count 1000` 跑通；`-t bi_put / get / bi_get / put_signal` 各跑通，`--metric lat -t put` 跑通。 - `--batch 1 / --batch 16 / --batch 1000` 三档跑通，CSV 列与默认 `bw` 一致；CLI 校验：`--batch -1` 被 binary 拒绝，`--batch abc` 被 run.sh 正则拒绝，`--metric lat` + `-t get` 组合直接报错退出。 - `put_signal` 的远端 signal 槽校验通过（`signal_base + warmup + loop_count - 1`）。 - 非 Ascend950 SOC 上 device kernel 内置 `aclshmemi_kernel_abort`，按预期退出。 ## 文档更新 - 新增 `examples/shmem_perftest/udma_perftest/README.md`（含 CLI 参数表、metric 口径说明、`--batch` 章节、`put_signal` 行为说明、CSV 输出说明、已知约束）。 - 更新 `examples/shmem_perftest/README.md` 增加 udma 子目录索引。 - `mte_perftest/README.md` / `ascendc_perftest/README.md` 同步路径调整。 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他，请描述： See merge request: cann/shmem!367	1 小时前
summarize_moe_perf.py	添加经典和双平面两种实现路径的Dispatch和Combine算子example Co-authored-by: xionglan2<xionglan2@huawei.com> # message auto-generated for no-merge-commit merge: !350 merge feature/dispatch-combine-examples into master 添加经典和双平面两种实现路径的Dispatch和Combine算子example Created-by: xionglan2 Commit-by: xionglan2 Merged-by: cann-robot Description: ## 描述本次 PR 将 `dispatch`、`combine`、`dispatch_doubleplane`、`combine_doubleplane` 四个 MoE 通信算子上库，并对 classic / DoublePlane 两类路径做统一整理和性能优化，目标是在保持现有输入输出语义不变的前提下，补齐基础能力、统一脚本与文档，并提升大包传输场景下的吞吐表现。具体改动包括： - 补齐 classic `dispatch` / `combine` 与 DoublePlane `dispatch_doubleplane` / `combine_doubleplane` 四个算子的构建、运行脚本和说明文档，统一功能验证和性能测试入口。 - `dispatch` 路径将输入token按路由规则分发到目标expert，生成后续combine所需的中间结果；`combine` 路径将个expert输出按源token和topK权重回传聚合，生成最终输出结果。 - `dispatch_doubleplane` / `combine_doubleplane` 引入基于 segment size 的自适应传输策略，在 direct MTE 与 SDMA 之间按段大小选择传输 plane；对大段优先走 SDMA，小段保留 direct 路径，以降低小包 SDMA 开销并提升大包场景吞吐。 - 保持四个算子的外部接口、输出格式和校验方式一致，便于后续统一冒烟、泛化和性能对比。 ## 关联的Issue https://gitcode.com/cann/shmem/issues/249 ## 测试已按以下维度进行验证，具体参数和结果可按实际执行情况补充： - 功能正确性：使用各目录 `scripts/run.sh` 完成 `dispatch`、`combine`、`dispatch_doubleplane`、`combine_doubleplane` 基础冒烟，校验 `expand_x`、`assist_info_for_combine`、`ep_recv_count`、`expert_token_nums`、`x_out` 与 golden 一致。 - 二级冒烟：覆盖 `[2/4/8]` 卡、`[int32_t/float16_t]`、`[bs/topk/h/expertPerPe]` 典型组合，确认 classic 与 DoublePlane 路径均可稳定运行。 - 算子泛化：覆盖不同 `pes`、`bs`、`h`、`topk`、`expertPerPe` 组合，验证不同 shape 下输出语义与 classic 基线保持一致。 - 性能验证：通过 `--perf` 模式对 `dispatch` vs `dispatch_doubleplane`、`combine` vs `combine_doubleplane` 进行 `full_op` 和 `comm_only` 对比，重点观察多卡场景下的带宽和耗时表现。 - 协议一致性：验证 DoublePlane 在 SDMA/direct 混合路径下，payload、assist、ready、count、status 的写入/可见性时序正确，无功能回归。验证结果如下： ![91CDE5B2-5437-41ED-A859-9F0C5013E64C.png](https://raw.gitcode.com/user-images/assets/8546182/a1858f90-6331-47a6-9347-46d1131a7550/91CDE5B2-5437-41ED-A859-9F0C5013E64C.png '91CDE5B2-5437-41ED-A859-9F0C5013E64C.png') ![D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png](https://raw.gitcode.com/user-images/assets/8546182/683ebd6c-df45-4d48-9c08-1360b7bbb0cc/D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png 'D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png') ![E19255BB-42E0-4CDE-E609-7E35E761F343.png](https://raw.gitcode.com/user-images/assets/8546182/7557886f-947a-4b17-b62f-107f1e1823b3/E19255BB-42E0-4CDE-E609-7E35E761F343.png 'E19255BB-42E0-4CDE-E609-7E35E761F343.png') ## 文档更新 - 更新/补充 `dispatch`、`combine`、`dispatch_doubleplane`、`combine_doubleplane` 的 README，说明构建、功能运行和性能测试方法。 - 更新/补充 DoublePlane 设计说明文档，记录分段判定、传输策略和控制面协议。 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：Add example/perftest See merge request: cann/shmem!350	4 天前
utils.h	新增SIMD、SIMT混合编程场景下的SIMT RMA接口 Co-authored-by: mizuki_p<wanghan157@huawei.com> # message auto-generated for no-merge-commit merge: !252 merge simt_putget into master 新增SIMD、SIMT混合编程场景下的SIMT RMA接口 Created-by: mizuki_p Commit-by: mizuki_p Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 新增simd simt混合编程情况下的simt rma接口新增接口主体上与simd的对应接口保持一致，主要区别如下： 1. simt的接口使用__simt_callee__ inline进行修饰，而非__aicore__ 2. 所有simt接口与simd接口命名保持一致，但为了避免函数重定义问题，simt接口放置于simt名空间下 3. 当前编译器限制__simt_callee__修饰的simt vf函数无法传递对象类型的参数，目前simt的put get接口不支持传入AscendC::LocalTensor和AscendC::GlobalTensor类型的重载此次PR主要新增的接口如下： ```cpp 1. aclshmem_my_pe 2. aclshmem_n_pes 3. aclshmem_##TYPE##_p、aclshmem_int32_g 4. aclshmemx_mte_get_nbi、aclshmemx_mte_put_nbi 5. aclshmem_getmem、aclshmem_putmem 6. aclshmem_##TYPE##_get、aclshmem_##TYPE##_put 7. aclshmem_get##BITS##、aclshmem_put##BITS## ``` 此外，新增的SIMT接口默认不启用，编译时需要指定--enable_simt进行开启 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> [\[Task\|任务\]: SHMEM支持SIMT方式的RMA接口](https://gitcode.com/cann/shmem/issues/198) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 暂新增了两个样例 simt_demo和simt_mem_demo用于测试功能的正确性 simt_rma_scalar样例通过截图 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/652f7a73-fdbd-4b53-8249-8c821c43dad8/image.png 'image.png') simt_rma样例通过截图 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> 新增了两个样例(simt_rma、simt_rma_scalar)的README文件 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/shmem!252	1 个月前
utils.py	通算融合算子精度标准调整 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !208 merge precheck into master 通算融合算子精度标准调整 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 通算融合算子精度标准调整文档调整 torch用例数据类型支持老版本 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/168 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ![image.png](https://raw.gitcode.com/user-images/assets/8546182/db5a7273-f7d8-49a0-9579-81c197889b91/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8546182/aed550a2-5212-4cc7-ac0e-25daf91712bd/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/shmem!208	2 个月前
verify_result.py	通算融合算子精度标准调整 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !208 merge precheck into master 通算融合算子精度标准调整 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 通算融合算子精度标准调整文档调整 torch用例数据类型支持老版本 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/168 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ![image.png](https://raw.gitcode.com/user-images/assets/8546182/db5a7273-f7d8-49a0-9579-81c197889b91/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8546182/aed550a2-5212-4cc7-ac0e-25daf91712bd/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/shmem!208	2 个月前