文件最后提交记录最后更新时间
文件名aclshmem改为shmem Co-authored-by: caixilong<caixilong2@h-partners.com> 5 个月前
通算融合算子精度标准调整 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !208 merge precheck into master 通算融合算子精度标准调整 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 通算融合算子精度标准调整 文档调整 torch用例数据类型支持老版本 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/168 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ![image.png](https://raw.gitcode.com/user-images/assets/8546182/db5a7273-f7d8-49a0-9579-81c197889b91/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8546182/aed550a2-5212-4cc7-ac0e-25daf91712bd/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!2082 个月前
添加经典和双平面两种实现路径的Dispatch和Combine算子example Co-authored-by: xionglan2<xionglan2@huawei.com> # message auto-generated for no-merge-commit merge: !350 merge feature/dispatch-combine-examples into master 添加经典和双平面两种实现路径的Dispatch和Combine算子example Created-by: xionglan2 Commit-by: xionglan2 Merged-by: cann-robot Description: ## 描述 本次 PR 将 dispatchcombinedispatch_doubleplanecombine_doubleplane 四个 MoE 通信算子上库,并对 classic / DoublePlane 两类路径做统一整理和性能优化,目标是在保持现有输入输出语义不变的前提下,补齐基础能力、统一脚本与文档,并提升大包传输场景下的吞吐表现。 具体改动包括: - 补齐 classic dispatch / combine 与 DoublePlane dispatch_doubleplane / combine_doubleplane 四个算子的构建、运行脚本和说明文档,统一功能验证和性能测试入口。 - dispatch 路径将输入token按路由规则分发到目标expert,生成后续combine所需的中间结果;combine 路径将个expert输出按源token和topK权重回传聚合,生成最终输出结果。 - dispatch_doubleplane / combine_doubleplane 引入基于 segment size 的自适应传输策略,在 direct MTE 与 SDMA 之间按段大小选择传输 plane;对大段优先走 SDMA,小段保留 direct 路径,以降低小包 SDMA 开销并提升大包场景吞吐。 - 保持四个算子的外部接口、输出格式和校验方式一致,便于后续统一冒烟、泛化和性能对比。 ## 关联的Issue https://gitcode.com/cann/shmem/issues/249 ## 测试 已按以下维度进行验证,具体参数和结果可按实际执行情况补充: - 功能正确性:使用各目录 scripts/run.sh 完成 dispatchcombinedispatch_doubleplanecombine_doubleplane 基础冒烟,校验 expand_xassist_info_for_combineep_recv_countexpert_token_numsx_out 与 golden 一致。 - 二级冒烟:覆盖 [2/4/8] 卡、[int32_t/float16_t][bs/topk/h/expertPerPe] 典型组合,确认 classic 与 DoublePlane 路径均可稳定运行。 - 算子泛化:覆盖不同 pesbshtopkexpertPerPe 组合,验证不同 shape 下输出语义与 classic 基线保持一致。 - 性能验证:通过 --perf 模式对 dispatch vs dispatch_doubleplanecombine vs combine_doubleplane 进行 full_opcomm_only 对比,重点观察多卡场景下的带宽和耗时表现。 - 协议一致性:验证 DoublePlane 在 SDMA/direct 混合路径下,payload、assist、ready、count、status 的写入/可见性时序正确,无功能回归。 验证结果如下: ![91CDE5B2-5437-41ED-A859-9F0C5013E64C.png](https://raw.gitcode.com/user-images/assets/8546182/a1858f90-6331-47a6-9347-46d1131a7550/91CDE5B2-5437-41ED-A859-9F0C5013E64C.png '91CDE5B2-5437-41ED-A859-9F0C5013E64C.png') ![D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png](https://raw.gitcode.com/user-images/assets/8546182/683ebd6c-df45-4d48-9c08-1360b7bbb0cc/D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png 'D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png') ![E19255BB-42E0-4CDE-E609-7E35E761F343.png](https://raw.gitcode.com/user-images/assets/8546182/7557886f-947a-4b17-b62f-107f1e1823b3/E19255BB-42E0-4CDE-E609-7E35E761F343.png 'E19255BB-42E0-4CDE-E609-7E35E761F343.png') ## 文档更新 - 更新/补充 dispatchcombinedispatch_doubleplanecombine_doubleplane 的 README,说明构建、功能运行和性能测试方法。 - 更新/补充 DoublePlane 设计说明文档,记录分段判定、传输策略和控制面协议。 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他,请描述:Add example/perftest See merge request: cann/shmem!3504 天前
添加经典和双平面两种实现路径的Dispatch和Combine算子example Co-authored-by: xionglan2<xionglan2@huawei.com> # message auto-generated for no-merge-commit merge: !350 merge feature/dispatch-combine-examples into master 添加经典和双平面两种实现路径的Dispatch和Combine算子example Created-by: xionglan2 Commit-by: xionglan2 Merged-by: cann-robot Description: ## 描述 本次 PR 将 dispatchcombinedispatch_doubleplanecombine_doubleplane 四个 MoE 通信算子上库,并对 classic / DoublePlane 两类路径做统一整理和性能优化,目标是在保持现有输入输出语义不变的前提下,补齐基础能力、统一脚本与文档,并提升大包传输场景下的吞吐表现。 具体改动包括: - 补齐 classic dispatch / combine 与 DoublePlane dispatch_doubleplane / combine_doubleplane 四个算子的构建、运行脚本和说明文档,统一功能验证和性能测试入口。 - dispatch 路径将输入token按路由规则分发到目标expert,生成后续combine所需的中间结果;combine 路径将个expert输出按源token和topK权重回传聚合,生成最终输出结果。 - dispatch_doubleplane / combine_doubleplane 引入基于 segment size 的自适应传输策略,在 direct MTE 与 SDMA 之间按段大小选择传输 plane;对大段优先走 SDMA,小段保留 direct 路径,以降低小包 SDMA 开销并提升大包场景吞吐。 - 保持四个算子的外部接口、输出格式和校验方式一致,便于后续统一冒烟、泛化和性能对比。 ## 关联的Issue https://gitcode.com/cann/shmem/issues/249 ## 测试 已按以下维度进行验证,具体参数和结果可按实际执行情况补充: - 功能正确性:使用各目录 scripts/run.sh 完成 dispatchcombinedispatch_doubleplanecombine_doubleplane 基础冒烟,校验 expand_xassist_info_for_combineep_recv_countexpert_token_numsx_out 与 golden 一致。 - 二级冒烟:覆盖 [2/4/8] 卡、[int32_t/float16_t][bs/topk/h/expertPerPe] 典型组合,确认 classic 与 DoublePlane 路径均可稳定运行。 - 算子泛化:覆盖不同 pesbshtopkexpertPerPe 组合,验证不同 shape 下输出语义与 classic 基线保持一致。 - 性能验证:通过 --perf 模式对 dispatch vs dispatch_doubleplanecombine vs combine_doubleplane 进行 full_opcomm_only 对比,重点观察多卡场景下的带宽和耗时表现。 - 协议一致性:验证 DoublePlane 在 SDMA/direct 混合路径下,payload、assist、ready、count、status 的写入/可见性时序正确,无功能回归。 验证结果如下: ![91CDE5B2-5437-41ED-A859-9F0C5013E64C.png](https://raw.gitcode.com/user-images/assets/8546182/a1858f90-6331-47a6-9347-46d1131a7550/91CDE5B2-5437-41ED-A859-9F0C5013E64C.png '91CDE5B2-5437-41ED-A859-9F0C5013E64C.png') ![D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png](https://raw.gitcode.com/user-images/assets/8546182/683ebd6c-df45-4d48-9c08-1360b7bbb0cc/D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png 'D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png') ![E19255BB-42E0-4CDE-E609-7E35E761F343.png](https://raw.gitcode.com/user-images/assets/8546182/7557886f-947a-4b17-b62f-107f1e1823b3/E19255BB-42E0-4CDE-E609-7E35E761F343.png 'E19255BB-42E0-4CDE-E609-7E35E761F343.png') ## 文档更新 - 更新/补充 dispatchcombinedispatch_doubleplanecombine_doubleplane 的 README,说明构建、功能运行和性能测试方法。 - 更新/补充 DoublePlane 设计说明文档,记录分段判定、传输策略和控制面协议。 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他,请描述:Add example/perftest See merge request: cann/shmem!3504 天前
ascendc+mte接口带宽性能用例 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !176 merge apiperf into master ascendc+mte接口带宽性能用例 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> mte和ascendc性能测试用例,提供图形化处理,md文件生成 profiling接口支持出参获取具体信息 soc_type指定950平台时切换打点频率 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/155 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 产物 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/c86d9e82-941c-4a62-bd16-1951a170389a/image.png 'image.png') csv数据 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/8be48f5d-da5f-431e-b31e-d3469959b840/image.png 'image.png') 图 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/f362b21a-c50d-4614-becd-a7d1b47f85dd/image.png 'image.png') md ![image.png](https://raw.gitcode.com/user-images/assets/8546182/fb1e2481-78f3-412a-be14-4117e1a33214/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!1762 个月前
feat(examples): add udma_perftest under shmem_perftest Co-authored-by: suqwe<sujianjia@huawei.com> # message auto-generated for no-merge-commit merge: !367 merge feat/udma-perftest into master feat(examples): add udma_perftest under shmem_perftest Created-by: suqwe Commit-by: suqwe Merged-by: cann-robot Description: ## 描述 新增 UDMA 引擎专用的性能测试样例 examples/shmem_perftest/udma_perftest/,平行于已有的 mte_perftest: - **新增样例 udma_perftest**:覆盖 aclshmemx_udma_put_nbi / aclshmemx_udma_get_nbi / aclshmemx_udma_put_signal_nbi 三个 UDMA 低阶接口,模式包含 put / bi_put / get / bi_get / put_signal,配套 main.cpp / udma_perftest_kernel.cpp / run.sh / CMakeLists.txt / README.md。 - **目录重命名**:mte_perftest -> shmem_perftest、内层 inner -> mte_perftest,把 MTE / UDMA / AscendC 三个样例统一收编到 shmem_perftest 下。 - **HBM-only 范围**:UDMA 引擎当前未对 Host 侧 DRAM 提供 RMA 路径,本样例仅测 HBM (DEVICE_SIDE),不再支持 D2H / HOST_SIDE。 - **强制单核**:UDMA 不允许同 peer 多核并发,block_dim=1 固定,-b/--block-size--block-range 仅形式上保留。 - **BW / Latency 双口径**: - --metric bw(默认):prof_start → loop(*_nbi) → quiet → prof_end,窗口含 quiet。 - --metric latprof_start → loop(put_nbi) → prof_end → quietquiet 移到窗口外,仅测下发。 - 两种口径都是单 SHMEMI_PROF_START/END 包整段循环,再除以 loop_count,避免每次循环打点把 pipe_barrier 开销叠到延时数字上。 - **--batch 提交粒度(仅 BW 路径)**: - --batch 0(默认)等价于 --batch <loop_count>,全异步,仅末尾一次 quiet,反映稳态吞吐; - --batch 1 每次 *_nbi 后立刻 quiet,等价于同步提交,反映"提交+完成"端到端开销; - --batch N1 < N < loop_count)每 N 次 *_nbi 一次 quiet,可观察 batch size 与吞吐的关系;loop_count % N != 0prof_end 之前补一次 quiet。 - --metric lat 不受 --batch 影响。 - **put_signal 行为**:测试启动分配对称信号缓冲并初始化为 0,每次 put_signal_nbi 信号值线性递增;数据点结束后 host 端读回并校验 signal_base + warmup + loop_count - 1。 - **配套修复**:put_signal_nbi 内部传给 write_notify 的指针改为 typed pointer,避免 SOC 上 ABI 错位(src/device/gm2gm/engine/shmem_device_udma.hpp)。 ## 关联的Issue Fixes #311 ## 测试 - 在 Ascend950 上 bash scripts/build.sh -examples -soc_type Ascend950 通过;以 PR 当前 head 重新构建 udma_perftest target 链接成功。 - ./run.sh -t put -d float --exponent-range 8 17 --loop-count 1000 跑通;-t bi_put / get / bi_get / put_signal 各跑通,--metric lat -t put 跑通。 - --batch 1 / --batch 16 / --batch 1000 三档跑通,CSV 列与默认 bw 一致;CLI 校验:--batch -1 被 binary 拒绝,--batch abc 被 run.sh 正则拒绝,--metric lat + -t get 组合直接报错退出。 - put_signal 的远端 signal 槽校验通过(signal_base + warmup + loop_count - 1)。 - 非 Ascend950 SOC 上 device kernel 内置 aclshmemi_kernel_abort,按预期退出。 ## 文档更新 - 新增 examples/shmem_perftest/udma_perftest/README.md(含 CLI 参数表、metric 口径说明、--batch 章节、put_signal 行为说明、CSV 输出说明、已知约束)。 - 更新 examples/shmem_perftest/README.md 增加 udma 子目录索引。 - mte_perftest/README.md / ascendc_perftest/README.md 同步路径调整。 ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!3671 小时前
添加经典和双平面两种实现路径的Dispatch和Combine算子example Co-authored-by: xionglan2<xionglan2@huawei.com> # message auto-generated for no-merge-commit merge: !350 merge feature/dispatch-combine-examples into master 添加经典和双平面两种实现路径的Dispatch和Combine算子example Created-by: xionglan2 Commit-by: xionglan2 Merged-by: cann-robot Description: ## 描述 本次 PR 将 dispatchcombinedispatch_doubleplanecombine_doubleplane 四个 MoE 通信算子上库,并对 classic / DoublePlane 两类路径做统一整理和性能优化,目标是在保持现有输入输出语义不变的前提下,补齐基础能力、统一脚本与文档,并提升大包传输场景下的吞吐表现。 具体改动包括: - 补齐 classic dispatch / combine 与 DoublePlane dispatch_doubleplane / combine_doubleplane 四个算子的构建、运行脚本和说明文档,统一功能验证和性能测试入口。 - dispatch 路径将输入token按路由规则分发到目标expert,生成后续combine所需的中间结果;combine 路径将个expert输出按源token和topK权重回传聚合,生成最终输出结果。 - dispatch_doubleplane / combine_doubleplane 引入基于 segment size 的自适应传输策略,在 direct MTE 与 SDMA 之间按段大小选择传输 plane;对大段优先走 SDMA,小段保留 direct 路径,以降低小包 SDMA 开销并提升大包场景吞吐。 - 保持四个算子的外部接口、输出格式和校验方式一致,便于后续统一冒烟、泛化和性能对比。 ## 关联的Issue https://gitcode.com/cann/shmem/issues/249 ## 测试 已按以下维度进行验证,具体参数和结果可按实际执行情况补充: - 功能正确性:使用各目录 scripts/run.sh 完成 dispatchcombinedispatch_doubleplanecombine_doubleplane 基础冒烟,校验 expand_xassist_info_for_combineep_recv_countexpert_token_numsx_out 与 golden 一致。 - 二级冒烟:覆盖 [2/4/8] 卡、[int32_t/float16_t][bs/topk/h/expertPerPe] 典型组合,确认 classic 与 DoublePlane 路径均可稳定运行。 - 算子泛化:覆盖不同 pesbshtopkexpertPerPe 组合,验证不同 shape 下输出语义与 classic 基线保持一致。 - 性能验证:通过 --perf 模式对 dispatch vs dispatch_doubleplanecombine vs combine_doubleplane 进行 full_opcomm_only 对比,重点观察多卡场景下的带宽和耗时表现。 - 协议一致性:验证 DoublePlane 在 SDMA/direct 混合路径下,payload、assist、ready、count、status 的写入/可见性时序正确,无功能回归。 验证结果如下: ![91CDE5B2-5437-41ED-A859-9F0C5013E64C.png](https://raw.gitcode.com/user-images/assets/8546182/a1858f90-6331-47a6-9347-46d1131a7550/91CDE5B2-5437-41ED-A859-9F0C5013E64C.png '91CDE5B2-5437-41ED-A859-9F0C5013E64C.png') ![D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png](https://raw.gitcode.com/user-images/assets/8546182/683ebd6c-df45-4d48-9c08-1360b7bbb0cc/D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png 'D9BE8A9E-29EE-49FB-8FCD-6C11504295D5.png') ![E19255BB-42E0-4CDE-E609-7E35E761F343.png](https://raw.gitcode.com/user-images/assets/8546182/7557886f-947a-4b17-b62f-107f1e1823b3/E19255BB-42E0-4CDE-E609-7E35E761F343.png 'E19255BB-42E0-4CDE-E609-7E35E761F343.png') ## 文档更新 - 更新/补充 dispatchcombinedispatch_doubleplanecombine_doubleplane 的 README,说明构建、功能运行和性能测试方法。 - 更新/补充 DoublePlane 设计说明文档,记录分段判定、传输策略和控制面协议。 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他,请描述:Add example/perftest See merge request: cann/shmem!3504 天前
新增SIMD、SIMT混合编程场景下的SIMT RMA接口 Co-authored-by: mizuki_p<wanghan157@huawei.com> # message auto-generated for no-merge-commit merge: !252 merge simt_putget into master 新增SIMD、SIMT混合编程场景下的SIMT RMA接口 Created-by: mizuki_p Commit-by: mizuki_p Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 新增simd simt混合编程情况下的simt rma接口 新增接口主体上与simd的对应接口保持一致,主要区别如下: 1. simt的接口使用__simt_callee__ inline进行修饰,而非__aicore__ 2. 所有simt接口与simd接口命名保持一致,但为了避免函数重定义问题,simt接口放置于simt名空间下 3. 当前编译器限制__simt_callee__修饰的simt vf函数无法传递对象类型的参数,目前simt的put get接口不支持传入AscendC::LocalTensor和AscendC::GlobalTensor类型的重载 此次PR主要新增的接口如下: ```cpp 1. aclshmem_my_pe 2. aclshmem_n_pes 3. aclshmem_##TYPE##_p、aclshmem_int32_g 4. aclshmemx_mte_get_nbi、aclshmemx_mte_put_nbi 5. aclshmem_getmem、aclshmem_putmem 6. aclshmem_##TYPE##_get、aclshmem_##TYPE##_put 7. aclshmem_get##BITS##、aclshmem_put##BITS## ``` 此外,新增的SIMT接口默认不启用,编译时需要指定--enable_simt进行开启 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> [\[Task|任务\]: SHMEM支持SIMT方式的RMA接口](https://gitcode.com/cann/shmem/issues/198) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 暂新增了两个样例 simt_demo和simt_mem_demo用于测试功能的正确性 simt_rma_scalar样例通过截图 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/652f7a73-fdbd-4b53-8249-8c821c43dad8/image.png 'image.png') simt_rma样例通过截图 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 新增了两个样例(simt_rma、simt_rma_scalar)的README文件 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!2521 个月前
通算融合算子精度标准调整 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !208 merge precheck into master 通算融合算子精度标准调整 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 通算融合算子精度标准调整 文档调整 torch用例数据类型支持老版本 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/168 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ![image.png](https://raw.gitcode.com/user-images/assets/8546182/db5a7273-f7d8-49a0-9579-81c197889b91/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8546182/aed550a2-5212-4cc7-ac0e-25daf91712bd/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!2082 个月前
通算融合算子精度标准调整 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !208 merge precheck into master 通算融合算子精度标准调整 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 通算融合算子精度标准调整 文档调整 torch用例数据类型支持老版本 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/168 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ![image.png](https://raw.gitcode.com/user-images/assets/8546182/db5a7273-f7d8-49a0-9579-81c197889b91/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8546182/aed550a2-5212-4cc7-ac0e-25daf91712bd/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!2082 个月前