文件最后提交记录最后更新时间
feat(issue-280): [Task|任务]: namespace 整改 Co-authored-by: nino888<yinqiran1@huawei.com> # message auto-generated for no-merge-commit merge: !387 merge autodev/issue-280 into master feat(issue-280): [Task|任务]: namespace 整改 Created-by: nino888 Commit-by: nino888 Merged-by: cann-robot Description: ## Summary - Implement issue #280: [Task|任务]: namespace 整改 - Source issue: https://gitcode.com/cann/shmem/issues/280 - Branch: autodev/issue-280 (nino888/shmem -> cann/shmem) ## Changes - examples/dispatch_gmm_combine/include/dispatch_gmm_combine.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_init_routing_quant_v2.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_common.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_expert_token_out.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_fullload_dynamic_quant.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_fullload_quant.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_fullload_quant_base.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_gather_dynamic_quant.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_gather_quant.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_mrgsort.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_mrgsort_out.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_sort_base.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_sort_multi_core.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_sort_one_core.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_src_to_dst_and_gather.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_src_to_dst_op.h - examples/dispatch_gmm_combine/include/moe_init_routing_quant_v2/moe_v2_src_to_dst_with_capacity.h - examples/dispatch_gmm_combine/include/moe_token_unpermute.h - examples/dispatch_gmm_combine/include/select_helper.h - examples/dispatch_gmm_combine/include/sync_util.h - examples/dynamic_tiling/impl/kernel/allgather_matmul.h - examples/dynamic_tiling/impl/kernel/allgather_matmul_padding.h - examples/dynamic_tiling/impl/kernel/allgather_matmul_with_gather_result.h - examples/dynamic_tiling/impl/kernel/matmul_allreduce.h - examples/dynamic_tiling/impl/kernel/matmul_reduce_scatter.h - examples/dynamic_tiling/impl/kernel/matmul_reduce_scatter_padding_a.h - examples/dynamic_tiling/impl/kernel/matmul_reduce_scatter_padding_ab.h - examples/dynamic_tiling/impl/kernel/matmul_reduce_scatter_padding_b.h - examples/matmul_allreduce/epilogue/block/epilogue_allreduce.hpp - src/device/gm2gm/shmemi_device_rma.cpp - src/host/bootstrap/shmemi_bootstrap_config_store.cpp - src/host/data_plane/shmem_host_rma.cpp - src/host/entity/mem_entity_default.cpp - src/host/entity/mem_entity_entry.cpp - src/host/init/shmem_init.cpp - src/host/mem/heap/hybm_vmm_based_segment.cpp - src/host/mem/shmem_rma.cpp - src/host/team/shmem_team.cpp - src/host/transport/transport_manager.cpp ## Local Validation - echo 'TODO: replace with real tests, e.g. pytest -q': passed See merge request: cann/shmem!38719 小时前
fix LICENSE Co-authored-by: jiang-xinyu3<jiangxinyu3@hisilicon.com> 5 个月前
通算融合算子精度标准调整 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !208 merge precheck into master 通算融合算子精度标准调整 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 通算融合算子精度标准调整 文档调整 torch用例数据类型支持老版本 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/168 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ![image.png](https://raw.gitcode.com/user-images/assets/8546182/db5a7273-f7d8-49a0-9579-81c197889b91/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8546182/aed550a2-5212-4cc7-ac0e-25daf91712bd/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!2082 个月前
fix LICENSE Co-authored-by: jiang-xinyu3<jiangxinyu3@hisilicon.com> 5 个月前
通算融合算子精度标准调整 Co-authored-by: zhangyunqi<zhangyunqi5@huawei.com> # message auto-generated for no-merge-commit merge: !208 merge precheck into master 通算融合算子精度标准调整 Created-by: zhangyunqi Commit-by: zhangyunqi Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 通算融合算子精度标准调整 文档调整 torch用例数据类型支持老版本 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/shmem/issues/168 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ![image.png](https://raw.gitcode.com/user-images/assets/8546182/db5a7273-f7d8-49a0-9579-81c197889b91/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/8546182/aed550a2-5212-4cc7-ac0e-25daf91712bd/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!2082 个月前
适配A5 new HDK for mte Co-authored-by: james88liu<liujianxing1@huawei.com> # message auto-generated for no-merge-commit merge: !93 merge br_fix_cann_build into master 适配A5 new HDK for mte Created-by: james88liu Commit-by: james88liu Merged-by: cann-robot Description: ## 描述 适配A5硬件,并基于新硬件调试mte接口示例 ## 关联的Issue https://gitcode.com/cann/shmem/issues/104 ## 测试 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/4005e03c-98e8-466a-8d6c-c04e7fe43934/image.png 'image.png') A5: ![image.png](https://raw.gitcode.com/user-images/assets/8546182/e7cf810b-795a-450d-9b6a-fa214998f755/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!933 个月前
example下的pe名称统一与readme补充 Co-authored-by: dovahkiiin<haorunzhe@h-partners.com> # message auto-generated for no-merge-commit merge: !150 merge fix/fix_issue_115-117 into master example下的pe名称统一与readme补充 Created-by: dovahkiiin Commit-by: dovahkiiin Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!1503 个月前
example下的pe名称统一与readme补充 Co-authored-by: dovahkiiin<haorunzhe@h-partners.com> # message auto-generated for no-merge-commit merge: !150 merge fix/fix_issue_115-117 into master example下的pe名称统一与readme补充 Created-by: dovahkiiin Commit-by: dovahkiiin Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!1503 个月前
README.md

使用方式

1. 编译项目

shmem/ 根目录下执行编译脚本:

bash scripts/build.sh -examples

2. 运行 Dynamic-Tiling 示例程序

进入示例目录并执行运行脚本:

cd examples/dynamic_tiling
bash scripts/run.sh [comm_type] [data_type] [test_start_line] [test_collect_rows] [device_list]
参数说明
参数 说明 取值示例
comm_type 通信-计算融合算子类型 0: MATMUL_ALLREDUCE
1: ALLGATHER_MATMUL
2: MATMUL_REDUCE_SCATTER
data_type 数据类型 1: FP16
27: BF16
test_start_line(可选) 测试起始行索引(对应test_shapes.csv中的行号,从0开始)
需与 test_collect_rows 一同指定,用于性能测试
0, 10, ...
test_collect_rows(可选) 每次采集性能数据的测试用例数量 5, 10, ...
device_list 指定运行的设备(NPU)编号列表,以逗号分隔 0,1, 4,5,6,7

📌 注意

  • peSizedevice_list中设备数量自动确定
  • 精度测试默认按顺序执行test_shapes.csv中定义的所有shape
  • 性能测试需指定test_start_line和test_collect_rows参数:从第test_start_line个shape开始,每次采集test_collect_rows个测试用例,持续执行直至文件末尾
示例
  • 精度测试示例
    使用 NPU 0 和 1,运行 MatMul-AllReduce 精度测试,数据类型为FP16,peSize = 2

    bash scripts/run.sh 0 1 0,1
    
  • 性能测试示例
    使用 NPU 4、5、6、7,运行 AllGather-MatMul 性能测试,数据类型为 BF16,从 test_shapes.csv 第0行开始,每 10 个 shape 采集一次 msprof 性能数据,peSize = 4

    bash scripts/run.sh 1 27 0 10 4,5,6,7
    

3. 配置计算规模

矩阵计算参数(包括 M, K, N, Transpose A, Transpose B)在配置文件中定义:

scripts/test_shapes.csv

请根据测试需求修改该文件,添加或调整测试用例的输入维度和属性。


提示

  • 确保设备编号正确且可用。
  • 建议在性能测试前清理无关进程,以保证数据准确性。
  • 性能数据默认输出至 output/ 目录。