文件最后提交记录最后更新时间
docs: restructure README and refresh directory layout Co-authored-by: JoyceAby<JoyceAby@163.com> # message auto-generated for no-merge-commit merge: !193 merge shmem_joyce into master docs: restructure README and refresh directory layout Created-by: Joyce_An Commit-by: JoyceAby Merged-by: cann-robot Description: ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 更新 README.md 文件,优化软件版本依赖矩阵显示,并更新目录布局 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他,请描述: See merge request: cann/shmem!1932 个月前
add aclGraph demo Co-authored-by: VallenChen<chenwei542@huawei.com> # message auto-generated for no-merge-commit merge: !282 merge br_personal/vallenChen/aclGraph_demo into master add aclGraph demo Created-by: vallenChen Commit-by: VallenChen Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 添加使用aclgraph_demo和rdma_aclgraph_demo ### aclgraph_demo 首先为了适配aclGraph,将allgather算子的magic入参从int值换成Device侧的地址(__gm__ int * )这样支持在aclGraph图(model)循环调用中修改。 aclGraph图结构如下: ![image.png](https://raw.gitcode.com/user-images/assets/8546182/ad5e3cc9-ae42-40d0-a665-14acd664a0e7/image.png 'image.png') 将第一个add的输出作为第一个allgather的输入,之后将两个allgather的输出作为第二个add的输入。将其作为aclGraph的图(model),第一次循环进行图的捕获,后续循环重放捕获完成的图。通过每次循环第二个add的输出是否符合预期,来判断allgather在图中功能是否正常。 ### rdma_aclgraph_demo 由于rdma allgather只发送Write,因此在入图时需要在rdma allgather前后添加aclshmemx_handle_wait接口进行同步,确保所有PE上的图均已执行到相应阶段,确保aclGraph图(model)的精度正常。 aclGraph图结构如下: ![image.png](https://raw.gitcode.com/user-images/assets/8546182/091ff732-56c0-431e-be32-21ab6f725de4/image.png 'image.png') ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #123--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 在CANN 9.0.0和CANN 8.5.0上循环执行两个demo,功能正常。 ### aclgraph_demo: * 单机4卡场景循环2000次,功能正常: ![image.png](https://raw.gitcode.com/user-images/assets/8546182/04c61f0a-298e-4cb8-8ab5-5d541ac8e632/image.png 'image.png') * aclgraph_demo profiling: ![image.png](https://raw.gitcode.com/user-images/assets/8546182/4f6bafb5-052b-4058-a014-8ae3baf2cc55/image.png 'image.png') ### rdma_aclgraph_demo: * 2机8卡场景循环2000次,功能正常。 ![image.png](https://raw.gitcode.com/user-images/assets/8546182/02c39a9a-b4bf-424d-8130-0ea1d377577c/image.png 'image.png') * rdma_aclgraph_demo profiling: ![image.png](https://raw.gitcode.com/user-images/assets/8546182/15c67c08-6b4f-4fce-a8d8-7b4dce031070/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他,请描述: See merge request: cann/shmem!2829 天前