| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
[Fix] 修复 host 网卡一致性校验失败问题,Peer模式使用同步Socket Send/Recv 接口 Co-authored-by: jiyuanhao<jiyuanhao1@huawei.com> # message auto-generated for no-merge-commit merge: !3362 merge fix/dpu/inst-check-1 into master [Fix] 修复 host 网卡一致性校验失败问题,Peer模式使用同步Socket Send/Recv 接口 Created-by: jiyuanhao Commit-by: jiyuanhao Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> [Fix] 修复 host 网卡一致性校验失败问题,Peer模式使用同步Socket Send/Recv 接口 1. 判断是否是 host 网卡场景:HcclChannelDesc 中的 loc == host,并且 engine = cpu 2. host 网卡场景,使用 socket 的 Send、Recv 同步接口 主要变更: - exchange_info_mgr.h: 新增 CommEngine engine 参数、isAsync 控制参数、ExchangeUserInfoAsync 方法 - exchange_info_mgr.cc: BatchExchangeAndCheckConsistency 根据 isHostLoc && engine==COMM_ENGINE_CPU 分流到同步或异步路径;新增同步版 ExchangeUserInfo;BatchExchangeFixedData 新增 isAsync 分支;CheckHcommInfo 传递 isAsync 到下层 - my_rank.cc: 调用处传入 engine 参数 - ut_exchange_info_mgr.cc: 新增 CPU 引擎同步路径 UT 用例 + 修改原有用例超时配置 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug修复 - [ ] ✨ 新特性 - [ ] 🚀 性能优化 - [ ] 📝 文档更新 - [ ] 📋 其他,请描述: ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR不涉及Issue,可填写"NA"。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。--> 已完成的测试用例和场景: 1. host网卡双机环境,hccltest验证OK 补充的UT用例:Ut_BatchExchange_When_NewRankConsistent_Expect_Success_On_Cpu,增量覆盖率:92.7% ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 合入检查 <!-- 在正式合入前,请做好必要的代码测试,用例补充,软件代码风格检查等。提高合入效率。--> <!-- [x] 表示选中 --> - [x] 🧐 已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 - [x] 🔍 邀请 committer评论 /lgtm前的必要检查 - [x] 🏷️ 标题中使用了合适的类型标签(如:[feat], [fix]) - [x] 📄 代码修改内容已简要描述,相关文档已更新 - [x] 📝 代码注释已更新,代码遵循项目整体代码风格 - [x] 🧪 代码UT测试已更新,覆盖率已达标 - [x] 🔬 验证方法已更新到"测试"部分 - [x] 🛠️ 代码已通过静态分析工具检查,无错误 - [x] 👥 代码检视/code review/同行评议和必要的代码串讲,确保代码质量 - [x] ✅ 代码检视意见已处理或答复,无未处理的检视意见 - [x] 🚀 预约 前冒烟 用例前的必要检查 - [x] ✔️ 代码已有committer的/lgtm 和 模块committer的/lgtm评论 - [x] 🔧 代码已通过compile,编译无错误,无告警 - [x] 🖥️ 代码已通过基本功能本地测试或者在线测试,确保基本功能正常 - [x] 🎯 预约 approver评论/approve,正式合入前的必要检查 - [x] 📊 前冒烟 用例已全量通过 - [x] 📦 新增功能已同步补充基本功能测试用例到前冒烟里 See merge request: cann/hcomm!3362 | 5 小时前 | |
Clean code Co-authored-by: hccl_zhq<zhuanghuiqiang@huawei.com> # message auto-generated for no-merge-commit merge: !2905 merge master into master Clean code Created-by: hccl_zhq Commit-by: hccl_zhq Merged-by: cann-robot Description: ## 描述 1 删除未使用到的头文件 2 确保头文件能够自包含,增加头文件内的库的引用 3 修改lambda表达式的默认捕获模式,之捕获需要的相关变量 4 确保printf打印的输出格式与变量相匹配 ## 变更类型 请选择本次引入的变更类型: <!-- [x] 表示选中 --> - [x] 🐛 Bug修复 - [ ] ✨ 新特性 - [ ] 🚀 性能优化 - [ ] 📝 文档更新 - [ ] 📋 其他,请描述: ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR不涉及Issue,可填写"NA"。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。--> 已完成的测试用例和场景: 1. 2. 补充的UT用例: ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 合入检查 <!-- 在正式合入前,请做好必要的代码测试,用例补充,软件代码风格检查等。提高合入效率。--> <!-- [x] 表示选中 --> - [x] 🧐 已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 - [x] 🔍 邀请 committer评论 /lgtm前的必要检查 - [ ] 🏷️ 标题中使用了合适的类型标签(如:[feat], [fix]) - [ ] 📄 代码修改内容已简要描述,相关文档已更新 - [ ] 📝 代码注释已更新,代码遵循项目整体代码风格 - [ ] 🧪 代码UT测试已更新,覆盖率已达标 - [ ] 🔬 验证方法已更新到"测试"部分 - [ ] 🛠️ 代码已通过静态分析工具检查,无错误 - [ ] 👥 代码检视/code review/同行评议和必要的代码串讲,确保代码质量 - [ ] ✅ 代码检视意见已处理或答复,无未处理的检视意见 - [x] 🚀 预约 前冒烟 用例前的必要检查 - [ ] ✔️ 代码已有committer的/lgtm 和 模块committer的/lgtm评论 - [ ] 🔧 代码已通过compile,编译无错误,无告警 - [ ] 🖥️ 代码已通过基本功能本地测试或者在线测试,确保基本功能正常 - [ ] 🎯 预约 approver评论/approve,正式合入前的必要检查 - [ ] 📊 前冒烟 用例已全量通过 - [ ] 📦 新增功能已同步补充基本功能测试用例到前冒烟里 See merge request: cann/hcomm!2905 | 12 天前 | |
add group in A5 Co-authored-by: liujt_<liujintao28@huawei.com> # message auto-generated for no-merge-commit merge: !2483 merge dev_next into master add group in A5 Created-by: everglow2 Commit-by: liujt_ Merged-by: cann-robot Description: # Pull Request 描述 ## 变更类型 请选择本次引入的变更类型: - ✅ ✨ 新特性 - 🐛 Bug修复 - 🚀 性能优化 - 📝 文档更新 - 📋 其他,请描述: **详细描述**: 本次提交新增 HCCL P2P(Point-to-Point)通信的 Group 执行模式,实现批量延迟执行和优化调度机制。主要特性包括: 1. **Group 模式 API**:适配 HcclGroupStart 和 HcclGroupEnd 接口,支持批量 P2P 操作的延迟执行 2. **AICPU Kernel 启动机制**:新增 HcclAicpuKernelLaunch() API,用于在 Group 模式下启动自定义 P2P Kernel 3. **任务调度优化**:实现确定性调度算法,避免死锁并提升通信效率 4. **流式并行执行**:Send/Recv 操作在独立 AICPU Stream 上并发执行 5. **嵌套 Group 支持**:支持多层 Group 嵌套,灵活适配复杂代码结构 **技术亮点**: - 批量执行减少 Kernel 启动开销(性能提升约 2 倍) - 预定义调度顺序避免 P2P 通信死锁 - 多 Stream 并发提升通信吞吐量 - 资源隔离保证多通信域稳定性 --- ## 关联的 Issue **Issue 编号**:无(内部需求) **需求背景**: - HCCL P2P 通信在密集场景下性能不足,需要批量优化机制 - 传统立即执行模式存在死锁风险,需要确定性调度 - 需支持自定义 AICPU Kernel 的 Group 执行 --- ## 测试 ### 已完成的测试用例和场景 **1. 单元测试(UT)** 新增 UT 测试文件: test/ut/framework/next/coll_comms/communicator/group_schedule_mgr/ut_group_schedule_mgr.cc test/ut/framework/next/comms/comm_engine_res/kernel_launch/test_kernel_launch_aicpu.cc **测试覆盖**: - ✅ Group API 基础功能测试(Start/End 调用) - ✅ P2P 任务添加和调度测试(Send/Recv 任务入队) - ✅ 任务数量限制测试(MAX_P2P_TASK_NUM=2048) - ✅ 多通信域并发测试(hcclGroupCommList 管理) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于构造对应xx测试用例、二级冒烟、算子泛化等。--> 已完成的测试用例和场景: 1. 2. 补充的UT用例: ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 合入检查 <!-- 在正式合入前,请做好必要的代码测试,用例补充,软件代码风格检查等。提高合入效率。--> <!-- [x] 表示选中 --> - [ ] 🧐 已经详细阅读了贡献指南(CONTRIBUTING.md),并遵守了其中的所有规定,包括但不限于commit message的格式、无效commit的合并等 - [ ] 🔍 邀请 committer评论/lgtm前的必要检查 - [ ] 🏷️ 标题中使用了合适的类型标签(如:[feat], [fix]) - [ ] 📄 代码修改内容已简要描述,相关文档已更新 - [ ] 📝 代码注释已更新,代码遵循项目整体代码风格 - [ ] 🧪 代码UT测试已更新,覆盖率已达标 - [ ] 🔬 验证方法已更新到"测试"部分 - [ ] 🛠️ 代码已通过静态分析工具检查,无错误 - [ ] 👥 代码检视/code review/同行评议和必要的代码串讲,确保代码质量 - [ ] ✅ 代码检视意见已处理或答复,无未处理的检视意见 - [ ] 🚀 预约 前冒烟 用例前的必要检查 - [ ] ✔️ 代码已有committer的/lgtm 和 模块committer的/lgtm评论 - [ ] 🔧 代码已通过compile,编译无错误,无告警 - [ ] 🖥️ 代码已通过基本功能本地测试或者在线测试,确保基本功能正常 - [ ] 🎯 预约 approver评论/approve,正式合入前的必要检查 - [ ] 📊 前冒烟 用例已全量通过 - [ ] 📦 新增功能已同步补充基本功能测试用例到前冒烟里 See merge request: cann/hcomm!2483 | 10 天前 |
| 文件 | 最后提交记录 | 最后更新时间 |
|---|---|---|
| 5 小时前 | ||
| 12 天前 | ||
| 10 天前 |