0

0

cann-robotrefactor: 清理 experimental 目录 tiling 文件中多余的头文件引用

b0b35096创建于 7 天前历史提交

文件	最后提交记录	最后更新时间
docs	math仓的doc tools 工具检测的低错问题 Co-authored-by: caiwenwen<caiwenwen6@h-partners.com> # message auto-generated for no-merge-commit merge: !2461 merge master into master math仓的doc tools 工具检测的低错问题 Created-by: caiwenwen Commit-by: caiwenwen Merged-by: cann-robot Description: ## 描述处理math仓的doc tools 工具检测的低错问题，包括markdown低错、htlm标签合入、链接是否可以正常跳转 ## 关联的Issue #关联issue#1262 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新更新全部文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2461	1 个月前
examples	【社区任务】AccumulateNv2算子开发-算子提交 Co-authored-by: Nice_try<nicetryzzw@163.com> # message auto-generated for no-merge-commit merge: !1741 merge submit-accumulate_nv2 into master 【社区任务】AccumulateNv2算子开发-算子提交 Created-by: Nice_try Commit-by: Nice_try Merged-by: cann-robot Description: ## 描述 ### 背景信息基于AccumulateNv2算子历史TBE版本使用Ascend C编程语言进行优化。 ### TBE源码分析通过对AccumulateNv2算子TBE版本的功能分析，当前支持的能力如下： ① 算子支持仅float、half、int32、int8、uint8格式的输入输出。 - 算子功能：实现一组向量的累加。 > 由于不考虑广播场景，故向量shape需要一致。 AccumulateNv2算子TBE版本的整体流程图如下图所示： ![screenshot_20260227_095604.jpg](https://raw.gitcode.com/user-images/assets/7649531/70a638e1-e4d0-432e-b634-bd8b6a5d4af1/screenshot_20260227_095604.jpg 'screenshot_20260227_095604.jpg') ![screenshot_20260227_095647.jpg](https://raw.gitcode.com/user-images/assets/7649531/50298b25-6e57-4d52-b769-c215c096667a/screenshot_20260227_095647.jpg 'screenshot_20260227_095647.jpg') ### 算子原型 <table style="undefined;table-layout: fixed; width: 980px"><colgroup> <col style="width: 100px"> <col style="width: 150px"> <col style="width: 280px"> <col style="width: 330px"> <col style="width: 120px"> </colgroup> <thead> <tr> <th>参数名</th> <th>输入/输出/属性</th> <th>描述</th> <th>数据类型</th> <th>数据格式</th> </tr></thead> <tbody> <tr> <td>x</td> <td>动态输入</td> <td>待进行累加计算的入参，包含一组向量。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <tr> <td>y</td> <td>必要输出</td> <td>累加之后得到的结果。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <td>num</td> <td>可选属性</td> <td>一组向量的个数</td> <td>INT</td> <td>/</td> </tr> </tbody></table> ### 算子支持型号 Atlas A2 训练系列产品/Atlas 800I A2推理产品 ### host侧设计方案算子计算过程不涉及数据的维度信息，故在host侧将数据视为一维向量，仅考虑数据个数，不考虑数据维度信息。任务均分：coreNum 根据输入长度和块大小动态调整，确保每个核心处理的数据块数均匀。批量搬运：tileBlockNum 和 tileDataNum 计算单次搬运的数据量，通过 finalSmallTileNum 和 finalBigTileNum 确定小核/大核的搬运次数，将多次搬运合并为批量操作，减少冗余开销。尾块的处理逻辑确保不完整块也能被合并到计算流程中，避免数据碎片。 #### 1) 分核策略优先使用满核的原则。如果核间能均分，可视作无大小核区分，大核小核数据块一致；如果核间不能均分，需要将余出的数据块分配到前几个核上。输入数据大小计算：通过GetInputShape和GetDataTypeLength函数获取输入数据的大小和类型长度，计算出输入数据的总字节数。 UB内存大小和核心数量获取：通过平台信息获取UB内存大小和核心数量，并根据这些信息调整核心数量。 #### 2) 数据分块和内存优化策略充分使用UB空间的原则。需要考虑不同硬件的UB大小不同、是否开启double buffer、kernel侧API实现过程中是否需要临时数据的储存，综合考虑单核内切分的大小。 UB内存大小获取：通过GetCoreMemSize函数获取UB内存的大小，用于后续的数据切分计算。 Tile块计算：根据UB内存大小和预定义的BLOCK_SIZE及BUFFER_NUM和不同类型下的ubDataNum，计算出每个Tile块的数据数量。数据切分：将输入数据按照计算出的Tile块大小进行切分，计算出每个core需要处理的数据块数量和最后一个block的剩余数据量。设置切分参数：将计算出的切分参数（如每个core的数据量、Tile块大小等）设置到RealDivTilingData对象中。这些策略确保了数据在多个核心之间的均匀分布，并且在单个核心内进行了合理的切分，以提高并行处理的效率。 #### 3) tilingkey规划策略不进行tilingkey划分，在kernel侧利用输入数据的类型来走不同的分支。 ### kernel侧设计方案进行Init和Process两个阶段，其中Process包括数据搬入（CopyIn）、计算（Compute）、搬出（CopyOut）三个阶段。 1) 依照TBE实现，输入为8位时Cast转换为fp16，输入为16位时需要转换为fp32，然后进行Add运算，结果Cast转换为原类型，然后搬出。 2) Ascend C的AccumulateNv2算子流程见下图。 ![screenshot_20260227_101545.jpg](https://raw.gitcode.com/user-images/assets/7649531/24c5b9de-07f6-4cc4-9e63-3f17c5e74d75/screenshot_20260227_101545.jpg 'screenshot_20260227_101545.jpg') ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> [#1012](https://gitcode.com/cann/ops-math/issues/1012) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 不涉及 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：社区任务算子设计文档 See merge request: cann/ops-math!1741	2 个月前
op_api	【社区任务】AccumulateNv2算子开发-算子提交 Co-authored-by: Nice_try<nicetryzzw@163.com> # message auto-generated for no-merge-commit merge: !1741 merge submit-accumulate_nv2 into master 【社区任务】AccumulateNv2算子开发-算子提交 Created-by: Nice_try Commit-by: Nice_try Merged-by: cann-robot Description: ## 描述 ### 背景信息基于AccumulateNv2算子历史TBE版本使用Ascend C编程语言进行优化。 ### TBE源码分析通过对AccumulateNv2算子TBE版本的功能分析，当前支持的能力如下： ① 算子支持仅float、half、int32、int8、uint8格式的输入输出。 - 算子功能：实现一组向量的累加。 > 由于不考虑广播场景，故向量shape需要一致。 AccumulateNv2算子TBE版本的整体流程图如下图所示： ![screenshot_20260227_095604.jpg](https://raw.gitcode.com/user-images/assets/7649531/70a638e1-e4d0-432e-b634-bd8b6a5d4af1/screenshot_20260227_095604.jpg 'screenshot_20260227_095604.jpg') ![screenshot_20260227_095647.jpg](https://raw.gitcode.com/user-images/assets/7649531/50298b25-6e57-4d52-b769-c215c096667a/screenshot_20260227_095647.jpg 'screenshot_20260227_095647.jpg') ### 算子原型 <table style="undefined;table-layout: fixed; width: 980px"><colgroup> <col style="width: 100px"> <col style="width: 150px"> <col style="width: 280px"> <col style="width: 330px"> <col style="width: 120px"> </colgroup> <thead> <tr> <th>参数名</th> <th>输入/输出/属性</th> <th>描述</th> <th>数据类型</th> <th>数据格式</th> </tr></thead> <tbody> <tr> <td>x</td> <td>动态输入</td> <td>待进行累加计算的入参，包含一组向量。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <tr> <td>y</td> <td>必要输出</td> <td>累加之后得到的结果。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <td>num</td> <td>可选属性</td> <td>一组向量的个数</td> <td>INT</td> <td>/</td> </tr> </tbody></table> ### 算子支持型号 Atlas A2 训练系列产品/Atlas 800I A2推理产品 ### host侧设计方案算子计算过程不涉及数据的维度信息，故在host侧将数据视为一维向量，仅考虑数据个数，不考虑数据维度信息。任务均分：coreNum 根据输入长度和块大小动态调整，确保每个核心处理的数据块数均匀。批量搬运：tileBlockNum 和 tileDataNum 计算单次搬运的数据量，通过 finalSmallTileNum 和 finalBigTileNum 确定小核/大核的搬运次数，将多次搬运合并为批量操作，减少冗余开销。尾块的处理逻辑确保不完整块也能被合并到计算流程中，避免数据碎片。 #### 1) 分核策略优先使用满核的原则。如果核间能均分，可视作无大小核区分，大核小核数据块一致；如果核间不能均分，需要将余出的数据块分配到前几个核上。输入数据大小计算：通过GetInputShape和GetDataTypeLength函数获取输入数据的大小和类型长度，计算出输入数据的总字节数。 UB内存大小和核心数量获取：通过平台信息获取UB内存大小和核心数量，并根据这些信息调整核心数量。 #### 2) 数据分块和内存优化策略充分使用UB空间的原则。需要考虑不同硬件的UB大小不同、是否开启double buffer、kernel侧API实现过程中是否需要临时数据的储存，综合考虑单核内切分的大小。 UB内存大小获取：通过GetCoreMemSize函数获取UB内存的大小，用于后续的数据切分计算。 Tile块计算：根据UB内存大小和预定义的BLOCK_SIZE及BUFFER_NUM和不同类型下的ubDataNum，计算出每个Tile块的数据数量。数据切分：将输入数据按照计算出的Tile块大小进行切分，计算出每个core需要处理的数据块数量和最后一个block的剩余数据量。设置切分参数：将计算出的切分参数（如每个core的数据量、Tile块大小等）设置到RealDivTilingData对象中。这些策略确保了数据在多个核心之间的均匀分布，并且在单个核心内进行了合理的切分，以提高并行处理的效率。 #### 3) tilingkey规划策略不进行tilingkey划分，在kernel侧利用输入数据的类型来走不同的分支。 ### kernel侧设计方案进行Init和Process两个阶段，其中Process包括数据搬入（CopyIn）、计算（Compute）、搬出（CopyOut）三个阶段。 1) 依照TBE实现，输入为8位时Cast转换为fp16，输入为16位时需要转换为fp32，然后进行Add运算，结果Cast转换为原类型，然后搬出。 2) Ascend C的AccumulateNv2算子流程见下图。 ![screenshot_20260227_101545.jpg](https://raw.gitcode.com/user-images/assets/7649531/24c5b9de-07f6-4cc4-9e63-3f17c5e74d75/screenshot_20260227_101545.jpg 'screenshot_20260227_101545.jpg') ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> [#1012](https://gitcode.com/cann/ops-math/issues/1012) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 不涉及 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：社区任务算子设计文档 See merge request: cann/ops-math!1741	2 个月前
op_host	refactor: 清理 experimental 目录 tiling 文件中多余的头文件引用 Co-authored-by: songkai111<songkai16@huawei.com> # message auto-generated for no-merge-commit merge: !2956 merge master into master refactor: 清理 experimental 目录 tiling 文件中多余的头文件引用 Created-by: songkai111 Commit-by: songkai111 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2956	7 天前
op_kernel	【社区任务】AccumulateNv2算子开发-算子提交 Co-authored-by: Nice_try<nicetryzzw@163.com> # message auto-generated for no-merge-commit merge: !1741 merge submit-accumulate_nv2 into master 【社区任务】AccumulateNv2算子开发-算子提交 Created-by: Nice_try Commit-by: Nice_try Merged-by: cann-robot Description: ## 描述 ### 背景信息基于AccumulateNv2算子历史TBE版本使用Ascend C编程语言进行优化。 ### TBE源码分析通过对AccumulateNv2算子TBE版本的功能分析，当前支持的能力如下： ① 算子支持仅float、half、int32、int8、uint8格式的输入输出。 - 算子功能：实现一组向量的累加。 > 由于不考虑广播场景，故向量shape需要一致。 AccumulateNv2算子TBE版本的整体流程图如下图所示： ![screenshot_20260227_095604.jpg](https://raw.gitcode.com/user-images/assets/7649531/70a638e1-e4d0-432e-b634-bd8b6a5d4af1/screenshot_20260227_095604.jpg 'screenshot_20260227_095604.jpg') ![screenshot_20260227_095647.jpg](https://raw.gitcode.com/user-images/assets/7649531/50298b25-6e57-4d52-b769-c215c096667a/screenshot_20260227_095647.jpg 'screenshot_20260227_095647.jpg') ### 算子原型 <table style="undefined;table-layout: fixed; width: 980px"><colgroup> <col style="width: 100px"> <col style="width: 150px"> <col style="width: 280px"> <col style="width: 330px"> <col style="width: 120px"> </colgroup> <thead> <tr> <th>参数名</th> <th>输入/输出/属性</th> <th>描述</th> <th>数据类型</th> <th>数据格式</th> </tr></thead> <tbody> <tr> <td>x</td> <td>动态输入</td> <td>待进行累加计算的入参，包含一组向量。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <tr> <td>y</td> <td>必要输出</td> <td>累加之后得到的结果。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <td>num</td> <td>可选属性</td> <td>一组向量的个数</td> <td>INT</td> <td>/</td> </tr> </tbody></table> ### 算子支持型号 Atlas A2 训练系列产品/Atlas 800I A2推理产品 ### host侧设计方案算子计算过程不涉及数据的维度信息，故在host侧将数据视为一维向量，仅考虑数据个数，不考虑数据维度信息。任务均分：coreNum 根据输入长度和块大小动态调整，确保每个核心处理的数据块数均匀。批量搬运：tileBlockNum 和 tileDataNum 计算单次搬运的数据量，通过 finalSmallTileNum 和 finalBigTileNum 确定小核/大核的搬运次数，将多次搬运合并为批量操作，减少冗余开销。尾块的处理逻辑确保不完整块也能被合并到计算流程中，避免数据碎片。 #### 1) 分核策略优先使用满核的原则。如果核间能均分，可视作无大小核区分，大核小核数据块一致；如果核间不能均分，需要将余出的数据块分配到前几个核上。输入数据大小计算：通过GetInputShape和GetDataTypeLength函数获取输入数据的大小和类型长度，计算出输入数据的总字节数。 UB内存大小和核心数量获取：通过平台信息获取UB内存大小和核心数量，并根据这些信息调整核心数量。 #### 2) 数据分块和内存优化策略充分使用UB空间的原则。需要考虑不同硬件的UB大小不同、是否开启double buffer、kernel侧API实现过程中是否需要临时数据的储存，综合考虑单核内切分的大小。 UB内存大小获取：通过GetCoreMemSize函数获取UB内存的大小，用于后续的数据切分计算。 Tile块计算：根据UB内存大小和预定义的BLOCK_SIZE及BUFFER_NUM和不同类型下的ubDataNum，计算出每个Tile块的数据数量。数据切分：将输入数据按照计算出的Tile块大小进行切分，计算出每个core需要处理的数据块数量和最后一个block的剩余数据量。设置切分参数：将计算出的切分参数（如每个core的数据量、Tile块大小等）设置到RealDivTilingData对象中。这些策略确保了数据在多个核心之间的均匀分布，并且在单个核心内进行了合理的切分，以提高并行处理的效率。 #### 3) tilingkey规划策略不进行tilingkey划分，在kernel侧利用输入数据的类型来走不同的分支。 ### kernel侧设计方案进行Init和Process两个阶段，其中Process包括数据搬入（CopyIn）、计算（Compute）、搬出（CopyOut）三个阶段。 1) 依照TBE实现，输入为8位时Cast转换为fp16，输入为16位时需要转换为fp32，然后进行Add运算，结果Cast转换为原类型，然后搬出。 2) Ascend C的AccumulateNv2算子流程见下图。 ![screenshot_20260227_101545.jpg](https://raw.gitcode.com/user-images/assets/7649531/24c5b9de-07f6-4cc4-9e63-3f17c5e74d75/screenshot_20260227_101545.jpg 'screenshot_20260227_101545.jpg') ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> [#1012](https://gitcode.com/cann/ops-math/issues/1012) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 不涉及 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：社区任务算子设计文档 See merge request: cann/ops-math!1741	2 个月前
tests	【社区任务】AccumulateNv2算子开发-算子提交 Co-authored-by: Nice_try<nicetryzzw@163.com> # message auto-generated for no-merge-commit merge: !1741 merge submit-accumulate_nv2 into master 【社区任务】AccumulateNv2算子开发-算子提交 Created-by: Nice_try Commit-by: Nice_try Merged-by: cann-robot Description: ## 描述 ### 背景信息基于AccumulateNv2算子历史TBE版本使用Ascend C编程语言进行优化。 ### TBE源码分析通过对AccumulateNv2算子TBE版本的功能分析，当前支持的能力如下： ① 算子支持仅float、half、int32、int8、uint8格式的输入输出。 - 算子功能：实现一组向量的累加。 > 由于不考虑广播场景，故向量shape需要一致。 AccumulateNv2算子TBE版本的整体流程图如下图所示： ![screenshot_20260227_095604.jpg](https://raw.gitcode.com/user-images/assets/7649531/70a638e1-e4d0-432e-b634-bd8b6a5d4af1/screenshot_20260227_095604.jpg 'screenshot_20260227_095604.jpg') ![screenshot_20260227_095647.jpg](https://raw.gitcode.com/user-images/assets/7649531/50298b25-6e57-4d52-b769-c215c096667a/screenshot_20260227_095647.jpg 'screenshot_20260227_095647.jpg') ### 算子原型 <table style="undefined;table-layout: fixed; width: 980px"><colgroup> <col style="width: 100px"> <col style="width: 150px"> <col style="width: 280px"> <col style="width: 330px"> <col style="width: 120px"> </colgroup> <thead> <tr> <th>参数名</th> <th>输入/输出/属性</th> <th>描述</th> <th>数据类型</th> <th>数据格式</th> </tr></thead> <tbody> <tr> <td>x</td> <td>动态输入</td> <td>待进行累加计算的入参，包含一组向量。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <tr> <td>y</td> <td>必要输出</td> <td>累加之后得到的结果。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <td>num</td> <td>可选属性</td> <td>一组向量的个数</td> <td>INT</td> <td>/</td> </tr> </tbody></table> ### 算子支持型号 Atlas A2 训练系列产品/Atlas 800I A2推理产品 ### host侧设计方案算子计算过程不涉及数据的维度信息，故在host侧将数据视为一维向量，仅考虑数据个数，不考虑数据维度信息。任务均分：coreNum 根据输入长度和块大小动态调整，确保每个核心处理的数据块数均匀。批量搬运：tileBlockNum 和 tileDataNum 计算单次搬运的数据量，通过 finalSmallTileNum 和 finalBigTileNum 确定小核/大核的搬运次数，将多次搬运合并为批量操作，减少冗余开销。尾块的处理逻辑确保不完整块也能被合并到计算流程中，避免数据碎片。 #### 1) 分核策略优先使用满核的原则。如果核间能均分，可视作无大小核区分，大核小核数据块一致；如果核间不能均分，需要将余出的数据块分配到前几个核上。输入数据大小计算：通过GetInputShape和GetDataTypeLength函数获取输入数据的大小和类型长度，计算出输入数据的总字节数。 UB内存大小和核心数量获取：通过平台信息获取UB内存大小和核心数量，并根据这些信息调整核心数量。 #### 2) 数据分块和内存优化策略充分使用UB空间的原则。需要考虑不同硬件的UB大小不同、是否开启double buffer、kernel侧API实现过程中是否需要临时数据的储存，综合考虑单核内切分的大小。 UB内存大小获取：通过GetCoreMemSize函数获取UB内存的大小，用于后续的数据切分计算。 Tile块计算：根据UB内存大小和预定义的BLOCK_SIZE及BUFFER_NUM和不同类型下的ubDataNum，计算出每个Tile块的数据数量。数据切分：将输入数据按照计算出的Tile块大小进行切分，计算出每个core需要处理的数据块数量和最后一个block的剩余数据量。设置切分参数：将计算出的切分参数（如每个core的数据量、Tile块大小等）设置到RealDivTilingData对象中。这些策略确保了数据在多个核心之间的均匀分布，并且在单个核心内进行了合理的切分，以提高并行处理的效率。 #### 3) tilingkey规划策略不进行tilingkey划分，在kernel侧利用输入数据的类型来走不同的分支。 ### kernel侧设计方案进行Init和Process两个阶段，其中Process包括数据搬入（CopyIn）、计算（Compute）、搬出（CopyOut）三个阶段。 1) 依照TBE实现，输入为8位时Cast转换为fp16，输入为16位时需要转换为fp32，然后进行Add运算，结果Cast转换为原类型，然后搬出。 2) Ascend C的AccumulateNv2算子流程见下图。 ![screenshot_20260227_101545.jpg](https://raw.gitcode.com/user-images/assets/7649531/24c5b9de-07f6-4cc4-9e63-3f17c5e74d75/screenshot_20260227_101545.jpg 'screenshot_20260227_101545.jpg') ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> [#1012](https://gitcode.com/cann/ops-math/issues/1012) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 不涉及 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：社区任务算子设计文档 See merge request: cann/ops-math!1741	2 个月前
CMakeLists.txt	【社区任务】AccumulateNv2算子开发-算子提交 Co-authored-by: Nice_try<nicetryzzw@163.com> # message auto-generated for no-merge-commit merge: !1741 merge submit-accumulate_nv2 into master 【社区任务】AccumulateNv2算子开发-算子提交 Created-by: Nice_try Commit-by: Nice_try Merged-by: cann-robot Description: ## 描述 ### 背景信息基于AccumulateNv2算子历史TBE版本使用Ascend C编程语言进行优化。 ### TBE源码分析通过对AccumulateNv2算子TBE版本的功能分析，当前支持的能力如下： ① 算子支持仅float、half、int32、int8、uint8格式的输入输出。 - 算子功能：实现一组向量的累加。 > 由于不考虑广播场景，故向量shape需要一致。 AccumulateNv2算子TBE版本的整体流程图如下图所示： ![screenshot_20260227_095604.jpg](https://raw.gitcode.com/user-images/assets/7649531/70a638e1-e4d0-432e-b634-bd8b6a5d4af1/screenshot_20260227_095604.jpg 'screenshot_20260227_095604.jpg') ![screenshot_20260227_095647.jpg](https://raw.gitcode.com/user-images/assets/7649531/50298b25-6e57-4d52-b769-c215c096667a/screenshot_20260227_095647.jpg 'screenshot_20260227_095647.jpg') ### 算子原型 <table style="undefined;table-layout: fixed; width: 980px"><colgroup> <col style="width: 100px"> <col style="width: 150px"> <col style="width: 280px"> <col style="width: 330px"> <col style="width: 120px"> </colgroup> <thead> <tr> <th>参数名</th> <th>输入/输出/属性</th> <th>描述</th> <th>数据类型</th> <th>数据格式</th> </tr></thead> <tbody> <tr> <td>x</td> <td>动态输入</td> <td>待进行累加计算的入参，包含一组向量。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <tr> <td>y</td> <td>必要输出</td> <td>累加之后得到的结果。</td> <td>FLOAT、FLOAT16、INT32、INT8、UINT8</td> <td>ND</td> </tr> <tr> <td>num</td> <td>可选属性</td> <td>一组向量的个数</td> <td>INT</td> <td>/</td> </tr> </tbody></table> ### 算子支持型号 Atlas A2 训练系列产品/Atlas 800I A2推理产品 ### host侧设计方案算子计算过程不涉及数据的维度信息，故在host侧将数据视为一维向量，仅考虑数据个数，不考虑数据维度信息。任务均分：coreNum 根据输入长度和块大小动态调整，确保每个核心处理的数据块数均匀。批量搬运：tileBlockNum 和 tileDataNum 计算单次搬运的数据量，通过 finalSmallTileNum 和 finalBigTileNum 确定小核/大核的搬运次数，将多次搬运合并为批量操作，减少冗余开销。尾块的处理逻辑确保不完整块也能被合并到计算流程中，避免数据碎片。 #### 1) 分核策略优先使用满核的原则。如果核间能均分，可视作无大小核区分，大核小核数据块一致；如果核间不能均分，需要将余出的数据块分配到前几个核上。输入数据大小计算：通过GetInputShape和GetDataTypeLength函数获取输入数据的大小和类型长度，计算出输入数据的总字节数。 UB内存大小和核心数量获取：通过平台信息获取UB内存大小和核心数量，并根据这些信息调整核心数量。 #### 2) 数据分块和内存优化策略充分使用UB空间的原则。需要考虑不同硬件的UB大小不同、是否开启double buffer、kernel侧API实现过程中是否需要临时数据的储存，综合考虑单核内切分的大小。 UB内存大小获取：通过GetCoreMemSize函数获取UB内存的大小，用于后续的数据切分计算。 Tile块计算：根据UB内存大小和预定义的BLOCK_SIZE及BUFFER_NUM和不同类型下的ubDataNum，计算出每个Tile块的数据数量。数据切分：将输入数据按照计算出的Tile块大小进行切分，计算出每个core需要处理的数据块数量和最后一个block的剩余数据量。设置切分参数：将计算出的切分参数（如每个core的数据量、Tile块大小等）设置到RealDivTilingData对象中。这些策略确保了数据在多个核心之间的均匀分布，并且在单个核心内进行了合理的切分，以提高并行处理的效率。 #### 3) tilingkey规划策略不进行tilingkey划分，在kernel侧利用输入数据的类型来走不同的分支。 ### kernel侧设计方案进行Init和Process两个阶段，其中Process包括数据搬入（CopyIn）、计算（Compute）、搬出（CopyOut）三个阶段。 1) 依照TBE实现，输入为8位时Cast转换为fp16，输入为16位时需要转换为fp32，然后进行Add运算，结果Cast转换为原类型，然后搬出。 2) Ascend C的AccumulateNv2算子流程见下图。 ![screenshot_20260227_101545.jpg](https://raw.gitcode.com/user-images/assets/7649531/24c5b9de-07f6-4cc4-9e63-3f17c5e74d75/screenshot_20260227_101545.jpg 'screenshot_20260227_101545.jpg') ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> [#1012](https://gitcode.com/cann/ops-math/issues/1012) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 不涉及 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：社区任务算子设计文档 See merge request: cann/ops-math!1741	2 个月前
README.md	math仓的doc tools 工具检测的低错问题 Co-authored-by: caiwenwen<caiwenwen6@h-partners.com> # message auto-generated for no-merge-commit merge: !2461 merge master into master math仓的doc tools 工具检测的低错问题 Created-by: caiwenwen Commit-by: caiwenwen Merged-by: cann-robot Description: ## 描述处理math仓的doc tools 工具检测的低错问题，包括markdown低错、htlm标签合入、链接是否可以正常跳转 ## 关联的Issue #关联issue#1262 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新更新全部文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2461	1 个月前

AccumulateNv2

产品支持情况

产品	是否支持
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√

功能说明

算子功能：实现一组向量的累加。

参数说明

参数名	输入/输出/属性	描述	数据类型	数据格式
x	动态输入	待进行累加计算的入参，包含一组向量。	FLOAT、FLOAT16、INT32、INT8、UINT8	ND
y	必要输出	累加之后得到的结果。	FLOAT、FLOAT16、INT32、INT8、UINT8	ND
num	可选属性	一组向量的个数	INT	/

约束说明

无

调用说明

调用方式	调用样例	说明
aclnn调用	test_aclnn_sum.cpp	通过test_aclnn_sum接口方式调用AccumulateNv2算子。

贡献说明

贡献者	贡献方	贡献算子	贡献时间	贡献内容
Nice_try	个人开发者	AccumulateNv2	2026/02/27	AccumulateNv2算子适配开源仓