ops-math/experimental/math/real_div/examples · CANN/ops-math - AtomGit

文件	最后提交记录	最后更新时间
test_aclnn_real_div.cpp	【社区任务】RealDiv算子开发-算子提交 Co-authored-by: Nice-try-zzw<1849404617@qq.com> # message auto-generated for no-merge-commit merge: !319 merge final-realdiv into master 【社区任务】RealDiv算子开发-算子提交 Created-by: Nice_try Commit-by: Nice-try-zzw Merged-by: cann-robot Description: ## 描述 ### 背景信息基于RealDiv算子历史TBE版本使用Ascend C编程语言进行优化。 ### TBE源码分析通过对RealDiv算子TBE版本的功能分析，当前支持的能力如下： ① x1，x2支持float16，float32，bfloat16，int32，bool五种格式的输入。 ② RealDiv算子涉及到对输入数据进行广播（输入数据的shape调整到相同大小），任务书说明：暂可不支持广播场景 ③ 在对输入数据进行广播操作后，调用floor、vdiv和cast接口实现相应的表达式： For float32、float16: $$ y=x1/x2 $$ For bfloat16、int32: $$ dtype=x1.dtype $$ $$ y=cast(cast(x1, float32)/cast(x2, float32), dtype) $$ For bool: $$ y=cast(x1, float32)/cast(x2, float32) $$ RealDiv算子TBE版本的整体流程图如下图所示： ![image.png](https://raw.gitcode.com/user-images/assets/7649531/4d769608-12f6-4a18-88e0-e4c4da4bb366/image.png 'image.png') ### 算子原型 \| 名称 \| 类别 \| dtype \| format \| shape \| 介绍 \| \|------\|------\|-------\|--------\|-------\|------\| \| x1 \| 输入 \| fp16 / fp32 / bf16 / int32 / bool \| ND \| all \| 输入 \| \| x2 \| 输入 \| fp16 / fp32 / bf16 / int32 / bool \| ND \| 同x1 \| 输入 \| \| y \| 输出 \| fp16 / fp32 / bf16 / int32 / fp32 \| ND \| 同x1 \| 输出 \| > 在混合数据类型下，Ascend C因为走aclnn代码，会转为相同数据类型，在算子侧实际上是相同数据类型 > 算子format设为ND，在实际ST测试中也同样支持其他format的场景 > real_div for batchmatmul不涉及，故不在Ascend C设计中体现 ### 算子支持型号 Atlas A2 训练系列产品/Atlas 800I A2推理产品 ### host侧设计方案算子计算过程不涉及数据的维度信息，故在host侧将数据视为一维向量，仅考虑数据个数，不考虑数据维度信息。任务均分：coreNum 根据输入长度和块大小动态调整，确保每个核心处理的数据块数均匀。批量搬运：tileBlockNum 和 tileDataNum 计算单次搬运的数据量，通过 finalSmallTileNum 和 finalBigTileNum 确定小核/大核的搬运次数，将多次搬运合并为批量操作，减少冗余开销。尾块的处理逻辑确保不完整块也能被合并到计算流程中，避免数据碎片。 #### 1) 分核策略优先使用满核的原则。如果核间能均分，可视作无大小核区分，大核小核数据块一致；如果核间不能均分，需要将余出的数据块分配到前几个核上。输入数据大小计算：通过GetInputShape和GetDataTypeLength函数获取输入数据的大小和类型长度，计算出输入数据的总字节数。 UB内存大小和核心数量获取：通过平台信息获取UB内存大小和核心数量，并根据这些信息调整核心数量。 #### 2) 数据分块和内存优化策略充分使用UB空间的原则。需要考虑不同硬件的UB大小不同、是否开启double buffer、kernel侧API实现过程中是否需要临时数据的储存，综合考虑单核内切分的大小。 UB内存大小获取：通过GetCoreMemSize函数获取UB内存的大小，用于后续的数据切分计算。 Tile块计算：根据UB内存大小和预定义的BLOCK_SIZE及BUFFER_NUM和不同类型下的ubDataNum，计算出每个Tile块的数据数量。数据切分：将输入数据按照计算出的Tile块大小进行切分，计算出每个core需要处理的数据块数量和最后一个block的剩余数据量。设置切分参数：将计算出的切分参数（如每个core的数据量、Tile块大小等）设置到RealDivTilingData对象中。这些策略确保了数据在多个核心之间的均匀分布，并且在单个核心内进行了合理的切分，以提高并行处理的效率。 #### 3) tilingkey规划策略不进行tilingkey划分，在kernel侧利用输入数据的类型来走不同的分支。 ### kernel侧设计方案进行Init和Process两个阶段，其中Process包括数据搬入（CopyIn）、计算（Compute）、搬出（CopyOut）三个阶段。 1) 依照TBE实现，将bf16、int32、bool精度转换为fp32计算后，对于浮点数据使用RINT模式转换为原数据，对于int32使用TRUNC转换为原数据，对于bool数据不需要转换为原数据；高性能模式下，fp16以及fp32数据不需要转换精度，非高性能模式下（高精度模式），fp16需要将精度转换为fp32计算后转换为原数据。 2) Ascend C的RealDiv算子流程见下图。 ![image.png](https://raw.gitcode.com/user-images/assets/7649531/436ba985-7d90-4b8f-83a9-8d014b1dcb09/image.png 'image.png') ## 关联的Issue [#193](https://gitcode.com/cann/ops-math/issues/193) ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 进行了ut测试、ascendoptest测试 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：RealDiv算子贡献 See merge request: cann/ops-math!319	4 个月前