0

0

cann-robot新算子StatelessUniform+修改aclnnInplaceUniform、aclnnInplaceUniformTensor接口适配新算子

557c1f5c创建于 3 天前历史提交

文件	最后提交记录	最后更新时间
examples	新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Co-authored-by: huairuchen<chenhuairu@huawei.com> # message auto-generated for no-merge-commit merge: !2003 merge master into master 新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Created-by: huairuchen Commit-by: huairuchen Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 1、优化StatelessRandomUniformV2/StatelessRandomNormalV2：新增了支持aclTensor*类型seed和offset参数的算子接口，允许直接传递设备张量，避免了D2H拷贝。同时，重构了tiling逻辑，将key和counter参数的读取职责从tiling阶段转移至kernel执行阶段，直接从全局内存读取，简化了流程并提升了灵活性。 2、新增StatelessRandomUniformV3/StatelessRandomNormalV3：完整实现了该融合算子，包括API接口、Tiling逻辑、内核实现及配置文件。该算子基于Philox算法生成随机数，并通过v3KernelMode属性支持不同计算模式，将范围缩放的线性计算内联到kernel内核中，实现了算子融合，提升了执行效率。 3、梳理以下aclnn接口，确保了在非tensor接口和tensor接口情况下都能正确调用使用： aclnnInplaceUniform、aclnnInplaceUniformTensor、aclnnInplaceRandom、aclnnInplaceRandomTensor 使以上四个接口能够在A5芯片下正确调用stateless_random_uniform_v3算子，输入类型为double的情况下调用stateless_random_uniform_v2和小算子拼接，保证精度正常，性能不劣化； aclnnInplaceNormal、aclnnInplaceNormalTensor使以上两个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化； aclnnNormalFloatFloat、aclnnNormalFloatTensor、aclnnNormalTensorFloat、aclnnNormalTensorTensor使以上四个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1128 https://gitcode.com/cann/ops-math/issues/1129 https://gitcode.com/cann/ops-math/issues/1130 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> TTK测试、UT测试、蓝区冒烟、二级冒烟 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [x] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2003	2 个月前
op_api	新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Co-authored-by: huairuchen<chenhuairu@huawei.com> # message auto-generated for no-merge-commit merge: !2003 merge master into master 新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Created-by: huairuchen Commit-by: huairuchen Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 1、优化StatelessRandomUniformV2/StatelessRandomNormalV2：新增了支持aclTensor*类型seed和offset参数的算子接口，允许直接传递设备张量，避免了D2H拷贝。同时，重构了tiling逻辑，将key和counter参数的读取职责从tiling阶段转移至kernel执行阶段，直接从全局内存读取，简化了流程并提升了灵活性。 2、新增StatelessRandomUniformV3/StatelessRandomNormalV3：完整实现了该融合算子，包括API接口、Tiling逻辑、内核实现及配置文件。该算子基于Philox算法生成随机数，并通过v3KernelMode属性支持不同计算模式，将范围缩放的线性计算内联到kernel内核中，实现了算子融合，提升了执行效率。 3、梳理以下aclnn接口，确保了在非tensor接口和tensor接口情况下都能正确调用使用： aclnnInplaceUniform、aclnnInplaceUniformTensor、aclnnInplaceRandom、aclnnInplaceRandomTensor 使以上四个接口能够在A5芯片下正确调用stateless_random_uniform_v3算子，输入类型为double的情况下调用stateless_random_uniform_v2和小算子拼接，保证精度正常，性能不劣化； aclnnInplaceNormal、aclnnInplaceNormalTensor使以上两个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化； aclnnNormalFloatFloat、aclnnNormalFloatTensor、aclnnNormalTensorFloat、aclnnNormalTensorTensor使以上四个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1128 https://gitcode.com/cann/ops-math/issues/1129 https://gitcode.com/cann/ops-math/issues/1130 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> TTK测试、UT测试、蓝区冒烟、二级冒烟 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [x] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2003	2 个月前
op_host	refactor: 删除废弃公共头文件，完成 math/random 算子头文件去重 Co-authored-by: tianqiguang<tianqiguang@huawei.com> # message auto-generated for no-merge-commit merge: !3000 merge math_tiling into master refactor: 删除废弃公共头文件，完成 math/random 算子头文件去重 Created-by: tianqiguang Commit-by: tianqiguang Merged-by: cann-robot Description: ## 描述删除 4 个已废弃的公共头文件，并完成剩余 math 算子和全部 random 算子的重复头文件消除。本 PR 为此系列重构的收尾提交。 ### 改动原因前三批 PR（#2951 conversion / #2969 math上 / #2980 math下）已完成所有算子到 base 仓头文件的迁移。原公共头文件已成为空壳转发或不再被引用，可安全删除： - tiling_base.h：已改为转发 tiling_base_class.h，可直接删除 - tiling_templates_registry.h：math 专用部分已拆分到 math_tiling_templates_registry.h - tiling_util.h / tiling_util.cpp：功能已迁移至 base 仓 tiling_base_util.h 此前几批遗漏了部分 math 算子（add_lora, atan2, histogram_v2, stft 等 10+ 个）以及 random 目录下全部算子。 ### 改动方法 1. 删除 4 个废弃文件并精简 common/CMakeLists.txt 2. 更新遗漏的 math 算子：#include + 命名空间修正 3. 更新 20+ 个 random 算子：同样的 #include + 命名空间修正 4. 更新示例（add_example, add_example_c_api）和 opgen 模板脚本 ## 关联的Issue - #1697 ## 测试 - 涉及的算子二级冒烟测试已通过 ## 文档更新无文档变更 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [x] 其他，请描述：代码重构，删除废弃头文件并完成去重收尾 See merge request: cann/ops-math!3000	4 天前
op_kernel	新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Co-authored-by: huairuchen<chenhuairu@huawei.com> # message auto-generated for no-merge-commit merge: !2003 merge master into master 新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Created-by: huairuchen Commit-by: huairuchen Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 1、优化StatelessRandomUniformV2/StatelessRandomNormalV2：新增了支持aclTensor*类型seed和offset参数的算子接口，允许直接传递设备张量，避免了D2H拷贝。同时，重构了tiling逻辑，将key和counter参数的读取职责从tiling阶段转移至kernel执行阶段，直接从全局内存读取，简化了流程并提升了灵活性。 2、新增StatelessRandomUniformV3/StatelessRandomNormalV3：完整实现了该融合算子，包括API接口、Tiling逻辑、内核实现及配置文件。该算子基于Philox算法生成随机数，并通过v3KernelMode属性支持不同计算模式，将范围缩放的线性计算内联到kernel内核中，实现了算子融合，提升了执行效率。 3、梳理以下aclnn接口，确保了在非tensor接口和tensor接口情况下都能正确调用使用： aclnnInplaceUniform、aclnnInplaceUniformTensor、aclnnInplaceRandom、aclnnInplaceRandomTensor 使以上四个接口能够在A5芯片下正确调用stateless_random_uniform_v3算子，输入类型为double的情况下调用stateless_random_uniform_v2和小算子拼接，保证精度正常，性能不劣化； aclnnInplaceNormal、aclnnInplaceNormalTensor使以上两个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化； aclnnNormalFloatFloat、aclnnNormalFloatTensor、aclnnNormalTensorFloat、aclnnNormalTensorTensor使以上四个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1128 https://gitcode.com/cann/ops-math/issues/1129 https://gitcode.com/cann/ops-math/issues/1130 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> TTK测试、UT测试、蓝区冒烟、二级冒烟 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [x] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2003	2 个月前
tests	新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Co-authored-by: huairuchen<chenhuairu@huawei.com> # message auto-generated for no-merge-commit merge: !2003 merge master into master 新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Created-by: huairuchen Commit-by: huairuchen Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 1、优化StatelessRandomUniformV2/StatelessRandomNormalV2：新增了支持aclTensor*类型seed和offset参数的算子接口，允许直接传递设备张量，避免了D2H拷贝。同时，重构了tiling逻辑，将key和counter参数的读取职责从tiling阶段转移至kernel执行阶段，直接从全局内存读取，简化了流程并提升了灵活性。 2、新增StatelessRandomUniformV3/StatelessRandomNormalV3：完整实现了该融合算子，包括API接口、Tiling逻辑、内核实现及配置文件。该算子基于Philox算法生成随机数，并通过v3KernelMode属性支持不同计算模式，将范围缩放的线性计算内联到kernel内核中，实现了算子融合，提升了执行效率。 3、梳理以下aclnn接口，确保了在非tensor接口和tensor接口情况下都能正确调用使用： aclnnInplaceUniform、aclnnInplaceUniformTensor、aclnnInplaceRandom、aclnnInplaceRandomTensor 使以上四个接口能够在A5芯片下正确调用stateless_random_uniform_v3算子，输入类型为double的情况下调用stateless_random_uniform_v2和小算子拼接，保证精度正常，性能不劣化； aclnnInplaceNormal、aclnnInplaceNormalTensor使以上两个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化； aclnnNormalFloatFloat、aclnnNormalFloatTensor、aclnnNormalTensorFloat、aclnnNormalTensorTensor使以上四个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1128 https://gitcode.com/cann/ops-math/issues/1129 https://gitcode.com/cann/ops-math/issues/1130 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> TTK测试、UT测试、蓝区冒烟、二级冒烟 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [x] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2003	2 个月前
CMakeLists.txt	新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Co-authored-by: huairuchen<chenhuairu@huawei.com> # message auto-generated for no-merge-commit merge: !2003 merge master into master 新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Created-by: huairuchen Commit-by: huairuchen Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 1、优化StatelessRandomUniformV2/StatelessRandomNormalV2：新增了支持aclTensor*类型seed和offset参数的算子接口，允许直接传递设备张量，避免了D2H拷贝。同时，重构了tiling逻辑，将key和counter参数的读取职责从tiling阶段转移至kernel执行阶段，直接从全局内存读取，简化了流程并提升了灵活性。 2、新增StatelessRandomUniformV3/StatelessRandomNormalV3：完整实现了该融合算子，包括API接口、Tiling逻辑、内核实现及配置文件。该算子基于Philox算法生成随机数，并通过v3KernelMode属性支持不同计算模式，将范围缩放的线性计算内联到kernel内核中，实现了算子融合，提升了执行效率。 3、梳理以下aclnn接口，确保了在非tensor接口和tensor接口情况下都能正确调用使用： aclnnInplaceUniform、aclnnInplaceUniformTensor、aclnnInplaceRandom、aclnnInplaceRandomTensor 使以上四个接口能够在A5芯片下正确调用stateless_random_uniform_v3算子，输入类型为double的情况下调用stateless_random_uniform_v2和小算子拼接，保证精度正常，性能不劣化； aclnnInplaceNormal、aclnnInplaceNormalTensor使以上两个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化； aclnnNormalFloatFloat、aclnnNormalFloatTensor、aclnnNormalTensorFloat、aclnnNormalTensorTensor使以上四个接口能够在A5芯片下正确调用stateless_random_normal_v3算子，输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接，保证精度正常，性能不劣化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1128 https://gitcode.com/cann/ops-math/issues/1129 https://gitcode.com/cann/ops-math/issues/1130 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> TTK测试、UT测试、蓝区冒烟、二级冒烟 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [x] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2003	2 个月前
README.md	新算子StatelessUniform+修改aclnnInplaceUniform、aclnnInplaceUniformTensor接口适配新算子 Co-authored-by: huairuchen<chenhuairu@huawei.com> # message auto-generated for no-merge-commit merge: !2828 merge pr_uni_nor into master 新算子StatelessUniform+修改aclnnInplaceUniform、aclnnInplaceUniformTensor接口适配新算子 Created-by: huairuchen Commit-by: huairuchen Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 修改aclnnInplaceUniform、aclnnInplaceUniformTensor接口，使这些接口可以在A5芯片不同分支下正确调用新算子StatelessUniform。保证精度正常 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1722 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 进行了静态检查二级冒烟构建触发 UT测试泛化ST测试跑了ttk xrun测试已测试测试两个aclnn接口单算子 geir图验证 pta验证 ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> 创建random\stateless_uniform\README.md 更新random\dsa_random_uniform\docs\aclnnInplaceUniform.md 更新random\dsa_random_uniform\docs\aclnnInplaceUniformTensor.md ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2828	3 天前

StatelessRandomUniformV3

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	×
Atlas A2 训练系列产品/Atlas A2 推理系列产品	×
Atlas 200I/500 A2 推理产品	×
Atlas 推理系列产品	×
Atlas 训练系列产品	×

功能说明

算子功能：返回一个随机数张量，该随机数是从独立均匀分布中获取。
计算公式：
$U n i f o r m R e s u l t = S t a t e l e s s R a n d o m U n i f o r m V 2 * (t o - f r o m) + f r o m$ $R a n d o m R e s u l t = S t a t e l e s s R a n d o m U n i f o r m V 2 * t o - (S t a t e l e s s R a n d o m U n i f o r m V 2 * f r o m - f r o m)$

参数说明

参数名	输入/输出/属性	描述	数据类型	数据格式
shape	输入	输入张量的形状。	INT64、INT32	ND
key	输入	用于基于计数器的随机数生成算法的秘钥。	INT64	ND
counter	输入	用于基于计数器的随机数生成算法的初始计数值。	INT64	ND
from	输入	用于随即范围的下界（包含）。	FLOAT	ND
to	输入	用于随即范围的上界（不包含）。	FLOAT	ND
out	输出	输出指定形状的随机值。	FLOAT、BF16、FLOAT16	ND

约束说明

无

调用说明

无