文件最后提交记录最后更新时间
新增stateless_normal算子 Co-authored-by: gh_M<meiguohan@huawei.com> # message auto-generated for no-merge-commit merge: !2901 merge fullNormal into master 新增stateless_normal算子 Created-by: gh_M Commit-by: gh_M Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 新增StatelessRandom算子 根据指定的均值(mean)和标准差(stdev)生成服从正态分布的随机数张量 具体实现SIMT模板。 包含算子原型、文档、kernel等 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1739 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> 泛化用例验证通过 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math!29014 天前
支持下一代cos_stateless_bernoulli_stateless_random_normal_v2算子实现 Co-authored-by: z00940181<zhanghaodong30@huawei.com> # message auto-generated for no-merge-commit merge: !548 merge master into master 支持下一代cos_stateless_bernoulli_stateless_random_normal_v2算子实现 Created-by: hawdonz Commit-by: z00940181 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math!5485 个月前
新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Co-authored-by: huairuchen<chenhuairu@huawei.com> # message auto-generated for no-merge-commit merge: !2003 merge master into master 新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Created-by: huairuchen Commit-by: huairuchen Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 1、优化StatelessRandomUniformV2/StatelessRandomNormalV2:新增了支持aclTensor*类型seed和offset参数的算子接口,允许直接传递设备张量,避免了D2H拷贝。同时,重构了tiling逻辑,将key和counter参数的读取职责从tiling阶段转移至kernel执行阶段,直接从全局内存读取,简化了流程并提升了灵活性。 2、新增StatelessRandomUniformV3/StatelessRandomNormalV3:完整实现了该融合算子,包括API接口、Tiling逻辑、内核实现及配置文件。该算子基于Philox算法生成随机数,并通过v3KernelMode属性支持不同计算模式,将范围缩放的线性计算内联到kernel内核中,实现了算子融合,提升了执行效率。 3、梳理以下aclnn接口,确保了在非tensor接口和tensor接口情况下都能正确调用使用: aclnnInplaceUniform、aclnnInplaceUniformTensor、aclnnInplaceRandom、aclnnInplaceRandomTensor 使以上四个接口能够在A5芯片下正确调用stateless_random_uniform_v3算子,输入类型为double的情况下调用stateless_random_uniform_v2和小算子拼接,保证精度正常,性能不劣化; aclnnInplaceNormal、aclnnInplaceNormalTensor使以上两个接口能够在A5芯片下正确调用stateless_random_normal_v3算子,输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接,保证精度正常,性能不劣化; aclnnNormalFloatFloat、aclnnNormalFloatTensor、aclnnNormalTensorFloat、aclnnNormalTensorTensor使以上四个接口能够在A5芯片下正确调用stateless_random_normal_v3算子,输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接,保证精度正常,性能不劣化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1128 https://gitcode.com/cann/ops-math/issues/1129 https://gitcode.com/cann/ops-math/issues/1130 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> TTK测试、UT测试、蓝区冒烟、二级冒烟 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [x] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math!20032 个月前
新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Co-authored-by: huairuchen<chenhuairu@huawei.com> # message auto-generated for no-merge-commit merge: !2003 merge master into master 新增stateless_random_uniform_v3和stateless_random_normal_v3及aclnn接口适配 Created-by: huairuchen Commit-by: huairuchen Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 1、优化StatelessRandomUniformV2/StatelessRandomNormalV2:新增了支持aclTensor*类型seed和offset参数的算子接口,允许直接传递设备张量,避免了D2H拷贝。同时,重构了tiling逻辑,将key和counter参数的读取职责从tiling阶段转移至kernel执行阶段,直接从全局内存读取,简化了流程并提升了灵活性。 2、新增StatelessRandomUniformV3/StatelessRandomNormalV3:完整实现了该融合算子,包括API接口、Tiling逻辑、内核实现及配置文件。该算子基于Philox算法生成随机数,并通过v3KernelMode属性支持不同计算模式,将范围缩放的线性计算内联到kernel内核中,实现了算子融合,提升了执行效率。 3、梳理以下aclnn接口,确保了在非tensor接口和tensor接口情况下都能正确调用使用: aclnnInplaceUniform、aclnnInplaceUniformTensor、aclnnInplaceRandom、aclnnInplaceRandomTensor 使以上四个接口能够在A5芯片下正确调用stateless_random_uniform_v3算子,输入类型为double的情况下调用stateless_random_uniform_v2和小算子拼接,保证精度正常,性能不劣化; aclnnInplaceNormal、aclnnInplaceNormalTensor使以上两个接口能够在A5芯片下正确调用stateless_random_normal_v3算子,输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接,保证精度正常,性能不劣化; aclnnNormalFloatFloat、aclnnNormalFloatTensor、aclnnNormalTensorFloat、aclnnNormalTensorTensor使以上四个接口能够在A5芯片下正确调用stateless_random_normal_v3算子,输入类型为double的情况下调用stateless_random_normal_v2和小算子拼接,保证精度正常,性能不劣化 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1128 https://gitcode.com/cann/ops-math/issues/1129 https://gitcode.com/cann/ops-math/issues/1130 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> TTK测试、UT测试、蓝区冒烟、二级冒烟 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [x] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-math!20032 个月前