dd97d7cb创建于 4月29日历史提交

文件	最后提交记录	最后更新时间
examples	[CANNBot]版权信息修改 Co-authored-by: Coder_Nerd<shishuai5@huawei.com> # message auto-generated for no-merge-commit merge: !1977 merge master into master [CANNBot]版权信息修改 Created-by: Coder_Nerd Commit-by: Coder_Nerd Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!1977	2 个月前
op_host	[CANNBot]CompelxV3与CoshV2算子支持Ascend950 AscendC实现 Co-authored-by: Coder_Nerd<shishuai5@huawei.com> # message auto-generated for no-merge-commit merge: !2105 merge ai_gen_experimental into master [CANNBot]CompelxV3与CoshV2算子支持Ascend950 AscendC实现 Created-by: Coder_Nerd Commit-by: Coder_Nerd Merged-by: cann-robot Description: ## 描述 Experimental自定义算子：CompelxV3与CoshV2算子支持Ascend950 AscendC实现 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-math/issues/1182 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2105	1 个月前
op_kernel	[CANNBot]版权信息修改 Co-authored-by: Coder_Nerd<shishuai5@huawei.com> # message auto-generated for no-merge-commit merge: !1977 merge master into master [CANNBot]版权信息修改 Created-by: Coder_Nerd Commit-by: Coder_Nerd Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!1977	2 个月前
tests	[CANNBot]CompelxV3与CoshV2算子支持A2 AscendC实现 Co-authored-by: Coder_Nerd<shishuai5@huawei.com> # message auto-generated for no-merge-commit merge: !1960 merge ai_gen into master [CANNBot]CompelxV3与CoshV2算子支持A2 AscendC实现 Created-by: Coder_Nerd Commit-by: Coder_Nerd Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!1960	2 个月前
CMakeLists.txt	[CANNBot]版权信息修改 Co-authored-by: Coder_Nerd<shishuai5@huawei.com> # message auto-generated for no-merge-commit merge: !1977 merge master into master [CANNBot]版权信息修改 Created-by: Coder_Nerd Commit-by: Coder_Nerd Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!1977	2 个月前
README.md	math仓的doc tools 工具检测的低错问题 Co-authored-by: caiwenwen<caiwenwen6@h-partners.com> # message auto-generated for no-merge-commit merge: !2461 merge master into master math仓的doc tools 工具检测的低错问题 Created-by: caiwenwen Commit-by: caiwenwen Merged-by: cann-robot Description: ## 描述处理math仓的doc tools 工具检测的低错问题，包括markdown低错、htlm标签合入、链接是否可以正常跳转 ## 关联的Issue #关联issue#1262 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新更新全部文档 ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [x] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-math!2461	1 个月前

CoshV2 算子

Ascend C 自定义算子，逐元素计算输入 tensor 的双曲余弦值。对标 PyTorch torch.cosh(input) 接口。

算子说明

数学公式

out = cosh(self) = (exp(self) + exp(-self)) / 2

实际实现使用数值稳定公式，避免中间结果溢出：

cosh(x) = exp(|x| - ln2) + exp(-|x|) / 2

支持规格

项目	说明
目标芯片	Ascend 910B3 (arch32, DAV_2201)
CANN 版本	9.0.0
数据类型	float16, float32, bfloat16
调用方式	ACLNN 两段式接口
输入维度	任意 shape，最大 8 维
数据格式	ND

ACLNN 接口

// 第一段：计算 workspace 大小
aclnnStatus aclnnCoshV2GetWorkspaceSize(
    const aclTensor* self,
    aclTensor* out,
    uint64_t* workspaceSize,
    aclOpExecutor** executor);

// 第二段：执行计算
aclnnStatus aclnnCoshV2(
    void* workspace,
    uint64_t workspaceSize,
    aclOpExecutor* executor,
    aclrtStream stream);

精度标准

数据类型	精度标准	说明
float16	双千分之一	相对误差 < 0.001 的比例 >= 99.9%
float32	双万分之一	相对误差 < 0.0001 的比例 >= 99.99%
bfloat16	双千分之一	中间计算使用 float32

特殊值处理

输入	输出	说明
0	1.0	cosh(0) = 1
+inf	+inf	正无穷
-inf	+inf	cosh 为偶函数
NaN	NaN	保持 NaN

目录结构

cosh/
├── CMakeLists.txt              # 顶层构建配置
├── build.sh                    # 一键构建脚本
├── op_host/                    # Host 侧实现
│   ├── cosh_v2_def.cpp            # 算子原型注册
│   ├── cosh_v2_infershape.cpp     # Shape 推导
│   ├── CMakeLists.txt
│   └── arch32/
│       └── cosh_v2_tiling.cpp     # Tiling 实现 (Ascend910B)
├── op_kernel/                  # Kernel 侧实现
│   ├── cosh_v2_arch32.cpp         # Kernel 入口
│   ├── CMakeLists.txt
│   └── arch32/
│       ├── cosh.h              # Kernel 类定义与计算逻辑
│       ├── cosh_v2_tiling_data.h  # TilingData 结构体
│       └── cosh_v2_tiling_key.h   # TilingKey 模板参数定义
├── tests/                      # 测试
│   ├── ut/                     # 单元测试 (Host 侧 Tiling + InferShape)
│   └── st/                     # 系统测试 (ACLNN 端到端)
├── probe/                      # 穿刺验证工程
└── docs/                       # 文档
    ├── DEVELOPMENT_LOG.md      # 开发日志
    ├── REQUIREMENT_ANALYSIS.md # 需求分析
    ├── cosh_DETAILED_DESIGN.md # 详细设计
    ├── cosh_ITERATION_PLAN.md  # 迭代计划
    ├── cosh_TEST_DESIGN.md     # 测试设计
    ├── final_precision_report.md   # 精度验收报告
    └── final_code_review_report.md # 代码检视报告

构建方法

环境要求

CANN 9.0.0 已安装
ASCEND_HOME_PATH 环境变量已设置（如 /home/developer/Ascend/ascend-toolkit/latest）
GCC 9.4.0+, C++17

编译算子包

# 编译（生成 Kernel 二进制 + 安装包）
bash build.sh --soc=ascend910b -j8

# 清理构建产物
bash build.sh --make_clean

编译成功后产物：

Kernel 二进制：build/op_kernel/ascendc_kernels/binary/ascend910b/
安装包：build/custom_opp_ubuntu_aarch64.run

安装算子包

# 安装自定义算子包
./build/custom_opp_ubuntu_aarch64.run --full

运行时配置

# 配置自定义算子库路径
export LD_LIBRARY_PATH=<安装路径>/vendors/cosh_v2_custom/op_api/lib/:$LD_LIBRARY_PATH

测试方法

运行单元测试 (UT)

# 方法一：通过 build.sh
bash build.sh --soc=ascend910b -u

# 方法二：直接运行
cd tests/ut && ./run.sh

UT 测试内容：

InferShape 测试（6 条）：1D/多维/4D/动态/大 shape/标量
Tiling 测试（73 条）：fp16/fp32/bf16 各路径、单/双缓冲、边界值、阈值、多核分配

运行系统测试 (ST)

# 方法一：通过 build.sh（需先安装算子包）
bash build.sh --soc=ascend910b -s

# 方法二：直接运行
cd tests/st && bash run.sh

# 方法三：一次性运行全部测试
bash build.sh --soc=ascend910b -a

ST 测试内容：

端到端 ACLNN 接口调用，在真实 NPU 上执行
71 条用例覆盖 3 种 dtype、1D~8D 维度、特殊值、边界值
精度对比 CPU golden (std::cosh)

测试用例文件

文件	说明
`tests/st/testcases/l0_test_cases.csv`	L0 门槛用例 23 条
`tests/st/testcases/l1_test_cases.csv`	L1 功能用例 500 条

实现要点

模板化设计：通过 <typename T, int BUFFER_MODE> 模板参数支持 6 个 TilingKey 组合
数值稳定性：使用 exp(|x|-ln2) 替代 exp(x) 避免中间溢出
统一 fp32 中间计算：fp16/bf16 均 Cast 到 fp32 计算后 Cast 回原类型
双缓冲流水：totalNum > 1024 时启用双缓冲，MTE2 与 Vector 计算并行
DataCopyPad：安全处理非对齐尾块数据搬运
动态多核：使用 GetCoreNumAiv() 获取核数，禁止写死

测试结果

指标	结果
UT 通过率	79/79 = 100%
ST 通过率	71/71 = 100%
fp16 精度	满足双千分之一
fp32 精度	满足双万分之一
bf16 精度	满足双千分之一