cann-robotdocs: 修复 README 编译运行样例链接失效及错误码 EZ9999

文件	最后提交记录	最后更新时间
arch22	feat(nrm2): 新增 arch35 aclblasSnrm2接口 Co-authored-by: chensi79<chensi79@huawei.com> # message auto-generated for no-merge-commit merge: !181 merge aclblasSnrm2 into master feat(nrm2): 新增 arch35 aclblasSnrm2接口 Created-by: chensi79 Commit-by: chensi79@huawei.com;chensi79 Merged-by: cann-robot Description: ## 描述为 ascend950（arch35）新增 `aclblasSnrm2` 接口实现，并配套调整 arch22 命名与测试目录结构。 ### 改动原因 - 现有 `aclblasSnrm2` 仅有占位声明（`include/cann_ops_blas.h`），缺少面向 arch35（Ascend 950）的实现 - arch35 的 AIV 多核 + SIMT 编程模型与 arch22 不同，需要独立的双路径 kernel - 历史目录命名 `snrm2_` 统一为 `nrm2_` ### 改动方法 1. arch35 aclblasSnrm2 实现 - 接口签名（`include/cann_ops_blas.h`）：从占位声明 `(handle, const int64_t n, uint8_t* x, const int64_t incx, uint8_t* result)` 调整为 `(handle, int n, const float* x, int incx, float* result)` - Host（`blas/nrm2/arch35/nrm2_host.cpp`）：参数校验、`n≤0`/`incx≤0` 早返回 0、Tiling（useCoreNum = min(aivCoreNum, n, 64)）、workspace 复用 `aclblasGetEffectiveWorkspace` - Kernel（`blas/nrm2/arch35/nrm2_kernel.cpp` + `nrm2_kernel.h`）：双路径 + 汇总 - SIMD 路径（incx==1）：`snrm2_aiv_kernel` 多核 `Mul → ReduceSum` 后 atomic add 写入 workspace[blockIdx] - SIMT 路径（incx!=1）：`snrm2_simt_kernel` 多核 `asc_vf_call<Snrm2SimtCompute>`，warp-style 归约 - 汇总：`snrm2_reduce_kernel` 单核 `ReduceSum + Sqrt` - UB 预算：`SAFETY_MARGIN=32KB`、`UB_MAX_CHUNK_FLOATS=27392`（基于 BUFFER_NUM=2、248KB UB 推导） 2. arch22 命名规范化（纯重命名，内容基本不变） - `blas/nrm2/arch22/snrm2_host.cpp → nrm2_host.cpp` - `blas/nrm2/arch22/snrm2_kernel.cpp → nrm2_kernel.cpp` 3. 测试文件： - 新增 `test/nrm2/snrm2/arch35/`（`snrm2_test.cpp` / `snrm2_test.csv` / `snrm2_npu_wrapper.h`） - 新增 `test/nrm2/snrm2/snrm2_golden.h`（cblas_snrm2 参考）、`snrm2_param.h` 4. sasum_kernel.cpp（arch35）修正 - `maxCopyPadNum` 由 `(UINT16_MAX+1)/sizeof(float)` 改为 `UINT16_MAX/sizeof(float)`，避免溢出 - SIMT 归约改用 next-power-of-2 算法并补充 `(threadIdx.x + s) < blockDim.x` 边界检查，支持非 2 的幂 `blockDim.x` 5. 文档 - 更新 `blas/nrm2/README.md`（补充 arch22/arch35 双架构、双路径设计、硬件支持矩阵） ## 关联的Issue - https://gitcode.com/cann/ops-blas/issues/190 ## 测试 - 单元测试 `test/nrm2/snrm2/arch35/nrm2_test.cpp`，CSV 数据驱动，覆盖： - SIMD 路径：n=0/1/8/32/1024/8192（含 32B 对齐与非对齐） - SIMT 路径：incx=2/3/7（含素数 stride） - 错误路径：NullHandle、x/result nullptr、n≤0、incx≤0 - 参考实现 `test/nrm2/snrm2/nrm2_golden.h` 调用 `cblas_snrm2`做精度比对 ## 文档更新 - 更新 `blas/nrm2/README.md` ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-blas!181	3 天前
arch35	feat(nrm2): 新增 arch35 aclblasSnrm2接口 Co-authored-by: chensi79<chensi79@huawei.com> # message auto-generated for no-merge-commit merge: !181 merge aclblasSnrm2 into master feat(nrm2): 新增 arch35 aclblasSnrm2接口 Created-by: chensi79 Commit-by: chensi79@huawei.com;chensi79 Merged-by: cann-robot Description: ## 描述为 ascend950（arch35）新增 `aclblasSnrm2` 接口实现，并配套调整 arch22 命名与测试目录结构。 ### 改动原因 - 现有 `aclblasSnrm2` 仅有占位声明（`include/cann_ops_blas.h`），缺少面向 arch35（Ascend 950）的实现 - arch35 的 AIV 多核 + SIMT 编程模型与 arch22 不同，需要独立的双路径 kernel - 历史目录命名 `snrm2_` 统一为 `nrm2_` ### 改动方法 1. arch35 aclblasSnrm2 实现 - 接口签名（`include/cann_ops_blas.h`）：从占位声明 `(handle, const int64_t n, uint8_t* x, const int64_t incx, uint8_t* result)` 调整为 `(handle, int n, const float* x, int incx, float* result)` - Host（`blas/nrm2/arch35/nrm2_host.cpp`）：参数校验、`n≤0`/`incx≤0` 早返回 0、Tiling（useCoreNum = min(aivCoreNum, n, 64)）、workspace 复用 `aclblasGetEffectiveWorkspace` - Kernel（`blas/nrm2/arch35/nrm2_kernel.cpp` + `nrm2_kernel.h`）：双路径 + 汇总 - SIMD 路径（incx==1）：`snrm2_aiv_kernel` 多核 `Mul → ReduceSum` 后 atomic add 写入 workspace[blockIdx] - SIMT 路径（incx!=1）：`snrm2_simt_kernel` 多核 `asc_vf_call<Snrm2SimtCompute>`，warp-style 归约 - 汇总：`snrm2_reduce_kernel` 单核 `ReduceSum + Sqrt` - UB 预算：`SAFETY_MARGIN=32KB`、`UB_MAX_CHUNK_FLOATS=27392`（基于 BUFFER_NUM=2、248KB UB 推导） 2. arch22 命名规范化（纯重命名，内容基本不变） - `blas/nrm2/arch22/snrm2_host.cpp → nrm2_host.cpp` - `blas/nrm2/arch22/snrm2_kernel.cpp → nrm2_kernel.cpp` 3. 测试文件： - 新增 `test/nrm2/snrm2/arch35/`（`snrm2_test.cpp` / `snrm2_test.csv` / `snrm2_npu_wrapper.h`） - 新增 `test/nrm2/snrm2/snrm2_golden.h`（cblas_snrm2 参考）、`snrm2_param.h` 4. sasum_kernel.cpp（arch35）修正 - `maxCopyPadNum` 由 `(UINT16_MAX+1)/sizeof(float)` 改为 `UINT16_MAX/sizeof(float)`，避免溢出 - SIMT 归约改用 next-power-of-2 算法并补充 `(threadIdx.x + s) < blockDim.x` 边界检查，支持非 2 的幂 `blockDim.x` 5. 文档 - 更新 `blas/nrm2/README.md`（补充 arch22/arch35 双架构、双路径设计、硬件支持矩阵） ## 关联的Issue - https://gitcode.com/cann/ops-blas/issues/190 ## 测试 - 单元测试 `test/nrm2/snrm2/arch35/nrm2_test.cpp`，CSV 数据驱动，覆盖： - SIMD 路径：n=0/1/8/32/1024/8192（含 32B 对齐与非对齐） - SIMT 路径：incx=2/3/7（含素数 stride） - 错误路径：NullHandle、x/result nullptr、n≤0、incx≤0 - 参考实现 `test/nrm2/snrm2/nrm2_golden.h` 调用 `cblas_snrm2`做精度比对 ## 文档更新 - 更新 `blas/nrm2/README.md` ## 类型标签 - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-blas!181	3 天前
README.md	docs: 修复 README 编译运行样例链接失效及错误码 EZ9999 Co-authored-by: Zhang Hua<zhanghua25@mails.ucas.ac.cn> # message auto-generated for no-merge-commit merge: !213 merge docs/issue-fix-readme-link-and-errorcode into master docs: 修复 README 编译运行样例链接失效及错误码 EZ9999 Created-by: zhanghua145 Commit-by: Zhang Hua Merged-by: cann-robot Description: ## 描述修复两个文档问题： 1. 链接修复：所有 `blas/${op}/README.md` 中指向 `compile_and_run_example.md` 的链接路径错误，无法跳转到实际文件 `docs/zh/develop/compile_and_run_example.md`。将 `compile_and_run_example.md` 替换为正确的相对路径 `../../docs/zh/develop/compile_and_run_example.md`。 2. 错误码修复：`compile_and_run_example.md` 中引用了内核层错误码 `EZ9999`，但该错误码在仓库 `include/` 目录及 CANN 官方文档中均不存在。SOC 不匹配时实际报错为 ACL 运行时层 `507035`（向量核异常）。删除 `EZ9999` 引用，仅保留 `507035`。 ## 关联的Issue [#217](https://gitcode.com/cann/ops-blas/issues/217) ## 测试 - 通过 `grep` 验证所有 42 个 blas README 链接路径已更新 - 通过 `grep` 验证仓库中不再包含 `EZ9999` 引用 ## 文档更新 - 42 个 `blas/${op}/README.md`：链接路径修正 - `docs/zh/develop/compile_and_run_example.md`：删除不存在的错误码 `EZ9999` ## 类型标签 - [x] 文档更新 See merge request: cann/ops-blas!213	3 天前

Nrm2算子

算子概述

向量范数算子，计算向量的欧几里得范数（2-范数），常用于向量长度计算、归一化和误差估计。nrm2 算子包含实数向量欧几里得范数（Snrm2）与复数向量欧几里得范数（Scnrm2）两个接口，是 BLAS 基础线性代数库中的核心算子之一。

数学表达式：

result = sqrt(sum(|x[i]|^2)) for i = 0 to n-1

复数向量（Scnrm2）：

result = sqrt(sum(|z[i]|^2)) = sqrt(sum(real[i]^2 + imag[i]^2))  for i = 0 to n-1

包含以下接口：

接口名	功能简述
aclblasSnrm2	实数向量欧几里得范数（arch22 / arch35 均支持；arch35 支持 SIMD+SIMT 双路径，arch22 仅支持 incx==1）
aclblasScnrm2	复数向量欧几里得范数（针对 arch22 复用 snrm2 kernel 实现，仅支持 incx==1）

产品支持情况

产品	是否支持	架构
Ascend 950PR / Ascend 950DT	✓	arch35
Atlas A3 训练系列产品/Atlas A3 推理系列产品	✓	arch22
Atlas A2 训练系列产品/Atlas A2 推理系列产品	✓	arch22

目录结构介绍

blas/nrm2/
├── README.md                          // 说明文档
├── arch22/
│   ├── snrm2_host.cpp                 // Snrm2 / Scnrm2 Host 侧实现（arch22）
│   └── snrm2_kernel.cpp               // Nrm2AIV 模板类 + 单核汇总（arch22，仅 incx==1）
└── arch35/
    ├── snrm2_host.cpp                 // Snrm2 Host 侧实现 + 双路径选择（arch35）
    ├── snrm2_kernel.cpp               // Snrm2AIV（SIMD）/ Snrm2SimtCompute（SIMT）/ Snrm2Reduce（汇总）
    └── snrm2_kernel.h                 // TilingData 结构体（Host 和 Kernel 共用）

算子执行接口

aclblasSnrm2

产品支持情况

Ascend 950PR / Ascend 950DT：支持（arch35）
Atlas A3 训练系列产品 / Atlas A3 推理系列产品：支持（arch22）
Atlas A2 训练系列产品 / Atlas A2 推理系列产品：支持（arch22）

函数原型

aclblasStatus_t aclblasSnrm2(aclblasHandle_t handle, int n, const float* x, int incx, float* result);

参数说明

参数名	输入/输出	参数类型	说明
handle	输入	aclblasHandle_t	ops-blas 库上下文句柄，内部携带 stream 和 workspace，Host 内存
n	输入	int	向量元素个数，n >= 0（n <= 0 时直接返回 0.0），Host 内存
x	输入	const float*（FP32）	输入向量，包含 n 个元素，当 n > 0 时不可为 nullptr，Device 内存
incx	输入	int	x 中连续元素之间的步长；incx == 1 时走 SIMD 路径，incx != 1 时走 SIMT 路径（incx <= 0 时直接返回 0.0），Host 内存
result	输出	float*（FP32）	输出标量，存储欧几里得范数计算结果，不可为 nullptr，Device 内存

约束说明

n >= 0
incx != 0

算子规格

算子类型(OpType)	Snrm2
算子输入	name	shape	data type	format
x	n	float	ND
算子输出	result	1	float	ND
核函数名	snrm2_aiv_kernel / snrm2_simt_kernel / snrm2_reduce_kernel

算子实现

根据 incx 参数自动选择不同的计算路径，采用双路径 dispatch 策略（arch35；arch22 仅支持 incx == 1 的 SIMD 路径）：

incx == 1（SIMD 路径）：多核均分向量元素，每核使用 DataCopy + Mul + ReduceSum 流水线计算局部平方和。UB 内单次搬运 chunk 个 float 元素，通过 256B 级归约得到 per-chunk 部分和。
incx != 1（SIMT 路径，仅 arch35）：多核 SIMT 线程块（128-2048 线程）按 incx 跨步遍历向量，每线程累加局部平方和。通过 asc_syncthreads 同步后二叉树归约得到块级部分和。
汇总阶段：各核将部分和写入 workspace，单核执行 ReduceSum + Sqrt 得到最终结果。

多核并行策略：元素维度均匀分配到多个 AIV Core，余数核多处理 1 个元素。使用内核调用符 <<<>>> 调用核函数。

aclblasScnrm2

产品支持情况

Ascend 950PR / Ascend 950DT：不支持
Atlas A3 训练系列产品 / Atlas A3 推理系列产品：支持（arch22）
Atlas A2 训练系列产品 / Atlas A2 推理系列产品：支持（arch22）

函数原型

aclblasStatus_t aclblasScnrm2(aclblasHandle_t handle, const int64_t n, uint8_t* x, const int64_t incx, uint8_t* result);

参数说明

参数名	输入/输出	参数类型	说明
handle	输入	aclblasHandle_t	ACL 流 handle，用于传入 stream，Host 内存
n	输入	int64_t	复数元素个数（kernel 内部处理 2*n 个 float 元素），Host 内存
x	输入	uint8_t*（FP32 complex）	复数向量（交错实部/虚部存储，实际为 2*n 个 float），Device 内存
incx	输入	int64_t	x 中连续元素之间的步长（arch22 仅支持 incx == 1），Host 内存
result	输出	uint8_t*（FP32）	复数向量的欧几里得范数（float 结果，通过 uint8_t* 传出），Device 内存

约束说明

n >= 0
incx != 0

算子规格

算子类型(OpType)	Scnrm2
算子输入	name	shape	data type	format
x	2*n	float	ND
算子输出	result	1	float	ND
核函数名	snrm2_kernel

算子实现

将复数向量的 2*n 个 float 元素直接传入 snrm2 kernel，复用实数向量范数计算逻辑。arch22 仅支持 incx == 1 的 SIMD 路径：按 32 元素块分配到多个 AIV Core，每核在 UB 内计算 local 平方和，通过 SetAtomicAdd 原子累积到 workspace，最后由 core 0 汇总计算 Sqrt。使用内核调用符 <<<>>> 调用核函数。

编译运行

在仓库根目录下执行如下步骤，编译并运行算子测试。

配置环境变量

source /usr/local/Ascend/cann/set_env.sh

Snrm2 编译并执行测试

bash build.sh --ops=snrm2 --soc=ascend950 --run

执行结果如下，说明所有测试用例通过。

[Success] Case accuracy is verification passed.