cann-robotdocs: 修复 README 编译运行样例链接失效及错误码 EZ9999

文件	最后提交记录	最后更新时间
arch22	refactor(blas): flatten directory structure and fix README files Co-authored-by: wuyi_huawei<wuyi36@hisilicon.com> # message auto-generated for no-merge-commit merge: !180 merge docs/issue-167-flatten-blas-structure into master refactor(blas): flatten directory structure and fix README files Created-by: zhanghua145 Commit-by: wuyi_huawei Merged-by: cann-robot Description: ## 描述统一 `blas/` 下所有算子的目录结构规范：算子主目录放置 README.md，arch22/arch35 子目录仅存放源码文件。具体变更： 1. 移除冗余的算子子目录层级：将 `blas/<op>/<variant>/` 扁平化为 `blas/<op>/`，涉及 35 个算子目录 2. 融合多架构 README：将 dot、gemv、gemv_batched、scal、swap、trmv 的 s/c 变体 README 合并为统一文档 3. 清理 arch 子目录 README：删除 dot/arch35、rotm/arch22、sbmv/arch35、spmv/arch22、spmv/arch35、symv/arch35 下的 README.md，将有效内容合并至主目录 README 4. 更新目录结构引用：修正 29 个算子 README 中的目录结构描述，对齐扁平化后的实际路径 ## 关联的Issue [#167](https://gitcode.com/cann/ops-blas/issues/167) ## 测试目录结构重构，不涉及功能变更，原有测试用例不受影响。 ![47e8113b-862a-466f-9bce-857d39fb524e.png](https://raw.gitcode.com/user-images/assets/8916851/4976ba82-e35c-4f1a-96f2-e0a6e77c60b3/47e8113b-862a-466f-9bce-857d39fb524e.png '47e8113b-862a-466f-9bce-857d39fb524e.png') ## 文档更新 - 融合 6 个算子的多架构 README（dot/gemv/gemv_batched/scal/swap/trmv） - 删除 6 个 arch 子目录 README 并合并内容（dot/rotm/sbmv/spmv/symv） - 更新 29 个算子 README 的目录结构引用 ## 类型标签 - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [x] 文档更新 - [x] 其他，请描述：目录结构重构 See merge request: cann/ops-blas!180	9 天前
arch35	[bugfix] 标杆数据调整 Co-authored-by: justsheldon<taoxudong@huawei.com> # message auto-generated for no-merge-commit merge: !191 merge fix_precision into master [bugfix] 标杆数据调整 Created-by: justsheldon Commit-by: justsheldon Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 修复 BLAS 单精度（s 前缀）系列算子在 arch35 架构下的 CPU 标杆数据精度问题： 1. 标杆数据对齐标准 BLAS：dot/scal/asum 等算子的 golden 从手动实现改为统一调用 Netlib BLAS（通过 `cblas_compat.h`），消除负步长处理、累积精度等行为与标准参考的差异 2. 补齐测试驱动：为 sbmv、spmv、symv 等算子补齐 golden 实现（golden.h）、参数解析（param.h）、NPU 封装（npu_wrapper.h）和 CSV 用例（test.csv） 3. Host 侧实现整改：Tiling data 改为 const 引用值传递，workspace 统一复用 handle 的 effective workspace 4. 文档更新：各算子 README 补充测试结构与测试用例覆盖说明，测试输出格式统一为 `[PASS] {op}_test` 涉及算子（共 12 个）：sasum、sdot、gemv_batched、sger、srotm、ssbmv、sscal、scalex、sspmv、ssymv、stbmv、strmv ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> - #189 ## 测试 <!--描述进行了哪些测试来验证你的改动。--> - 基于 GTest + CSV 参数化驱动框架 - golden 调用标准 Netlib BLAS（cblas_sdot / cblas_sscal 等） - 测试输出：`[PASS] {op}_test` ![image.png](https://raw.gitcode.com/user-images/assets/8916851/6ee91373-0ce7-4682-8edf-31882df6b2a7/image.png 'image.png') ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> - 更新 blas/{asum,dot,gemv_batched,ger,rotm,sbmv,scal,scalex,spmv,symv,tbmv,trmv}/README.md，补充测试结构与测试用例覆盖说明 ## 类型标签 <!-- [x] 表示选中 --> - [x] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-blas!191	3 天前
README.md	docs: 修复 README 编译运行样例链接失效及错误码 EZ9999 Co-authored-by: Zhang Hua<zhanghua25@mails.ucas.ac.cn> # message auto-generated for no-merge-commit merge: !213 merge docs/issue-fix-readme-link-and-errorcode into master docs: 修复 README 编译运行样例链接失效及错误码 EZ9999 Created-by: zhanghua145 Commit-by: Zhang Hua Merged-by: cann-robot Description: ## 描述修复两个文档问题： 1. 链接修复：所有 `blas/${op}/README.md` 中指向 `compile_and_run_example.md` 的链接路径错误，无法跳转到实际文件 `docs/zh/develop/compile_and_run_example.md`。将 `compile_and_run_example.md` 替换为正确的相对路径 `../../docs/zh/develop/compile_and_run_example.md`。 2. 错误码修复：`compile_and_run_example.md` 中引用了内核层错误码 `EZ9999`，但该错误码在仓库 `include/` 目录及 CANN 官方文档中均不存在。SOC 不匹配时实际报错为 ACL 运行时层 `507035`（向量核异常）。删除 `EZ9999` 引用，仅保留 `507035`。 ## 关联的Issue [#217](https://gitcode.com/cann/ops-blas/issues/217) ## 测试 - 通过 `grep` 验证所有 42 个 blas README 链接路径已更新 - 通过 `grep` 验证仓库中不再包含 `EZ9999` 引用 ## 文档更新 - 42 个 `blas/${op}/README.md`：链接路径修正 - `docs/zh/develop/compile_and_run_example.md`：删除不存在的错误码 `EZ9999` ## 类型标签 - [x] 文档更新 See merge request: cann/ops-blas!213	1 天前

Tbmv算子

算子概述

tbmv (Triangular Band Matrix-Vector Multiplication) 实现三角带状矩阵与向量的乘法运算。该算子支持上三角和下三角矩阵，支持转置和共轭转置操作，支持单位对角线和非单位对角线。

数学表达式：

x = op(A) * x    （arch35，原地覆盖）
y = A * x        （arch22，输入输出分离）

包含以下接口：

接口名	功能简述
aclblasStbmv	单精度三角带状矩阵-向量乘法（标准接口）
aclblasStbmv_legacy	单精度三角带状矩阵-向量乘法（早期接口）

算子执行接口

aclblasStbmv

产品支持情况

Ascend 950PR / Ascend 950DT：支持
Atlas A3 训练系列产品 / Atlas A3 推理系列产品：支持
Atlas A2 训练系列产品 / Atlas A2 推理系列产品：支持

函数原型

aclblasStatus_t aclblasStbmv(aclblasHandle_t handle, aclblasFillMode_t uplo, aclblasOperation_t trans, aclblasDiagType_t diag, int n, int k, const float *A, int lda, float *x, int incx)

参数说明

参数名	输入/输出	参数类型	说明
handle	输入	aclblasHandle_t	ops-blas 库上下文句柄，携带 stream，Host 内存
uplo	输入	aclblasFillMode_t	矩阵填充类型：ACLBLAS_UPPER(上三角)、ACLBLAS_LOWER(下三角)，Host 内存
trans	输入	aclblasOperation_t	矩阵操作类型：ACLBLAS_OP_N(不转置)、ACLBLAS_OP_T(转置)、ACLBLAS_OP_C(共轭转置，实数下同 T)，Host 内存
diag	输入	aclblasDiagType_t	对角线类型：ACLBLAS_NON_UNIT(非单位对角线)、ACLBLAS_UNIT(单位对角线，对角元素视为 1)，Host 内存
n	输入	int	三角带状矩阵 A 的行数和列数，Host 内存
k	输入	int	三角带状矩阵的半带宽，Host 内存
A	输入	const float*（FP32）	三角带状矩阵 float 数组，维度为 lda x n，Device 内存
lda	输入	int	矩阵 A 存储的主维长度，lda >= k + 1，Host 内存
x	输入/输出	float*（FP32）	float 向量，包含 n 个元素。输入为原始向量，输出为计算结果（原地覆盖），Device 内存
incx	输入	int	x 中连续元素之间的步长，不可为 0，Host 内存

约束说明

n >= 0
k >= 0
lda >= k + 1
incx != 0

aclblasStbmv_legacy

产品支持情况

Ascend 950PR / Ascend 950DT：支持
Atlas A3 训练系列产品 / Atlas A3 推理系列产品：支持
Atlas A2 训练系列产品 / Atlas A2 推理系列产品：支持

函数原型

aclblasStatus_t aclblasStbmv_legacy(aclblasHandle_t handle, const float *a, const int64_t lda, const float *x, float *y, const int64_t n, const int64_t k, const int64_t incx)

参数说明

参数名	输入/输出	参数类型	说明
handle	输入	aclblasHandle_t	ops-blas 库上下文句柄，携带 stream，Host 内存
a	输入	const float*（FP32）	下三角带状矩阵 float 数组，维度为 lda x n，Device 内存
lda	输入	int64_t	矩阵 a 存储的主维长度，lda >= k + 1，Host 内存
x	输入	const float*（FP32）	float 输入向量，包含 n 个元素，Device 内存
y	输出	float*（FP32）	float 输出向量，包含 n 个元素，Device 内存
n	输入	int64_t	矩阵 A 的行数和列数，Host 内存
k	输入	int64_t	下三角带状矩阵的半带宽，Host 内存
incx	输入	int64_t	x 中连续元素之间的步长，Host 内存

约束说明

n >= 0
k >= 0
lda >= k + 1
incx != 0