d1f05160创建于 18 小时前历史提交

文件	最后提交记录	最后更新时间
docs	LightningIndexer修复aclnn资料描述 Co-authored-by: zzzyh22<zhangyaohui22@huawei.com> # message auto-generated for no-merge-commit merge: !3796 merge aclnnLI into master LightningIndexer修复aclnn资料描述 Created-by: zzzyh22 Commit-by: zzzyh22 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> LightningIndexer中修复误改的两段式接口固定写法表达。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> 更新了aclnnLightningIndexer.md文件 ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!3796	2 个月前
examples	LightningIndexer aclnn示例修改 Co-authored-by: zzzyh22<zhangyaohui22@huawei.com> # message auto-generated for no-merge-commit merge: !3671 merge test into master LightningIndexer aclnn示例修改 Created-by: zzzyh22 Commit-by: zzzyh22 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> LightningIndexer算子修正aclnn文档内容，以及example输出类型和格式修复。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> 更新了aclnnLightningIndexer.md文件。 ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!3671	2 个月前
op_host	A5 LI 重构分数计算uint16 为uint32 Co-authored-by: 我是石头人大王<luohao148@huawei.com> # message auto-generated for no-merge-commit merge: !5740 merge master into master A5 LI 重构分数计算uint16 为uint32 Created-by: lhlll Commit-by: lhlll;我是石头人大王 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> A5 LI 重构分数计算uint16 为uint32 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/3387 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [x] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!5740	3 天前
op_kernel	A5 QLI&LI huge method clean Co-authored-by: lhlll<luohao148@huawei.com> # message auto-generated for no-merge-commit merge: !8065 merge master into master A5 QLI&LI huge method clean Created-by: lhlll Commit-by: lhlll Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 清理A5 QLI&LI 超大函数 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/3514 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [x] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!8065	18 小时前
tests	fix: 修复pytest文档链接 Co-authored-by: j60100428<jingsong5@h-partners.com> # message auto-generated for no-merge-commit merge: !7901 merge master into master fix: 修复pytest文档链接 Created-by: SH_jingsong Commit-by: j60100428 Merged-by: cann-robot Description: ## 描述修复pytest文档链接错误 ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/3425 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!7901	18 小时前
CMakeLists.txt	更新license Co-authored-by: PerrySkywalker<wangmingkang1@huawei.com> # message auto-generated for no-merge-commit merge: !568 merge lic into master 更新license Created-by: PerrySkywalker Commit-by: PerrySkywalker Merged-by: cann-robot Description: ## 描述更新license <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-transformer!568	6 个月前
README.md	修改中英文空格问题 Co-authored-by: caiwenwen<caiwenwen6@h-partners.com> # message auto-generated for no-merge-commit merge: !6860 merge master into master 修改中英文空格问题 Created-by: caiwenwen Commit-by: caiwenwen Merged-by: cann-robot Description: ## 描述修改中文标点 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [x] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!6860	20 天前

LightningIndexer

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	×
Atlas 推理系列产品	×
Atlas 训练系列产品	×

功能说明

算子功能：lightning_indexer基于一系列操作得到每一个token对应的Top- $k$ 个位置。
计算公式：
$Indices=Top-k{[1]1×g@[(W@[1]1×Sk)⊙ReLU(Qindex@KindexT)]}Indices=\text{Top-}k\left\{[1]_{1\times g}@\left[(W@[1]_{1\times S_{k}})\odot\text{ReLU}\left(Q_{index}@K_{index}^T\right)\right]\right\}$
对于某个token对应的Index Query $Qindex∈Rg×dQ_{index}\in\R^{g\times d}$ ，给定上下文Index Key $Kindex∈RSk×d,W∈Rg×1K_{index}\in\R^{S_{k}\times d},W\in\R^{g\times 1}$ ，其中 $g$ 为GQA对应的group size， $d$ 为每一个头的维度， $S_{k}$ 是上下文的长度。

参数说明

说明：
参数维度含义：B表示Batch Size、Q_S和K_S分别表示query和key的Sequence Length、Q_N和K_N分别表示query和key的Head Num、D表示Head Dim（Q_D和K_D取值相等为128）、Q_T和K_T分别表示query和key的Total Tokens、sparse_count表示最后选取的索引个数（topK）、block_num和block_size分别表示PageAttention场景下的block总数和每个block的token数。K_N仅支持1。

参数名	输入/输出/属性	描述	数据类型	数据格式
query	输入	公式中的输入Q。不支持空tensor和非连续。 layout_query为BSND时，shape为[B, Q_S, Q_N, D]；layout_query为TND时，shape为[Q_T, Q_N, D]。	FLOAT16、BFLOAT16	ND
key	输入	公式中的输入K。不支持空tensor和非连续。 layout_key为PA_BSND时，shape为[block_num, block_size, K_N, D]，其中block_num为PageAttention时block总数、block_size为一个block的token数；layout_key为BSND时，shape为[B, K_S, K_N, D]；layout_key为TND时，shape为[K_T, K_N, D]。	FLOAT16、BFLOAT16	ND
weights	输入	公式中的输入W。不支持空tensor和非连续。 layout_query为BSND时，shape为[B, Q_S, Q_N]；layout_query为TND时，shape为[Q_T, Q_N]。	FLOAT16、BFLOAT16、FLOAT	ND
actual_seq_lengths_query	输入	每个Batch中Query的有效token数。不支持空tensor和非连续。可传入None表示与query的Q_S长度相同。支持长度为B的一维tensor，且每个Batch的有效token数不超过query中的Q_S大小且不小于0。layout_query为TND时该入参必须传入，并以元素数量作为B值。每个元素表示当前batch与之前所有batch的token数总和，即前缀和，因此后一个元素的值必须大于等于前一个元素的值。	INT32	ND
actual_seq_lengths_key	输入	每个Batch中Key的有效token数。不支持空tensor和非连续。可传入None表示与key的K_S长度相同。支持长度为B的一维tensor，且每个Batch的有效token数不超过key中的K_S大小且不小于0。 layout_key为TND或PA_BSND时该入参必须传入；其中layout_key为TND时，每个元素表示当前batch与之前所有batch的token数总和，即前缀和，因此后一个元素的值必须大于等于前一个元素的值。	INT32	ND
block_table	输入	表示PageAttention中KV存储使用的block映射表。不支持空tensor和非连续。 PageAttention场景下，block_table必须为二维，第一维长度需要等于B，第二维长度不能小于maxBlockNumPerSeq（每个batch中最大actual_seq_lengths_key对应的block数量）。 shape支持[B, K_S/block_size]。	INT32	ND
layout_query	属性	用于标识输入Query的数据排布格式。默认值为"BSND"，当前支持BSND、TND。	STRING	-
layout_key	属性	用于标识输入Key的数据排布格式。默认值为"BSND"，当前支持PA_BSND、BSND、TND。	STRING	-
sparse_count	属性	topK阶段需要保留的block数量。支持[1, 2048]，以及3072、4096、5120、6144、7168、8192。默认值为2048。	INT32	-
sparse_mode	属性	表示sparse的模式。 sparse_mode为0时代表defaultMask模式。 sparse_mode为3时代表rightDownCausal模式的mask，对应以右顶点为划分的下三角场景。默认值为3。	INT32	-
pre_tokens	属性	用于稀疏计算，表示attention需要和前几个Token计算关联，仅支持默认值2^63-1。	INT64	-
next_tokens	属性	用于稀疏计算，表示attention需要和后几个Token计算关联，仅支持默认值2^63-1。	INT64	-
return_values	属性	表示是否输出sparseValuesOut。 True表示输出，False表示不输出，默认值为False。仅在训练且layout_key不为PA_BSND场景支持。	BOOL	-
sparse_indices	输出	公式中的Indices输出。不支持空tensor和非连续。 layout_query为BSND时输出shape为[B, Q_S, K_N, sparse_count]；layout_query为TND时输出shape为[Q_T, K_N, sparse_count]。	INT32	-
sparse_values	输出	公式中的Indices输出对应的value值。不支持空tensor和非连续。 shape与sparseIndicesOut保持一致。	FLOAT16、BFLOAT16	ND

约束说明

该接口支持图模式。
参数key中的K_N支持1。
headdim支持128。
block_size取值为16的倍数，最大支持1024。
参数query、key的数据类型应保持一致。
参数weights不为float32时，参数query、key、weights的数据类型应保持一致。
Ascend 950PR/Ascend 950DT：
- query Q_N仅支持8、16、24、32、64。
- 参数weights不支持float32类型。
Atlas A3训练系列产品/Atlas A3推理系列产品、Atlas A2训练系列产品/Atlas A2推理系列产品：
- query Q_N支持小于等于64。

调用示例

调用方式	样例代码	说明
aclnn接口	test_aclnn_lightning_indexer	通过 aclnnLightningIndexer 接口方式调用算子