文件最后提交记录最后更新时间
LightningIndexer修复aclnn资料描述 Co-authored-by: zzzyh22<zhangyaohui22@huawei.com> # message auto-generated for no-merge-commit merge: !3796 merge aclnnLI into master LightningIndexer修复aclnn资料描述 Created-by: zzzyh22 Commit-by: zzzyh22 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> LightningIndexer中修复误改的两段式接口固定写法表达。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 更新了aclnnLightningIndexer.md文件 ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!37961 个月前
LightningIndexer aclnn示例修改 Co-authored-by: zzzyh22<zhangyaohui22@huawei.com> # message auto-generated for no-merge-commit merge: !3671 merge test into master LightningIndexer aclnn示例修改 Created-by: zzzyh22 Commit-by: zzzyh22 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> LightningIndexer算子修正aclnn文档内容,以及example输出类型和格式修复。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 更新了aclnnLightningIndexer.md文件。 ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!36711 个月前
LI A5 Co-authored-by: 我是石头人大王<luohao148@huawei.com> # message auto-generated for no-merge-commit merge: !2973 merge master into master LI A5 Created-by: lhlll Commit-by: 我是石头人大王 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> A5 LI算子实现 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/1954 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!29731 个月前
fix: VF分组补充和cleancode Co-authored-by: j60100428<jingsong5@h-partners.com> # message auto-generated for no-merge-commit merge: !6019 merge master into master fix: VF分组补充和cleancode Created-by: SH_jingsong Commit-by: j60100428 Merged-by: cann-robot Description: ## 描述 VF分组补充和cleancode ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/2714 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!60192 天前
fix: clean code Co-authored-by: j60100428<jingsong5@h-partners.com> # message auto-generated for no-merge-commit merge: !6033 merge master into master fix: clean code Created-by: SH_jingsong Commit-by: j60100428 Merged-by: cann-robot Description: ## 描述 fix: clean code ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/2731 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!60331 天前
更新license Co-authored-by: PerrySkywalker<wangmingkang1@huawei.com> # message auto-generated for no-merge-commit merge: !568 merge lic into master 更新license Created-by: PerrySkywalker Commit-by: PerrySkywalker Merged-by: cann-robot Description: ## 描述 更新license <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-transformer!5685 个月前
修改LI资料 Co-authored-by: number-2-bo-bo<jinying22@huawei.com> # message auto-generated for no-merge-commit merge: !5393 merge master into master 修改LI资料 Created-by: jinyingbo Commit-by: number-2-bo-bo Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 修改LI readme A5相关资料 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2472 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> 更新了attention\lightning_indexer\README.md ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [x] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!53939 天前
README.md

LightningIndexer

产品支持情况

产品 是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品
Atlas 200I/500 A2 推理产品 ×
Atlas 推理系列产品 ×
Atlas 训练系列产品 ×

功能说明

  • 算子功能:lightning_indexer基于一系列操作得到每一个token对应的Top-kk个位置。

  • 计算公式:

    Indices=Top-k{[1]1×g@[(W@[1]1×Sk)⊙ReLU(Qindex@KindexT)]}Indices=\text{Top-}k\left\{[1]_{1\times g}@\left[(W@[1]_{1\times S_{k}})\odot\text{ReLU}\left(Q_{index}@K_{index}^T\right)\right]\right\}

    对于某个token对应的Index Query Qindex∈Rg×dQ_{index}\in\R^{g\times d},给定上下文Index Key Kindex∈RSk×d,W∈Rg×1K_{index}\in\R^{S_{k}\times d},W\in\R^{g\times 1},其中gg为GQA对应的group size,dd为每一个头的维度,SkS_{k}是上下文的长度。

参数说明

参数名 输入/输出/属性 描述 数据类型 数据格式
query 输入
  • 公式中的输入Q。
  • 不支持空tensor和非连续。
  • layout_query为BSND时,shape为(B,S1,N1,D);layout_query为TND时,shape为(T1,N1,D)。
FLOAT16、BFLOAT16 ND
key 输入
  • 公式中的输入K。
  • 不支持空tensor和非连续。
  • layout_key为PA_BSND时,shape为(block_num, block_size, N2, D),其中block_num为PageAttention时block总数、block_size为一个block的token数;layout_key为BSND时,shape为(B, S2, N2, D);layout_key为TND时,shape为(T2, N2, D)。
FLOAT16、BFLOAT16 ND
weights 输入
  • 公式中的输入W。
  • 不支持空tensor和非连续。
  • layout_query为BSND时,shape为(B,S1,N1);layout_query为TND时,shape为(T1,N1)。
FLOAT16、BFLOAT16、FLOAT ND
actual_seq_lengths_query 输入
  • 每个Batch中Query的有效token数。
  • 不支持空tensor和非连续。
  • 可传入None表示与query的S长度相同。
  • 支持长度为B的一维tensor,且每个Batch的有效token数不超过query中的维度S大小且不小于0。layout_query为TND时该入参必须传入,并以元素数量作为B值。
  • 每个元素表示当前batch与之前所有batch的token数总和,即前缀和,因此后一个元素的值必须大于等于前一个元素的值。
INT32 ND
actual_seq_lengths_key 输入
  • 每个Batch中Key的有效token数。
  • 不支持空tensor和非连续。
  • 可传入None表示与key的S长度相同。
  • 支持长度为B的一维tensor,且每个Batch的有效token数不超过key/value中的维度S大小且不小于0。
  • layout_key为TND或PA_BSND时该入参必须传入;其中layout_key为TND时,每个元素表示当前batch与之前所有batch的token数总和,即前缀和,因此后一个元素的值必须大于等于前一个元素的值。
INT32 ND
block_table 输入
  • 表示PageAttention中KV存储使用的block映射表。
  • 不支持空tensor和非连续。
  • PageAttention场景下,block_table必须为二维,第一维长度需要等于B,第二维长度不能小于maxBlockNumPerSeq(每个batch中最大actual_seq_lengths_key对应的block数量)。
  • shape支持(B,S2/block_size)。
INT32 ND
layout_query 属性
  • 用于标识输入Query的数据排布格式。
  • 默认值为"BSND",当前支持BSND、TND。
STRING -
layout_key 属性
  • 用于标识输入Key的数据排布格式。
  • 默认值为"BSND",当前支持PA_BSND、BSND、TND。
STRING -
sparse_count 属性
  • topK阶段需要保留的block数量。
  • 支持[1, 2048],以及3072、4096、5120、6144、7168、8192。
  • 默认值为2048。
INT32 -
sparse_mode 属性
  • 表示sparse的模式。
  • sparse_mode为0时代表defaultMask模式。
  • sparse_mode为3时代表rightDownCausal模式的mask,对应以右顶点为划分的下三角场景。
  • 默认值为3。
INT32 -
pre_tokens 属性 用于稀疏计算,表示attention需要和前几个Token计算关联,仅支持默认值2^63-1。 INT64 -
next_tokens 属性 用于稀疏计算,表示attention需要和后几个Token计算关联,仅支持默认值2^63-1。 INT64 -
return_values 属性
  • 表示是否输出sparseValuesOut。
  • True表示输出,False表示不输出,默认值为False。仅在训练且layout_key不为PA_BSND场景支持。
BOOL -
sparse_indices 输出
  • 公式中的Indices输出。
  • 不支持空tensor和非连续。
  • layout_query为BSND时输出shape为[B, S1, N2, sparseCount];layout_query为TND时输出shape为[T1, N2, sparseCount]。
INT32 -
sparse_values 输出
  • 公式中的Indices输出对应的value值。
  • 不支持空tensor和非连续。
  • shape与sparseIndicesOut保持一致。
FLOAT16、BFLOAT16 ND

约束说明

  • 该接口支持图模式。
  • 参数key中的N2支持1。
  • headdim支持128。
  • block_size取值为16的倍数,最大支持1024。
  • 参数query、key的数据类型应保持一致。
  • 参数weights不为float32时,参数query、key、weights的数据类型应保持一致。
  • Ascend 950PR/Ascend 950DT:
    • query N1仅支持8、16、24、32、64。
    • 参数weights不支持float32类型。
  • A3 训练系列产品/Atlas A3 推理系列产品:
    • query N1支持小于等于64。

调用示例

调用方式 样例代码 说明
aclnn接口 test_aclnn_lightning_indexer 通过 aclnnLightningIndexer 接口方式调用算子