文件最后提交记录最后更新时间
增加mmalltoall校验和ut用例 Co-authored-by: qzzzy1<qiziyu2@huawei.com> # message auto-generated for no-merge-commit merge: !5078 merge master into master 增加mmalltoall校验和ut用例 Created-by: qzzzy1 Commit-by: qzzzy1 Merged-by: cann-robot Description: ## 描述 matmulalltoall存在一些检验不足的场景,还有未覆盖的UT ## 关联的Issue 关联Issue 2316 ## 测试 rdv,本地测试 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!507816 天前
MC2算子资料完善 Co-authored-by: lyt_claire<luyitong1@huawei.com> # message auto-generated for no-merge-commit merge: !2997 merge mc2AIDD into master MC2算子资料完善 Created-by: lyt_claire Commit-by: lyt_claire Merged-by: cann-robot Description: ## 描述 修改MC2相关算子资料和示例代码 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [X] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!29971 个月前
增加mmalltoall校验和ut用例 Co-authored-by: qzzzy1<qiziyu2@huawei.com> # message auto-generated for no-merge-commit merge: !5078 merge master into master 增加mmalltoall校验和ut用例 Created-by: qzzzy1 Commit-by: qzzzy1 Merged-by: cann-robot Description: ## 描述 matmulalltoall存在一些检验不足的场景,还有未覆盖的UT ## 关联的Issue 关联Issue 2316 ## 测试 rdv,本地测试 ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!507816 天前
bugfix: groupSize Co-authored-by: yifux<xiongyifu1@huawei.com> # message auto-generated for no-merge-commit merge: !5215 merge pr_groupsize into master bugfix: groupSize Created-by: xiongyifu Commit-by: yifux Merged-by: cann-robot Description: ## 描述 修改all_to_all_matmul和matmul_all_to_all算子的fallback,添加修饰符static ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/2406 ## 测试 线上出子包验证 ![image.png](https://raw.gitcode.com/user-images/assets/7673863/173b82b6-771d-4c04-9731-11a3f8684ab9/image.png 'image.png') ![image.png](https://raw.gitcode.com/user-images/assets/7673863/5a057c61-6d9f-4e18-a512-e8ecd0465413/image.png 'image.png') rdv验证 ## 文档更新 不涉及 ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!521516 天前
修复matmulalltoall量化场景bias非bf时精度出错的问题 Co-authored-by: SimpleBright_Man<tangpanrui1@huawei.com> # message auto-generated for no-merge-commit merge: !5246 merge fixMMAAkernelEntry into master 修复matmulalltoall量化场景bias非bf时精度出错的问题 Created-by: SimpleBright_Man Commit-by: SimpleBright_Man Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 修改tilingkey,删除了quant_bf16,新增了核函数入口处的分支 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2373 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!524616 天前
修复MMAA数据溢出风险 Co-authored-by: SimpleBright_Man<tangpanrui1@huawei.com> # message auto-generated for no-merge-commit merge: !6006 merge fixMMAAOF into master 修复MMAA数据溢出风险 Created-by: SimpleBright_Man Commit-by: SimpleBright_Man Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> Agent扫描出部分变量因为校验上限为INT32_MAX而可能有溢出风险 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!60061 天前
新增UT用例,提升ut覆盖率 Co-authored-by: lixiawei<lixiawei2@h-partners.com> # message auto-generated for no-merge-commit merge: !5649 merge add_ut_case_0515 into master 新增UT用例,提升ut覆盖率 Created-by: lixiawei Commit-by: lixiawei Merged-by: cann-robot Description: ## 描述 新增UT用例,提升ut覆盖率 ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/2585 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: ## AI检视意见 总结 本次提交新增约 2118 行 UT 测试代码,覆盖了多个算子的 tiling、InferShape、InferDataType、op_api 等测试维度,测试设计合理,包含了合法场景、非法参数、空指针、空张量、非连续内存、dtype 不匹配等多种边界场景。 发现的问题均为测试代码自身健壮性问题,不涉及生产代码安全风险,建议按优先级酌情处理。 报告生成时间 2026-05-20 报告状态 已完成检视,待确认修复优先级 See merge request: cann/ops-transformer!56493 天前
MmA2A_init Co-authored-by: 何梓洋_蓝区<heziyang5@h-partners.com> # message auto-generated for no-merge-commit merge: !765 merge MmA2a_master into master MmA2A_init Created-by: Hilfsblaetter Commit-by: 何梓洋_蓝区 Merged-by: cann-robot Description: ## 描述 新增算子 MatmulAlltoAll ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [x] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他,请描述: See merge request: cann/ops-transformer!7654 个月前
MatmulAlltoAll和AlltoAllMatmul增加通信引擎约束描述 Co-authored-by: adamlwang<wangjingquan2@huawei.com> # message auto-generated for no-merge-commit merge: !5068 merge doc into master MatmulAlltoAll和AlltoAllMatmul增加通信引擎约束描述 Created-by: adamlwang Commit-by: adamlwang Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动,包括改动的原因和所采取的方法。--> 增加MatmulAlltoAll和AlltoAllMatmul的通信约束描述。 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue,请在这里提供Issue链接。例如:关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单,请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2310 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新,请在这里指出。例如:更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [x] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他,请描述: See merge request: cann/ops-transformer!506820 天前
README.md

MatmulAlltoAll

产品支持情况

产品 是否支持
Ascend 950PR/Ascend 950DT
Atlas A3 训练系列产品/Atlas A3 推理系列产品
Atlas A2 训练系列产品/Atlas A2 推理系列产品
Atlas 200I/500 A2 推理产品 ×
Atlas 推理系列产品 ×
Atlas 训练系列产品 ×

功能说明

  • 算子功能:完成量化的Matmul计算、Permute(保证通信后地址连续)和AlltoAll通信的融合,先计算后通信,支持非量化、K-C量化和mx量化模式

  • 计算公式:假设x1的shape为(BS, H1),x2的shape为(H1, H2),rankSize为NPU卡数。

    • Atlas A2 训练系列产品/Atlas A2 推理系列产品:

      • 非量化场景:

        computeOut=x1@x2+biaspermutedOut=computeOut.view(BS,rankSize,H2/rankSize).permute(1,0,2)output=AlltoAll(permutedOut).view(rankSize∗BS,H2/rankSize)computeOut = x1 @ x2 + bias \\ permutedOut = computeOut.view(BS, rankSize, H2/rankSize).permute(1, 0, 2) \\ output = AlltoAll(permutedOut).view(rankSize*BS, H2/rankSize)

      • K-C量化场景:

        computeOut=(x1@x2)∗x1Scale∗x2Scale+biaspermutedOut=computeOut.view(BS,rankSize,H2/rankSize).permute(1,0,2)output=AlltoAll(permutedOut).view(rankSize∗BS,H2/rankSize)computeOut = (x1 @ x2) * x1Scale * x2Scale + bias \\ permutedOut = computeOut.view(BS, rankSize, H2 / rankSize).permute(1, 0, 2) \\ output = AlltoAll(permutedOut).view(rankSize * BS, H2 / rankSize)

    • Atlas A3 训练系列产品/Atlas A3 推理系列产品:

      • 非量化场景:

        computeOut=x1@x2+biaspermutedOut=computeOut.view(BS,rankSize,H2/rankSize).permute(1,0,2)output=AlltoAll(permutedOut).view(rankSize∗BS,H2/rankSize)computeOut = x1 @ x2 + bias \\ permutedOut = computeOut.view(BS, rankSize, H2/rankSize).permute(1, 0, 2) \\ output = AlltoAll(permutedOut).view(rankSize*BS, H2/rankSize)

    • Ascend 950PR/Ascend 950DT:

      • 非量化场景:

        computeOut=x1@x2+biaspermutedOut=computeOut.view(BS,rankSize,H2/rankSize).permute(1,0,2)output=AlltoAll(permutedOut).view(rankSize∗BS,H2/rankSize)computeOut = x1 @ x2 + bias \\ permutedOut = computeOut.view(BS, rankSize, H2/rankSize).permute(1, 0, 2) \\ output = AlltoAll(permutedOut).view(rankSize*BS, H2/rankSize)

      • K-C量化场景:

        computeOut=(x1@x2+bias)∗x1Scale∗x2ScalepermutedOut=computeOut.view(BS,rankSize,H2/rankSize).permute(1,0,2)output=AlltoAll(permutedOut).view(rankSize∗BS,H2/rankSize)computeOut = (x1 @ x2 + bias) * x1Scale * x2Scale \\ permutedOut = computeOut.view(BS, rankSize, H2 / rankSize).permute(1, 0, 2) \\ output = AlltoAll(permutedOut).view(rankSize * BS, H2 / rankSize)

      • mx量化场景:

        computeOut=∑0⌊kblockSize=32⌋(x1@x2∗(x1Scale∗x2Scale))+biaspermutedOut=computeOut.view(BS,rankSize,H2/rankSize).permute(1,0,2)output=AlltoAll(permutedOut).view(rankSize∗BS,H2/rankSize)computeOut = \sum_{0}^{\left \lfloor \frac{k}{blockSize=32} \right \rfloor} (x1 @ x2 * (x1Scale * x2Scale)) + bias \\ permutedOut = computeOut.view(BS, rankSize, H2 / rankSize).permute(1, 0, 2) \\ output = AlltoAll(permutedOut).view(rankSize * BS, H2 / rankSize)

参数说明​

参数名 输入/输出/属性 描述 数据类型 数据格式
x1 输入 MatMul左矩阵,即公式中的输入x1。 FLOAT16、BFLOAT16、FLOAT8_E4M3FN、FLOAT8_E5M2、FLOAT4_E2M1、INT8 ND
x2 输入 MatMul右矩阵,即公式中的输入x2。 FLOAT16、BFLOAT16、FLOAT8_E4M3FN、FLOAT8_E5M2、FLOAT4_E2M1、INT8 ND
bias 可选输入 可选输入,阵乘运算后累加的偏置,对应公式中的bias。 FLOAT16、BFLOAT16、FLOAT32 ND
x1_scale 可选输入 左矩阵的量化系数,对应公式中的x1Scale。 FLOAT32、FLOAT8_E8M0 ND
x2_scale 可选输入 右矩阵的量化系数,对应公式中的x2Scale。 FLOAT32、FLOAT8_E8M0 ND
comm_scale 可选输入 预留参数,低比特通信的量化系数。 - -
x1_offset 可选输入 预留参数,左矩阵的量化偏置。 - -
x2_offset 可选输入 预留参数,右矩阵的量化偏置。 - -
y 输出 计算+通信的结果,即公式中的输出output。 FLOAT16、BFLOAT16、FLOAT32 ND
group 必选属性 Host侧标识列组的字符串,即通信域名称,通过Hccl接口HcclGetCommName获取commName作为该参数,字符串长度要求(0, 128)。 STRING -
world_size 必选属性 使用的npu卡数,公式中的rankSize。 INT -
all2all_axes 可选属性 AlltoAll和Permute数据交换的方向,支持配置空或者[-1, -2],传入空时默认按[-1, -2]处理,表示将输入由(BS, H2)转为(BS*rankSize, H2/rankSize)。 aclIntArray*(元素类型INT64) -
x1_quant_mode 可选属性 左矩阵的量化方式,按照实际场景配置。 INT -
x2_quant_mode 可选属性 右矩阵的量化方式,按照实际场景配置。 INT -
comm_quant_mode 可选属性 低比特通信的量化方式,预留参数,当前仅支持配置为0,表示不量化。 INT -
comm_quant_dtype 可选属性 低比特通信的量化类型,预留参数,当前仅支持配置为-1,表示ACL_DT_UNDEFINED。 INT -
transpose_x1 可选属性 标识左矩阵是否转置过,暂不支持配置为True。 bool -
transpose_x2 可选属性 标识右矩阵是否转置过,配置为True时右矩阵Shape为(H2,H1)。 bool -
group_size 可选属性 用于Matmul计算三个方向上的量化分组大小,仅在scale输入都是2维及以上数据时取值有效,其他场景默认传入0即可。 INT -

x1QuantMode、x2QuantMode、commQuantMode的枚举值与量化模式关系如下:

  • 0: 不量化
  • 1: pertensor
  • 2: perchannel
  • 3: pertoken
  • 4: pergroup
  • 5: perblock
  • 6: mx量化
  • 7: pertoken动态量化

约束说明

  • 默认支持确定性计算。
  • NPU卡数(world_size),根据设备型号有不同限制:
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品:支持2、4、8卡。
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持2、4、8、16卡。
    • Ascend 950PR/Ascend 950DT:支持2、4、8、16卡。
  • 空tensor和非连续tensor的支持度根据不同设备型号有不同的限制:
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品:不支持任何空tensor;不支持任何非连续tensor。
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品、Ascend 950PR/Ascend 950DT:仅支持非量化场景下输入x1的第一维度(BS)为0的空tensor,其它空tensor均不支持;仅支持输入x2的转置非连续tensor,其它非连续tensor均不支持。
  • 输入x1必须是2维,其shape为(BS, H1),BS*rankSize和H2的值不得超过2147483647(INT32_MAX)。
  • 输入x2必须是2维,其shape为(H1, H2),H2必须整除NPU卡数,H1范围仅支持[1,65535],H2的值不超过2147483647(INT32_MAX)。
  • bias若非空,其维度必须为1维,shape为(H2)。
  • x1_scale若非空,在mx量化场景时,其维度为3维,shape为(BS, ceil(H1/64), 2);其它场景中其维度为1维,shape为(BS)。
  • x2_scale若非空,在mx量化场景时,其维度为3维,shape为(H2, ceil(H1/64), 2);其它场景中其维度为1维,shape为(H2)。
  • all2all_axes为1维数组,shape必须为(2)。
  • 目前支持的量化模式,根据设备型号有不同限制:
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品:支持K-C量化模式,x1QuantMode=3,x2QuantMode=2。
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品:目前不支持量化场景。
    • Ascend 950PR/Ascend 950DT:支持K-C量化模式,x1QuantMode=3,x2QuantMode=2;mx量化模式,x1QuantMode=6,x2QuantMode=6。
  • 非量化场景x1、x2计算输入的数据类型要和output计算输出的数据类型一致,传入的x1、x2与output均不为空指针。
  • 量化场景传入的x1、x2、x1Scale、x2Scale与output均不为空指针,且
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品:bias不支持传入空指针。
  • x1、x2和bias计算输入的数据类型根据不同设备型号有不同的限制:
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品:
      • 非量化场景下,x1/x2计算输入的数据类型为FLOAT16时,bias计算输入的数据类型支持FLOAT16;x1/x2计算输入的数据类型为BFLOAT16时,bias计算输入的数据类型支持FLOAT32。
      • 量化场景下,支持K-C量化模式后加bias,x1、x2计算输入的数据类型必须为INT8;output计算输出的数据类型为BFLOAT16时,bias的数据类型为FLOAT或BFLOAT16;output的数据类型为FLOAT16时,bias的数据类型为FLOAT16。
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品:
      • 非量化场景下,output计算输出的数据类型为FLOAT16时,bias计算输入的数据类型支持FLOAT16;output计算输出的数据类型为BFLOAT16时,bias计算输入的数据类型支持FLOAT32。
      • A3目前不支持量化场景。
    • Ascend 950PR/Ascend 950DT:
      • 非量化场景下,x1/x2计算输入的数据类型为FLOAT16时,bias计算输入的数据类型支持FLOAT16和FLOAT32;x1/x2计算输入的数据类型为BFLOAT16时,bias计算输入的数据类型支持BFLOAT16和FLOAT32。
      • 量化场景下,支持K-C量化模式和mx量化模式,x1、x2计算输入的数据类型为FLOAT8_E4M3FN、FLOAT8_E5M2、FLOAT4_E2M1,bias的数据类型为FLOAT32或者bias为空,具体类型组合详见量化aclnn约束说明
      • mx量化模式下,当x1和x2的数据类型为FLOAT4_E2M1时,两者的数据类型必须一致。
  • 通算融合算子不支持并发调用,不同的通算融合算子也不支持并发调用。
  • 不支持跨超节点通信,只支持超节点内。
  • 通信引擎约束:
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品:支持MTE通信。
    • Atlas A3 训练系列产品/Atlas A3 推理系列产品:支持AICPU通信。
    • Ascend 950PR/Ascend 950DT:支持CCU通信。

调用说明

调用方式 样例代码 说明
aclnn接口 test_aclnn_matmul_allto_all.cpp 通过aclnnMatMulAlltoAll接口方式调用非量化场景的MatMulAlltoAll算子。
aclnn接口 test_aclnn_quant_matmul_allto_all.cpp 通过aclnnQuantMatMulAlltoAll接口方式调用量化场景的MatMulAlltoAll算子。