c1d937ae创建于 3 天前历史提交

文件	最后提交记录	最后更新时间
docs	mc2/all_gather_matmul_v2: support n=0 null tensor Co-authored-by: Zhiqi Song<songzhiqi1@huawei.com> # message auto-generated for no-merge-commit merge: !5688 merge master-dev into master mc2/all_gather_matmul_v2: support n=0 null tensor Created-by: captainmiaow Commit-by: Zhiqi Song Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2658 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!5688	7 天前
examples	AllGatherMatmulV2算子A4W4场景Tiling策略优化 Co-authored-by: zhumingzhe 00880305<zhumingzhe2@huawei.com> # message auto-generated for no-merge-commit merge: !3090 merge auto_tune into master AllGatherMatmulV2算子A4W4场景Tiling策略优化 Created-by: zhu-mingzhe71 Commit-by: zhumingzhe 00880305 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 优化AllGatherMatmulV2算子A4W4场景Tiling策略，提升性能 ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/1426 <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [x] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!3090	2 个月前
op_api	mc2/all_gather_matmul_v2: support n=0 null tensor Co-authored-by: Zhiqi Song<songzhiqi1@huawei.com> # message auto-generated for no-merge-commit merge: !5688 merge master-dev into master mc2/all_gather_matmul_v2: support n=0 null tensor Created-by: captainmiaow Commit-by: Zhiqi Song Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2658 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!5688	7 天前
op_graph	mc2/allgathermmV2: kernel support InitV2 and AICPU Co-authored-by: Zhiqi Song<songzhiqi1@huawei.com> # message auto-generated for no-merge-commit merge: !4956 merge master into master mc2/allgathermmV2: kernel support InitV2 and AICPU Created-by: captainmiaow Commit-by: Zhiqi Song Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> A5 all_gather_matmul_v2 support AICPU communication mode Control the communication mode (AICPU or CCU) via environment variables. If no configuration is set by default, the CCU communication mode will be used. To enable the environment variable by: export HCCL_OP_EXPANSION_MODE="AI_CPU" export ENV_MC2_COMM_MODE_AICPU=1 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2469 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [x ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!4956	15 天前
op_host	fix: 修复 cleancode 告警 Co-authored-by: libohao6<libohao3@huawei.com> # message auto-generated for no-merge-commit merge: !5954 merge fix/cleancode-master into master fix: 修复 cleancode 告警 Created-by: libohao6 Commit-by: libohao6 Merged-by: cann-robot Description: ## 描述修复基础算子主线cleancode问题。 ## 关联的Issue [Bug-Report\|缺陷反馈]: MC2基础算子主线存在cleancode问题 #2676 ## 测试二级冒烟。 ## 文档更新不涉及。 ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： # PR #5489 代码检视报告 PR: https://gitcode.com/cann/ops-transformer/pull/5489 标题: merge 'fix-cleancode-issues' into 'master' 作者: libohao6 \| 范围: 19 files, +453 -531 \| 日期: 2026-05-21 --- ## 改动分类 \| 类型 \| 改动数 \| 说明 \| \|------\|-------\|------\| \| 删除未使用函数 \| 5个 \| matmul_util.cpp删3个static函数 + aclnn_matmul_reduce_scatter_v2.cpp删CreateWinTensor \| \| 删除冗余变量 \| 2个 \| x1Dtype/biasDtype 在 aclnn_weight_quant_matmul_all_reduce.cpp \| \| const修饰添加 \| 5处 \| 多个Tiling函数context参数加const \| \| 位操作类型修复 \| 1处 \| int32_t code → uint32_t bitCode \| \| 魔法数字→常量 \| 1处 \| alignas(8) → alignas(L2_CACHE_ALIGNMENT) \| \| 变量重命名 \| 多处 \| Kernel侧blockLocCoord→blockLocCoord_等; Host侧index→idx/i \| \| 参数名拼写修正 \| 1处 \| rcfCfg→rcsCfg \| \| include guard \| 1处 \| matmul_reduce_scatter_v2_tiling_common.h \| \| 头文件清理 \| 3处 \| 移除冗余#include \| \| 未使用参数标记 \| 5处 \| (void)opType等 \| \| 注释风格更新 \| 大量 \| 决策树层级注释从======改为差异化标记 \| \| 代码格式修复 \| 多处 \| 空格/缩进/换行 \| --- ## 假设检验检视结果 ### 1. 删除未使用函数 ✅ PASS 涉及文件: `matmul_util.cpp`, `aclnn_matmul_reduce_scatter_v2.cpp` 删除5个static函数（CheckShapeValidWithTrans、ProcessEmptyTensor、ProcessEmptyTensorWithTrans、GetMatmulOpInfoWithTrans、CreateWinTensor）。均为static，无跨文件引用风险。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 5.2 资源泄露防护 \| 删除是否遗漏调用点 \| ✅ static函数仅文件内可见 \| ### 2. const修饰添加 ✅ PASS 涉及文件: `all_gather_matmul_tiling_base.cpp/.h`, `quant_all_reduce_tiling.cpp`, `quant_reduce_scatter_tiling.cpp` `gert::TilingContext context` → `const gert::TilingContext context`。GetNodeName()、GetAttrPointer()等方法为const兼容，头文件声明同步更新。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 1.1 静态类型安全 \| const修饰是否导致编译错误 \| ✅ 方法兼容const \| ### 3. 位操作类型修复 ✅ PASS 涉及文件: `matmul_reduce_scatter_v2_aiv_mode_tiling.cpp` `int32_t code` → `uint32_t bitCode`。对有符号数做右移(>>=)存在符号扩展问题，改为uint32_t消除风险。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 2.1 有符号整数不溢出 \| int32_t右移符号扩展 \| ✅ 修复正确 \| \| cpp-secure 2.2 无符号整数不回绕 \| uint32_t位操作安全 \| ✅ \| ### 4. 魔法数字→常量 ✅ PASS 涉及文件: `unquant_matmul_all_reduce_tiling_data.h` `static constexpr size_t L2_CACHE_ALIGNMENT = 8;` 替换 `alignas(8)`。值等价，不影响ABI。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 10.4 结构体字段末尾添加 \| 常量定义位置 \| ✅ 不影响ABI \| ### 5. 冗余变量删除 ✅ PASS 涉及文件: `aclnn_weight_quant_matmul_all_reduce.cpp` 删除 `const auto x1Dtype = x1->GetDataType(); const auto biasDtype = bias->GetDataType();`。两变量后续无引用，OP_CHECK_DTYPE_NOT_SAME宏自行获取dtype。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 3.1 禁止未初始化变量 \| 删除后功能等价 \| ✅ \| ### 6. 参数名拼写修正 ✅ PASS 涉及文件: `matmul_reduce_scatter_tiling_base.cpp` `rcfCfg` → `rcsCfg`（RCS=ReduceScatter拼写修正）。所有引用已同步替换。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| MC2 MC2-13 CCU通信数据量限制 \| AdjustHCCLLimit逻辑是否保留 \| ✅ 256MB限制保留 \| ### 7. include guard添加 ✅ PASS 涉及文件: `matmul_reduce_scatter_v2_tiling_common.h` 新增 `#ifndef MATMUL_REDUCE_SCATTER_V2_TILING_COMMON_H` 保护。命名与文件路径一致。 ### 8. 未使用参数标记 ✅ PASS 涉及文件: `quant_reduce_scatter_util_tiling.cpp` 添加 `(void)opType; (void)context; (void)xDimNum; (void)outputDim;` 消除编译器警告。注释声明"Reserved for future extension"。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| TOPK TOPK-7 外部输入校验 \| 校验逻辑是否削弱 \| ✅ 未削弱 \| ### 9. LOG参数安全 ✅ PASS 涉及文件: `allto_allv_quant_grouped_mat_mul_tiling_base.cpp` 循环变量 `index` → `idx`/`i`。`sendCounts[%lu] should be in [0, %lu], but get %lu` — 3个%lu对应3个uint64_t(idx, bsk_, sendCounts[idx])，类型和数量匹配。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 11.2 参数数量与占位符匹配 \| 3个%lu=3个uint64_t \| ✅ \| \| cpp-secure 11.3 参数类型与格式化说明符匹配 \| uint64_t用%lu \| ✅ \| \| MC2 MC2-07 专家参数合法性校验 \| sendCounts/recvCounts校验完整 \| ✅ \| ### 10. 头文件清理 ✅ PASS 涉及文件: `matmul_reduce_scatter_tiling_base.h`, `quant_reduce_scatter_util_tiling.h`, `all_gather_matmul_tiling_base.h` 移除冗余 `#include "ops_utils.h"` 和 `#include "mc2_log.h"`。 --- ## 规范条款引用汇总 \| 规范来源 \| 条款编号 \| 条款名称 \| 检查结果 \| \|---------\|---------\|---------\|---------\| \| cpp-secure.md \| 1.1 \| 保证静态类型安全 \| ✅ \| \| cpp-secure.md \| 2.1 \| 有符号整数运算不溢出 \| ✅ \| \| cpp-secure.md \| 2.2 \| 无符号整数运算不回绕 \| ✅ \| \| cpp-secure.md \| 3.1 \| 禁止使用未初始化的变量 \| ✅ \| \| cpp-secure.md \| 5.2 \| 资源泄露防护 \| ✅ \| \| cpp-secure.md \| 10.4 \| 结构体字段末尾添加 \| ✅ \| \| cpp-secure.md \| 11.2 \| LOG参数数量与占位符必须匹配 \| ✅ \| \| cpp-secure.md \| 11.3 \| LOG参数类型与格式化说明符必须匹配 \| ✅ \| \| mc2-specific.md \| MC2-07 \| 专家参数合法性校验 \| ✅ \| \| mc2-specific.md \| MC2-13 \| CCU通信数据量限制 \| ✅ \| \| ascendc-topk.md \| TOPK-1 \| 必须校验函数返回值 \| ✅ \| \| ascendc-topk.md \| TOPK-7 \| 融合规则/InferShape/Tiling外部输入校验 \| ✅ \| --- ## 总体结论 ✅ 无问题 — PR #5489 为代码清理类改动，所有10项检视均PASS。改动不引入安全风险，不削弱校验逻辑，规范合规性100%。 See merge request: cann/ops-transformer!5954	3 天前
op_kernel	修复AllGatherMatmulV2算子扫描出来的overflow风险 Co-authored-by: zhu-mingzhe71<zhumingzhe2@huawei.com> # message auto-generated for no-merge-commit merge: !6013 merge fix_overflow into master 修复AllGatherMatmulV2算子扫描出来的overflow风险 Created-by: zhu-mingzhe71 Commit-by: zhu-mingzhe71 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 经过工具扫描，发现AllGatherMatmulV2算子部分代码在大shape场景下存在溢出风险，导致内存踩踏 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!6013	5 天前
tests	提升all_gather_matmul_v2算子ut覆盖率 Co-authored-by: chenyifan<chenyifan66@h-partners.com> # message auto-generated for no-merge-commit merge: !5583 merge agm_v2_ut into master 提升all_gather_matmul_v2算子ut覆盖率 Created-by: mutex_lock Commit-by: chenyifan Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 提升all_gather_matmul_v2算子ut覆盖率 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2341 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [x] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!5583	12 天前
CMakeLists.txt	add new ops: all_gather_mamtul_v2、matmul_reduce_scatter_v2；update all_gather_mamtul、matmul_reduce_scatter、matmul_all_reduce、moe_update_expert to support Ascend950 Co-authored-by: cann-robot<songchangxia@cann.team> Co-authored-by: lidongsheng<lidongsheng43@huawei.com> # message auto-generated for no-merge-commit merge: !986 merge develop into master add new ops: all_gather_mamtul_v2、matmul_reduce_scatter_v2；update all_gather_mamtul、matmul_reduce_scatter、matmul_all_reduce、moe_update_expert to support Ascend950 Created-by: qq_46353993 Commit-by: cann-robot;lidongsheng Merged-by: cann-robot Description: ## 描述支持新算子all_gather_mamtul_v2、matmul_reduce_scatter_v2；all_gather_mamtul、matmul_reduce_scatter、matmul_all_reduce、moe_update_expert支持Ascend950 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-transformer!986	4 个月前
README.md	补充AllGatherMatmul的readme和aclnn头文件中关于int4的描述 Co-authored-by: zhu-mingzhe71<zhumingzhe2@huawei.com> # message auto-generated for no-merge-commit merge: !3709 merge fix_doc into master 补充AllGatherMatmul的readme和aclnn头文件中关于int4的描述 Created-by: zhu-mingzhe71 Commit-by: zhu-mingzhe71 Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> 补充AllGatherMatmul的readme和aclnn头文件中关于int4的描述 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!3709	1 个月前

AllGatherMatmulV2

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	√
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	x
Atlas 推理系列产品	x
Atlas 训练系列产品	x

功能说明

算子功能：完成AllGather通信与MatMul计算融合。在支持x1和x2输入类型为FLOAT16/BFLOAT16的基础上，同时也支持低精度数据类型，此时算子在Matmul计算后会做对应的反量化计算，支持的低精度数据类型与量化方式如下：
- Ascend 950PR/Ascend 950DT：
  
  新增了对低精度数据类型FLOAT8_E4M3FN/FLOAT8_E5M2/HIFLOAT8的支持。支持pertensor、perblock、mx量化方式。
- Atlas A3 训练系列产品/Atlas A3 推理系列产品、Atlas A2 训练系列产品/Atlas A2 推理系列产品：
  
  新增了对低精度数据类型INT8/INT4的支持。支持pertoken/perchannel量化方式。
计算公式：
- 情形1：如果x1和x2数据类型为FLOAT16/BFLOAT16时，入参x1进行AllGather后，对x1、x2进行MatMul计算。
$o u t p u t = A l l G a t h e r (x 1) @ x 2 + b i a s$

$g a t h e r O u t = A l l G a t h e r (x 1)$
- 情形2：如果x1和x2数据类型为FLOAT8_E4M3FN/FLOAT8_E5M2/HIFLOAT8的pertensor场景，或者x1和x2数据类型为INT8/INT4的perchannel、pertoken场景，且不输出amaxOut，入参x1进行AllGather后，对x1、x2进行MatMul计算，然后进行dequant操作。
$o u t p u t = (x 1 S c a l e * x 2 S c a l e) * (A l l G a t h e r (x 1) @ x 2 + b i a s)$

$g a t h e r O u t = A l l G a t h e r (x 1)$
- 情形3：如果x1和x2数据类型为FLOAT8_E4M3FN/FLOAT8_E5M2/HIFLOAT8的perblock场景，且不输出amaxOut, 当x1为(m, k)、x2为(k, n)时， x1Scale为(ceildiv(m, 128)， ceildiv(k, 128))、x2Scale为(ceildiv(k, 128), ceildiv(n, 128))时，入参x1和x1Scale进行AllGather后，对x1、x2进行perblock量化MatMul计算，然后进行dequant操作。
  $output=∑0⌊kblockSize=128⌋(AllGather(x1)pr@x2rq∗(AllGather(x1Scale)pr∗x2Scalerq))output=\sum_{0}^{\left \lfloor \frac{k}{blockSize=128} \right \rfloor} (AllGather(x1)_{pr}@x2_{rq}*(AllGather(x1Scale)_{pr}*x2Scale_{rq}))$ $g a t h e r O u t = A l l G a t h e r (x 1)$
- 情形4：如果x1和x2数据类型为FLOAT8_E4M3FN/FLOAT8_E5M2的mx量化场景，x1为(m, k)、x2 为(n, k)，且x1Scale为(m, ceilDiv(k, 64), 2)、x2Scale为(n, ceilDiv(k, 64), 2)，入参x1和x1Scale进行AllGather后，对x1、x2进行MatMul计算，然后进行dequant操作；
  $output=∑0⌊kblockSize=32⌋(AllGather(x1)pr@x2rq∗(AllGather(x1Scale)pr∗x2Scalerq))output=\sum_{0}^{\left \lfloor \frac{k}{blockSize=32} \right \rfloor} (AllGather(x1)_{pr}@x2_{rq}*(AllGather(x1Scale)_{pr}*x2Scale_{rq}))$ $g a t h e r O u t = A l l G a t h e r (x 1)$

参数说明

参数名	输入/输出/属性	描述	数据类型	数据格式
x1	输入	MM左矩阵，即计算公式中的x1。	FLOAT16、BFLOAT16、FLOAT8_E4M3FN、FLOAT8_E5M2、HIFLOAT8、INT8、INT4	ND
x2	输入	MM右矩阵，即计算公式中的x2。	FLOAT16、BFLOAT16、FLOAT8_E4M3FN、FLOAT8_E5M2、HIFLOAT8、INT8、INT4	ND
bias	可选输入	即计算公式中的bias。	FLOAT16、BFLOAT16、FLOAT	ND
x1Scale	可选输入	mm左矩阵反量化参数。	FLOAT16、BFLOAT16、FLOAT	ND
x2Scale	可选输入	mm右矩阵反量化参数。	FLOAT16、BFLOAT16、FLOAT	ND
quantScale	可选输入	即计算公式中的bias。	FLOAT	ND
output	输出	AllGather通信与MatMul计算的结果，即计算公式中的output。	FLOAT16、BFLOAT16、FLOAT	ND
gatherOut	输出	仅输出all_gather通信后的结果。即公式中的gatherOut。	FLOAT16、BFLOAT16、FLOAT8_E4M3FN、FLOAT8_E5M2、HIFLOAT8、INT8、INT4	ND
amaxOut	可选输出	MM计算的最大值结果，即公式中的amaxOut。	FLOAT	ND
blockSize	属性	用于表示mm输出矩阵在M轴方向上和N轴方向上可以用于对应方向上的多少个数的量化。	INT64	-
group	属性	通信域名称。	STRING	-
gatherIndex	属性	标识gather目标。	INT64	-
commTurn	属性	通信数据切分数，即总数据量/单次通信量。	INT64	-
streamMode	属性	流模式的枚举。	INT64	-
groupSize	可选属性	用于表示反量化中x1Scale/x2Scale输入的一个数在其所在的对应维度方向上可以用于该方向x1/x2输入的多少个数的反量化。	INT64	-
commMode	属性	通信模式。	STRING	-

## 约束说明

确定性计算：
- 该算子默认确定性实现。
Ascend 950PR/Ascend 950DT：
- 输入x1为2维，其维度为(m, k)。x2必须是2维，其维度为(k, n)，轴满足mm算子入参要求，k轴相等，且k轴取值范围为[256, 65535)。
- bias为1维，shape为(n,)。
- 输出output为2维，其维度为(m*rank_size, n)，rank_size为卡数。
- 输出gatherout为2维，其维度为(m*rank_size, k)，rank_size为卡数。
- 当x1、x2的数据类型为FLOAT16/BFLOAT16时，output计算输出数据类型和x1、x2保持一致。
- 当x1、x2的数据类型为FLOAT8_E4M3FN/FLOAT8_E5M2/HIFLOAT8时，output输出数据类型支持FLOAT16、BFLOAT16、FLOAT。
- 当x1、x2的数据类型为FLOAT16/BFLOAT16/HIFLOAT8时，x1和x2数据类型需要保持一致。
- 当x1、x2数据类型为FLOAT8_E4M3FN/FLOAT8_E5M2时，x1和x2数据类型可以为其中一种。
- 当x1、x2数据类型为FLOAT16/BFLOAT16/HIFLOAT8/FLOAT8_E4M3FN/FLOAT8_E5M2时，x2矩阵支持转置/不转置场景，x1矩阵只支持不转置场景。
- 当groupSize取值为549764202624，bias必须为空。
- 支持2、4、8、16、32、64卡。
- allgather(x1)集合通信数据总量不能超过16*256MB，集合通信数据总量计算方式为：m * k * sizeof(x1_dtype) * 卡数。由于shape不同，算子内部实现可能存在差异，实际支持的总通信量可能略小于该值。
Atlas A3 训练系列产品/Atlas A3 推理系列产品、Atlas A2 训练系列产品/Atlas A2 推理系列产品：
- 只支持x2矩阵转置/不转置，x1矩阵仅支持不转置场景。
- 输入x1必须是2维，其shape为(m, k)。
- 输入x2必须是2维，其shape为(k, n)，轴满足mm算子入参要求，k轴相等，且k轴取值范围为[256, 65535)。
- bias仅支持输入nullptr。
- 输出为2维，其shape为(m*rank_size, n), rank_size为卡数。
- 不支持空tensor。
- x1和x2的数据类型需要保持一致。
- x1和x2数据类型为INT4时，k与n必须为偶数。
- 支持2、4、8卡。

调用说明

调用方式	样例代码	说明
aclnn接口	test_aclnn_all_gather_matmul_v2	通过aclnnAllGatherMatmulV2接口方式调用AllGatherMatmulV2算子。