c847b7b3创建于 7 天前历史提交

文件	最后提交记录	最后更新时间
docs	modify quant_reduce_scatter & quant_all_reduce markdown Co-authored-by: yifux<xiongyifu1@huawei.com> # message auto-generated for no-merge-commit merge: !5046 merge pr_docs into master modify quant_reduce_scatter & quant_all_reduce markdown Created-by: xiongyifu Commit-by: yifux Merged-by: cann-robot Description: ## 描述修改QuantReduceScatter和QuantAllReduce两个算子的markdown文件描述。 ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/2293 ## 测试无 ## 文档更新 mc2\quant_reduce_scatter\docs\aclnnQuantReduceScatter.md mc2\quant_reduce_scatter\README.md mc2\quant_all_reduce\docs\aclnnQuantAllReduce.md mc2\quant_all_reduce\README.md ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [x] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!5046	20 天前
examples	quant_reduce_scatter ut Co-authored-by: gong-zhihao<gongzhihao1@hisilicon.com> # message auto-generated for no-merge-commit merge: !1078 merge master into master quant_reduce_scatter ut Created-by: gong-zhihao Commit-by: gong-zhihao Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-transformer!1078	3 个月前
op_api	【MC2】修改mc2的aclnninner调用方式 Co-authored-by: hello_simida<wangyi206@huawei.com> # message auto-generated for no-merge-commit merge: !3660 merge master_inner into master 【MC2】修改mc2的aclnninner调用方式 Created-by: hello_simida Commit-by: hello_simida Merged-by: cann-robot Description: ## 描述【MC2】修改mc2的aclnninner调用方式 ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [x] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!3660	1 个月前
op_graph	move fallback files to op graph lib Co-authored-by: liusixia<liusixia@h-partners.com> # message auto-generated for no-merge-commit merge: !4133 merge master into master move fallback files to op graph lib Created-by: liusixia_gitcode Commit-by: liusixia Merged-by: cann-robot Description: ## 描述动态图相关：仓内aclnn回调的fallback文件，在内置工程（built-in pkg）下，由ophost.so 改为编入opgraph.so中；自定义工程（custom pkg）下，保持不变。其中，mc2算子的fallback文件当前均include了依赖tiling的头文件（mc2_log.h），统一将其与tiling解耦，使用mc2_common_log.h。 ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/1844 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [x] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!4133	1 个月前
op_host	fix: cleancode Co-authored-by: libohao6<libohao3@huawei.com> # message auto-generated for no-merge-commit merge: !5489 merge fix-cleancode-issues into master fix: cleancode Created-by: libohao6 Commit-by: libohao6 Merged-by: cann-robot Description: ## 描述修复基础算子主线cleancode问题。 ## 关联的Issue [Bug-Report\|缺陷反馈]: MC2基础算子主线存在cleancode问题 #2566 ## 测试二级冒烟。 ## 文档更新不涉及。 ## 类型标签 <!-- [x] 表示选中 --> - [x] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： # PR #5489 代码检视报告 PR: https://gitcode.com/cann/ops-transformer/pull/5489 标题: merge 'fix-cleancode-issues' into 'master' 作者: libohao6 \| 范围: 19 files, +453 -531 \| 日期: 2026-05-21 --- ## 改动分类 \| 类型 \| 改动数 \| 说明 \| \|------\|-------\|------\| \| 删除未使用函数 \| 5个 \| matmul_util.cpp删3个static函数 + aclnn_matmul_reduce_scatter_v2.cpp删CreateWinTensor \| \| 删除冗余变量 \| 2个 \| x1Dtype/biasDtype 在 aclnn_weight_quant_matmul_all_reduce.cpp \| \| const修饰添加 \| 5处 \| 多个Tiling函数context参数加const \| \| 位操作类型修复 \| 1处 \| int32_t code → uint32_t bitCode \| \| 魔法数字→常量 \| 1处 \| alignas(8) → alignas(L2_CACHE_ALIGNMENT) \| \| 变量重命名 \| 多处 \| Kernel侧blockLocCoord→blockLocCoord_等; Host侧index→idx/i \| \| 参数名拼写修正 \| 1处 \| rcfCfg→rcsCfg \| \| include guard \| 1处 \| matmul_reduce_scatter_v2_tiling_common.h \| \| 头文件清理 \| 3处 \| 移除冗余#include \| \| 未使用参数标记 \| 5处 \| (void)opType等 \| \| 注释风格更新 \| 大量 \| 决策树层级注释从======改为差异化标记 \| \| 代码格式修复 \| 多处 \| 空格/缩进/换行 \| --- ## 假设检验检视结果 ### 1. 删除未使用函数 ✅ PASS 涉及文件: `matmul_util.cpp`, `aclnn_matmul_reduce_scatter_v2.cpp` 删除5个static函数（CheckShapeValidWithTrans、ProcessEmptyTensor、ProcessEmptyTensorWithTrans、GetMatmulOpInfoWithTrans、CreateWinTensor）。均为static，无跨文件引用风险。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 5.2 资源泄露防护 \| 删除是否遗漏调用点 \| ✅ static函数仅文件内可见 \| ### 2. const修饰添加 ✅ PASS 涉及文件: `all_gather_matmul_tiling_base.cpp/.h`, `quant_all_reduce_tiling.cpp`, `quant_reduce_scatter_tiling.cpp` `gert::TilingContext context` → `const gert::TilingContext context`。GetNodeName()、GetAttrPointer()等方法为const兼容，头文件声明同步更新。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 1.1 静态类型安全 \| const修饰是否导致编译错误 \| ✅ 方法兼容const \| ### 3. 位操作类型修复 ✅ PASS 涉及文件: `matmul_reduce_scatter_v2_aiv_mode_tiling.cpp` `int32_t code` → `uint32_t bitCode`。对有符号数做右移(>>=)存在符号扩展问题，改为uint32_t消除风险。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 2.1 有符号整数不溢出 \| int32_t右移符号扩展 \| ✅ 修复正确 \| \| cpp-secure 2.2 无符号整数不回绕 \| uint32_t位操作安全 \| ✅ \| ### 4. 魔法数字→常量 ✅ PASS 涉及文件: `unquant_matmul_all_reduce_tiling_data.h` `static constexpr size_t L2_CACHE_ALIGNMENT = 8;` 替换 `alignas(8)`。值等价，不影响ABI。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 10.4 结构体字段末尾添加 \| 常量定义位置 \| ✅ 不影响ABI \| ### 5. 冗余变量删除 ✅ PASS 涉及文件: `aclnn_weight_quant_matmul_all_reduce.cpp` 删除 `const auto x1Dtype = x1->GetDataType(); const auto biasDtype = bias->GetDataType();`。两变量后续无引用，OP_CHECK_DTYPE_NOT_SAME宏自行获取dtype。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 3.1 禁止未初始化变量 \| 删除后功能等价 \| ✅ \| ### 6. 参数名拼写修正 ✅ PASS 涉及文件: `matmul_reduce_scatter_tiling_base.cpp` `rcfCfg` → `rcsCfg`（RCS=ReduceScatter拼写修正）。所有引用已同步替换。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| MC2 MC2-13 CCU通信数据量限制 \| AdjustHCCLLimit逻辑是否保留 \| ✅ 256MB限制保留 \| ### 7. include guard添加 ✅ PASS 涉及文件: `matmul_reduce_scatter_v2_tiling_common.h` 新增 `#ifndef MATMUL_REDUCE_SCATTER_V2_TILING_COMMON_H` 保护。命名与文件路径一致。 ### 8. 未使用参数标记 ✅ PASS 涉及文件: `quant_reduce_scatter_util_tiling.cpp` 添加 `(void)opType; (void)context; (void)xDimNum; (void)outputDim;` 消除编译器警告。注释声明"Reserved for future extension"。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| TOPK TOPK-7 外部输入校验 \| 校验逻辑是否削弱 \| ✅ 未削弱 \| ### 9. LOG参数安全 ✅ PASS 涉及文件: `allto_allv_quant_grouped_mat_mul_tiling_base.cpp` 循环变量 `index` → `idx`/`i`。`sendCounts[%lu] should be in [0, %lu], but get %lu` — 3个%lu对应3个uint64_t(idx, bsk_, sendCounts[idx])，类型和数量匹配。 \| 规范条款 \| 检查项 \| 结果 \| \|---------\|--------\|------\| \| cpp-secure 11.2 参数数量与占位符匹配 \| 3个%lu=3个uint64_t \| ✅ \| \| cpp-secure 11.3 参数类型与格式化说明符匹配 \| uint64_t用%lu \| ✅ \| \| MC2 MC2-07 专家参数合法性校验 \| sendCounts/recvCounts校验完整 \| ✅ \| ### 10. 头文件清理 ✅ PASS 涉及文件: `matmul_reduce_scatter_tiling_base.h`, `quant_reduce_scatter_util_tiling.h`, `all_gather_matmul_tiling_base.h` 移除冗余 `#include "ops_utils.h"` 和 `#include "mc2_log.h"`。 --- ## 规范条款引用汇总 \| 规范来源 \| 条款编号 \| 条款名称 \| 检查结果 \| \|---------\|---------\|---------\|---------\| \| cpp-secure.md \| 1.1 \| 保证静态类型安全 \| ✅ \| \| cpp-secure.md \| 2.1 \| 有符号整数运算不溢出 \| ✅ \| \| cpp-secure.md \| 2.2 \| 无符号整数运算不回绕 \| ✅ \| \| cpp-secure.md \| 3.1 \| 禁止使用未初始化的变量 \| ✅ \| \| cpp-secure.md \| 5.2 \| 资源泄露防护 \| ✅ \| \| cpp-secure.md \| 10.4 \| 结构体字段末尾添加 \| ✅ \| \| cpp-secure.md \| 11.2 \| LOG参数数量与占位符必须匹配 \| ✅ \| \| cpp-secure.md \| 11.3 \| LOG参数类型与格式化说明符必须匹配 \| ✅ \| \| mc2-specific.md \| MC2-07 \| 专家参数合法性校验 \| ✅ \| \| mc2-specific.md \| MC2-13 \| CCU通信数据量限制 \| ✅ \| \| ascendc-topk.md \| TOPK-1 \| 必须校验函数返回值 \| ✅ \| \| ascendc-topk.md \| TOPK-7 \| 融合规则/InferShape/Tiling外部输入校验 \| ✅ \| --- ## 总体结论 ✅ 无问题 — PR #5489 为代码清理类改动，所有10项检视均PASS。改动不引入安全风险，不削弱校验逻辑，规范合规性100%。 See merge request: cann/ops-transformer!5489	7 天前
op_kernel	quant_all_reduce/quant_reduce_scatter 动态分块性能优化 Co-authored-by: mmh<miaominghao@huawei.com> # message auto-generated for no-merge-commit merge: !5147 merge perf_write_status_leader_v2 into master quant_all_reduce/quant_reduce_scatter 动态分块性能优化 Created-by: andingfangt Commit-by: mmh Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2391 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： # 代码检视报告检视对象：QAR/QRS 算子代码优化整改（commit `2610fdae7`+）检视范围：9 个文件（4 Kernel + 2 Tiling + 1 Utils + 1 MTE Comm + 1 UT）检视规范：C++ 安全编码规范、C++ 代码风格规范、Ascend C API 最佳实践、TOPK 问题清单 --- ## 检视总结 \| 类别 \| 问题数 \| \|------\|--------\| \| 安全问题 \| 0 \| \| API 规范违反 \| 0 \| \| 风格问题 \| 0 \| \| 潜在关注 \| 0 \| --- ## 逐项检视结果 ### 1. 数值安全（cpp-secure 2.1/2.2/2.3）代码段：`FracDiv(remainingSpace, baseDynamic, 32U, 3U)` H0：计算安全，无溢出/回绕/除零 - 2.1/2.2 溢出检查：`remainingSpace * 32` 最坏约 8MB（UB=256KB），远小于 uint64_t 上限；`baseDynamic * 32 + 3` 最坏约 770，均安全 - 2.3 除零检查：分母 `baseDynamic * num + den`，baseDynamic 最小为 `sizeof` 表达式（≥ 12），num ≥ 4，den ≥ 1，永不为零自信值：0%（工具验证：GCC 数值测试均无溢出） → PASS --- ### 2. API 使用安全（ascendc-api） AllocTensor/FreeTensor 配对（API-6）：两个 kernel 文件各 2:2 精确配对 PASS Cast RoundMode（API-9）：全部使用 `CAST_NONE`，均为向上 cast（fp4/int8→fp32），无需舍入 PASS DataCopy blockLen（API-10）：所有 `blockLen = scaleNum * sizeof(T)` 均为字节单位，配合 DataCopyPad 使用，正确 PASS --- ### 3. 结构体兼容性（cpp-secure 10.4/10.5） TilingInfo 新增字段：`xPerBlock`（uint32_t）和 `alignBlock`（uint32_t）均添加在结构体末尾，符合"对外结构体新增字段必须在最后"规范 PASS UT 同步更新：expectTilingData 已更新，测试 108/108 PASS PASS --- ### 4. 未使用变量/死代码（cpp-secure 3.1） - `alignedXSize_` 已删除 PASS - `xSliceSize_` 已改为局部变量 PASS - VectorCompute 新增 `scaleNumsPerBlock_{0}`，`SetScaleNums()` 在 `vecComp_.InitBuffer()` 前调用 PASS --- ### 5. 风格规范（cpp-style） - 行宽 120 字符：`ReadDataBlockReduceSum` 声明已换行修复 PASS - 成员变量命名：`scaleInQue_` 统一加下划线后缀 PASS - if 大括号：全部满足 PASS --- ### 6. TOPK 问题清单 - TOPK-8（GM 偏移用 int64）：xOffset_/scaleOffset_ 等偏移变量均为 uint64_t PASS - TOPK-12（宏临时变量）：FracDiv 为内联函数，非宏 PASS --- ## 潜在关注无。上一版报告的 `scaleNumsPerBlcok_` 拼写已修复为 `scaleNumsPerBlock_`。 --- ## 最终判定无安全问题、无 API 规范违反、无风格问题。108 个 UT 全部通过，精度 100% PASS，性能无回退。代码质量达标。 See merge request: cann/ops-transformer!5147	16 天前
tests	quant_all_reduce/quant_reduce_scatter 动态分块性能优化 Co-authored-by: mmh<miaominghao@huawei.com> # message auto-generated for no-merge-commit merge: !5147 merge perf_write_status_leader_v2 into master quant_all_reduce/quant_reduce_scatter 动态分块性能优化 Created-by: andingfangt Commit-by: mmh Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> https://gitcode.com/cann/ops-transformer/issues/2391 ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [ ] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： # 代码检视报告检视对象：QAR/QRS 算子代码优化整改（commit `2610fdae7`+）检视范围：9 个文件（4 Kernel + 2 Tiling + 1 Utils + 1 MTE Comm + 1 UT）检视规范：C++ 安全编码规范、C++ 代码风格规范、Ascend C API 最佳实践、TOPK 问题清单 --- ## 检视总结 \| 类别 \| 问题数 \| \|------\|--------\| \| 安全问题 \| 0 \| \| API 规范违反 \| 0 \| \| 风格问题 \| 0 \| \| 潜在关注 \| 0 \| --- ## 逐项检视结果 ### 1. 数值安全（cpp-secure 2.1/2.2/2.3）代码段：`FracDiv(remainingSpace, baseDynamic, 32U, 3U)` H0：计算安全，无溢出/回绕/除零 - 2.1/2.2 溢出检查：`remainingSpace * 32` 最坏约 8MB（UB=256KB），远小于 uint64_t 上限；`baseDynamic * 32 + 3` 最坏约 770，均安全 - 2.3 除零检查：分母 `baseDynamic * num + den`，baseDynamic 最小为 `sizeof` 表达式（≥ 12），num ≥ 4，den ≥ 1，永不为零自信值：0%（工具验证：GCC 数值测试均无溢出） → PASS --- ### 2. API 使用安全（ascendc-api） AllocTensor/FreeTensor 配对（API-6）：两个 kernel 文件各 2:2 精确配对 PASS Cast RoundMode（API-9）：全部使用 `CAST_NONE`，均为向上 cast（fp4/int8→fp32），无需舍入 PASS DataCopy blockLen（API-10）：所有 `blockLen = scaleNum * sizeof(T)` 均为字节单位，配合 DataCopyPad 使用，正确 PASS --- ### 3. 结构体兼容性（cpp-secure 10.4/10.5） TilingInfo 新增字段：`xPerBlock`（uint32_t）和 `alignBlock`（uint32_t）均添加在结构体末尾，符合"对外结构体新增字段必须在最后"规范 PASS UT 同步更新：expectTilingData 已更新，测试 108/108 PASS PASS --- ### 4. 未使用变量/死代码（cpp-secure 3.1） - `alignedXSize_` 已删除 PASS - `xSliceSize_` 已改为局部变量 PASS - VectorCompute 新增 `scaleNumsPerBlock_{0}`，`SetScaleNums()` 在 `vecComp_.InitBuffer()` 前调用 PASS --- ### 5. 风格规范（cpp-style） - 行宽 120 字符：`ReadDataBlockReduceSum` 声明已换行修复 PASS - 成员变量命名：`scaleInQue_` 统一加下划线后缀 PASS - if 大括号：全部满足 PASS --- ### 6. TOPK 问题清单 - TOPK-8（GM 偏移用 int64）：xOffset_/scaleOffset_ 等偏移变量均为 uint64_t PASS - TOPK-12（宏临时变量）：FracDiv 为内联函数，非宏 PASS --- ## 潜在关注无。上一版报告的 `scaleNumsPerBlcok_` 拼写已修复为 `scaleNumsPerBlock_`。 --- ## 最终判定无安全问题、无 API 规范违反、无风格问题。108 个 UT 全部通过，精度 100% PASS，性能无回退。代码质量达标。 See merge request: cann/ops-transformer!5147	16 天前
CMakeLists.txt	quant_reduce_scatter tiling Co-authored-by: gong-zhihao<gongzhihao1@hisilicon.com> # message auto-generated for no-merge-commit merge: !1065 merge master into master quant_reduce_scatter tiling Created-by: gong-zhihao Commit-by: gong-zhihao Merged-by: cann-robot Description: ## 描述 <!--在这里详细描述你的改动，包括改动的原因和所采取的方法。--> ## 关联的Issue <!-- 如果这个PR是为了解决特定的Issue，请在这里提供Issue链接。例如：关联Issue #000--> <!-- 如果这个PR是为了解决特定的问题单，请在这里描述问题单单号。--> ## 测试 <!--描述进行了哪些测试来验证你的改动。包括但不限于二级冒烟、算子泛化等。--> ## 文档更新 <!--如果这个PR包含文档的更新，请在这里指出。例如：更新了README.md文件。--> ## 类型标签 <!-- [x] 表示选中 --> - [ ] Bug修复 - [ ] 新特性 - [ ] 性能优化 - [ ] 文档更新 - [ ] 其他，请描述： See merge request: cann/ops-transformer!1065	3 个月前
README.md	modify quant_reduce_scatter & quant_all_reduce markdown Co-authored-by: yifux<xiongyifu1@huawei.com> # message auto-generated for no-merge-commit merge: !5046 merge pr_docs into master modify quant_reduce_scatter & quant_all_reduce markdown Created-by: xiongyifu Commit-by: yifux Merged-by: cann-robot Description: ## 描述修改QuantReduceScatter和QuantAllReduce两个算子的markdown文件描述。 ## 关联的Issue https://gitcode.com/cann/ops-transformer/issues/2293 ## 测试无 ## 文档更新 mc2\quant_reduce_scatter\docs\aclnnQuantReduceScatter.md mc2\quant_reduce_scatter\README.md mc2\quant_all_reduce\docs\aclnnQuantAllReduce.md mc2\quant_all_reduce\README.md ## 类型标签 <!-- [x] 表示选中 --> - [ ] 🐛 Bug 修复 - [ ] ✨ 新特性 - [ ] ⚡ 性能优化 - [ ] ♻️ 重构 - [ ] 🧪 测试 - [ ] 📦 构建/CI - [ ] 🔧 配置变更 - [x] 📝 文档更新 - [ ] ⬆️ 依赖升级 - [ ] 🔒 安全修复 - [ ] 🧹 代码清理 - [ ] ❓ 其他，请描述： See merge request: cann/ops-transformer!5046	20 天前

aclnnQuantReduceScatter

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	×
Atlas A2 训练系列产品/Atlas A2 推理系列产品	×
Atlas 200I/500 A2 推理产品	×
Atlas 推理系列产品	×
Atlas 训练系列产品	×

说明： 使用该接口时，请确保驱动固件包和CANN包都为配套的8.0.RC2版本或者配套的更高版本，否则将会引发报错，比如BUS ERROR等。

功能说明

算子功能：实现quant + reduceScatter融合计算。

计算公式：

o u t p u t = R e d u c e (A l l T o A l l S c a l e s * A l l T o A l l D a t a)

A l l T o A l l D a t a = A l l T o A l l (x)

A l l T o A l l S c a l e s = A l l T o A l l (s c a l e s)

其中的Reduce计算是将来自不同rank的数据进行reduce计算。

参数名	输入/输出	描述	使用说明	数据类型	数据格式	维度(shape)	连续Tensor
x	输入	公式中的输入x	不支持空Tensor。支持的shape为：(BS, H)或者(B, S, H)。B为batch size，S为sequence length，H为hidden size。当前版本输入x的H支持1024~8192中任意128对齐泛化。	INT8, HIFLOAT8, FLOAT8_E4M3FN, FLOAT8_E5M2	ND	2-3	√
scales	输入	公式中的输入scales	不支持空Tensor。当scales的数据类型为FLOAT8_E8M0时，x的数据类型必须为FLOAT8_E4M3FN、FLOAT8_E5M2，x的shape为(BS, H)或者(B, S, H)，scales的shape必须对应x的shape为(BS, H/64, 2)或者(B, S, H/64, 2)。当scales的数据类型为FLOAT时，x的数据类型必须为INT8、HIFLOAT8、FLOAT8_E4M3FN、FLOAT8_E5M2，x的shape为(BS, H)或者(B, S, H)，scales的shape必须对应x的shape为(BS, H/128)或者(B, S, H/128)。	FLOAT, FLOAT8_E8M0	ND	2-4	√
group	输入	通信域标识	通信域标识	String	-	-	-
reduceOp	输入	公式中的reduce操作类型。	当前仅支持"sum"	string	-	-	-
output	输出	公式中的输出output。	不支持空Tensor。当x的shape是(BS,H)的时候，output的shape必须为(BS/rankNum,H); 当x的shape是(B,S,H)的时候，output的shape必须为(B*S/rankNum,H)。rankNum表示通信域大小。	FLOAT、FLOAT16、BFLOAT16	ND	2	√
workspaceSize	输出	返回需要在Device侧申请的workspace大小。	-	-	-	-	-
executor	输出	返回op执行器，包含了算子计算流程。	-	-	-	-	-

约束说明

当x的数据类型为FLOAT8_E4M3FN, FLOAT8_E5M2并且scales的数据类型为FLOAT8_E8M0时，输入数据的量化方式为mx量化。
当x的数据类型为INT8、HIFLOAT8、FLOAT8_E4M3FN, FLOAT8_E5M2并且scales的数据类型为FLOAT时，输入数据的量化方式为pertoken-pergroup量化(groupSize=128)。
只在Ascend950系列平台使能。
不支持空tensor输入。
通信引擎约束：
- Ascend950PR/Ascend950DT: 仅支持UB-Memory通信。
通信域大小支持2、4、8。
通信域使用约束：同一通信域内仅允许连续执行aclnnQuantAllReduce和aclnnQuantReduceScatter算子，且该通信域中不允许有其他通信算子。
HCCL_BUFFSIZE：调用本算子前需检查HCCL_BUFFSIZE环境变量取值是否合理，该环境变量表示单个通信域占用内存大小，单位MB，不配置时默认为200MB。要求满足HCCL_BUFFSIZE>= 2 * (xDataSize + scalesDataSize + 1)。其中xDataSize为输入x的数据大小，计算公式为：xDataSize = BS * H * 1 (Byte)，scalesDataSize为scales的数据大小，当量化方式为pertoken-pergroup量化时，计算公式为：scalesDataSize = BS * H / 128 * 4 (Byte)，当量化方式为mx量化时，计算公式为：scalesDataSize = BS * H / 32 * 1 (Byte)。
H范围仅支持[1024, 8192]，要求128对齐。

调用说明

调用方式	样例代码	说明
aclnn接口	test_aclnn_quant_reduce_scatter.cpp	通过aclnnQuantReduceScatter接口方式调用quant_reduce_scatter算子。