cann-robotMatmulAlltoAll和AlltoAllMatmul增加通信引擎约束描述

aclnnAlltoAllQuantMatmul

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	×
Atlas A2 训练系列产品/Atlas A2 推理系列产品	√
Atlas 200I/500 A2 推理产品	×
Atlas 推理系列产品	×
Atlas 训练系列产品	×

功能说明

接口功能：完成AlltoAll通信、Permute（保证通信后地址连续）、Quant、Matmul和Dequant计算的融合，先通信后计算，支持K-C量化、K-C动态量化和mx量化模式。
计算公式：假设x1输入shape为(BS, H)，mx量化场景下x1ScaleOptional输入shape为(BS, ceil(H/64), 2)，rankSize为NPU卡数
- Atlas A2 训练系列产品/Atlas A2 推理系列产品：
  - K-C量化场景：
    $\\ permutedOut = commOut.permute(1, 0, 2).view(BS/rankSize, rankSize*H) \\ output_{quant} = x1 @ x2 \\ output = output_{quant} \times x1_{scale} \times x2_{scale} \\ output = output + bias$
  - K-C动态量化场景：
    $\\ permutedOut = commOut.permute(1, 0, 2).view(BS/rankSize, rankSize*H) \\ x1_{quant}, x1_{scale} = Quant(permutedOut) \\ output_{quant} = x1_{quant} @ x2 \\ output = output_{quant} \times x1_{scale} \times x2_{scale} \\ output = output + bias$
- Ascend 950PR/Ascend 950DT：
  - K-C动态量化场景：
    $\\ permutedOut = commOut.permute(1, 0, 2).view(BS/rankSize, rankSize*H) \\ dynQuantX1, dynQuantX1Scale = dynamicQuant(permutedOut) \\ output = (dynQuantX1@x2 + bias) \times dynQuantX1Scale \times x2Scale$
  - mx量化场景：
    $\\ permutedOut = commOut.permute(1, 0, 2).view(BS/rankSize, rankSize*H) \\ commScale = AlltoAll(x1Scale.view(rankSize, BS/rankSize, ceil(H/64), 2)) \\ permutedScale = commScale.permute(1, 0, 2, 3).view(BS/rankSize, ceil(H/64)*rankSize, 2) \\ output = \sum_{0}^{\left \lfloor \frac{k}{blockSize=32} \right \rfloor} (permutedOut @ x2 * (permutedScale * x2Scale)) + bias$

函数原型

每个算子分为两段式接口，必须先调用 “aclnnAlltoAllQuantMatmulGetWorkspaceSize”接口获取计算所需workspace大小以及包含了算子计算流程的执行器，再调用“aclnnAlltoAllQuantMatmul”接口执行计算。

aclnnStatus aclnnAlltoAllQuantMatmulGetWorkspaceSize(
  const aclTensor*   x1, 
  const aclTensor*   x2,
  const aclTensor*   biasOptional,
  const aclTensor*   x1ScaleOptional,
  const aclTensor*   x2Scale,
  const aclTensor*   commScaleOptional,
  const aclTensor*   x1OffsetOptional,
  const aclTensor*   x2OffsetOptional,
  const char*        group,
  const aclIntArray* alltoAllAxesOptional,
  int64_t            x1QuantMode,
  int64_t            x2QuantMode,
  int64_t            commQuantMode,
  int64_t            commQuantDtype,
  int64_t            x1QuantDtype,
  int64_t            groupSize,
  bool               transposeX1,
  bool               transposeX2,
  const aclTensor*   output,
  const aclTensor*   alltoAllOutOptional,
  uint64_t*          workspaceSize,
  aclOpExecutor**    executor)

aclnnStatus aclnnAlltoAllQuantMatmul(
  void*          workspace,
  uint64_t       workspaceSize,
  aclOpExecutor* executor,
  aclrtStream    stream)

aclnnAlltoAllQuantMatmulGetWorkspaceSize

参数说明：

参数名	输入/输出	描述	使用说明	数据类型	数据格式	维度(shape)	非连续tensor
x1	输入	融合算子的左矩阵输入，对应公式中的x1。	该输入进行AlltoAll通信与Permute操作后结果作为MatMul计算的左矩阵输入。根据设备型号对数据类型有不同限制，详细参见约束说明。	FLOAT16、BFLOAT16、FLOAT8_E4M3FN、FLOAT8_E5M2、FLOAT4_E2M1、INT4	ND	2维，shape为(BS, H)	x
x2	输入	融合算子的右矩阵输入，也是MatMul计算的右矩阵，对应公式中的x2。	作为MatMul计算的右矩阵输入。根据设备型号对数据类型和非连续有不同限制，详细参见约束说明。	FLOAT8_E4M3FN、FLOAT8_E5M2、FLOAT4_E2M1、INT8、INT4	ND	2维，shape为(H*rankSize, N)	不同设备型号支持情况不同，参见约束说明。
biasOptional	输入	可选输入，矩阵乘运算后累加的偏置，对应公式中的bias。	根据设备型号对数据类型有不同限制，详细参见约束说明。	FLOAT16、BFLOAT16、FLOAT32	ND	1维，shape为(N)	x
x1ScaleOptional	输入	可选输入，左矩阵的量化系数。	在K-C量化、mx量化场景下需要配置。在K-C动态量化场景下，x1ScaleOptional可以作为smoothScale传入，此时类型需与x1一致。	FLOAT32、FLOAT16、BFLOAT16、FLOAT8_E8M0	ND	1维/3维。K-C量化场景时shape为(BS)。K-C动态量化场景时，shape为(H*rankSize)。mx量化场景时shape为(BS, ceil(H/64), 2)	x
x2Scale	输入	右矩阵的量化系数。	对应公式中的x2Scale。	FLOAT32、FLOAT8_E8M0	ND	1维/3维。K-C量化和K-C动态量化时shape为(N)。mx量化场景时shape为(N, ceil(H*rankSize/64), 2)	x
commScaleOptional	输入	可选输入, 低比特通信的量化系数。	预留参数，暂不支持低比特通信。	-	-	-	-
x1OffsetOptional	输入	可选输入，左矩阵的量化偏置。	预留参数，暂不支持。	-	-	-	-
x2OffsetOptional	输入	可选输入，右矩阵的量化偏置。	预留参数，暂不支持。	-	-	-	-
alltoAllAxesOptional	输入	可选输入，AlltoAll和Permute数据交换的方向。	仅支持配置空或者[-2, -1]，传入空时默认按[-2, -1]处理，表示将输入由(BS, H)转为(BS/rankSize, rankSize*H)。	aclIntArray*(元素类型INT64)	-	1维，shape为(2)	-
group	输入	Host侧标识列组的字符串，即通信域名称，通过Hccl接口HcclGetCommName获取commName作为该参数。	字符串长度要求(0, 128)。	STRING	-	-	-
x1QuantMode	输入	左矩阵的量化方式	根据设备型号对取值有不同限制，详细参见约束说明。	INT	-	-	-
x2QuantMode	输入	右矩阵的量化方式	根据设备型号对取值有不同限制，详细参见约束说明。	INT	-	-	-
commQuantMode	输入	低比特通信的量化方式。	预留参数，当前仅支持配置为0，表示不量化。	INT	-	-	-
commQuantDtype	输入	低比特通信的量化类型。	预留参数，当前仅支持配置为-1, 表示ACL_DT_UNDEFINED。	INT	-	-	-
x1QuantDtype	输入	量化Matmul左矩阵的量化类型。	AlltoAll通信与Permute操作后结果，按照该参数配置量化后作为MatMul计算的左矩阵输入，根据设备型号对取值有不同限制，详细参见约束说明。	INT	-	-	-
groupSize	输入	用于Matmul计算三个方向上的量化分组大小，由3个方向的groupSizeM，groupSizeN，groupSizeK三个值拼接组成，每个值占16位，共占用int64_t类型groupSize的低48位（groupSize中的高16位的数值无效）。	mx量化场景下仅支持[groupSizeM, groupSizeN, groupSizeK] = [1, 1, 32]，对应的groupSize具体取值详细参见约束说明。其余量化场景默认配置为0，取值不生效。支持参数自动推导，当根据计算公式分解的groupSizeM，groupSizeN，groupSizeK任一或多个参数为0时，算子自动推导这些参数值，具体规则详细参见约束说明	INT	-	-	-
transposeX1	输入	标识左矩阵是否转置过。	暂不支持配置为True。	bool	-	-	-
transposeX2	输入	标识右矩阵是否转置过。	配置为True时右矩阵Shape为(N, rankSize*H)。mx量化模式下必须配置为True。	bool	-	-	-
output	输入	最终的计算结果。	根据设备型号对数据类型有不同限制，详细参见约束说明。	FLOAT16、BFLOAT16、FLOAT32	ND	2维，shape为(BS/rankSize, N)	x
alltoAllOutOptional	输出	接收AlltoAll和Permute后的内容，数据类型与输入x1保持一致。	传入nullptr时表示不输出通信输出。	FLOAT16、BFLOAT16、FLOAT8_E4M3FN、FLOAT8_E5M2、FLOAT4_E2M1、INT4	ND	2维，shape为(BS/rankSize, rankSize*H)	x
workspaceSize	输出	返回需要在Device侧申请的workspace大小。		UINT64	-	-	-
executor	输出	返回op执行器，包含了算子的计算流程。		aclOpExecutor*	-	-	-

x1QuantMode、x2QuantMode、commQuantMode的枚举值与量化模式关系如下:

0: 不量化
1: pertensor
2: perchannel
3: pertoken
4: pergroup
5: perblock
6: mx量化
7: pertoken动态量化

返回值

aclnnStatus：返回状态码，具体参见aclnn返回码。

第一段接口完成入参校验，出现以下场景时报错：

返回值	错误码	描述
ACLNN_ERR_PARAM_NULLPTR	161001	输入和输出的必选参数Tensor是空指针。
ACLNN_ERR_PARAM_INVALID	161002	输入和输出的数据类型不在支持的范围内。
		输入Tensor为空Tensor。
		alltoAllAxesOptional非法。
		transposeX1为true。
		通信域长度非法。
		输入输出Tensor维度不合法。
		输入输出format为私有格式。

aclnnAlltoAllQuantMatmul

参数说明：

参数名	输入/输出	描述
workspace	输入	在Device侧申请的workspace内存地址。
workspaceSize	输入	在Device侧申请的workspace大小，由第一段接口aclnnAlltoAllMatmulGetWorkspaceSize获取。
executor	输入	op执行器，包含了算子计算流程。
stream	输入	指定执行任务的Stream。

返回值：

返回aclnnStatus状态码，具体参见aclnn返回码。

约束说明

默认支持确定性计算。
NPU卡数（rankSize），根据设备型号有不同限制：
- Atlas A2 训练系列产品/Atlas A2 推理系列产品：支持2、4、8卡。
- Ascend 950PR/Ascend 950DT：支持2、4、8、16卡。
参数说明中shape使用的变量BS必须整除rankSize。
BS和N的值不得超过2147483647（INT32_MAX），BS的值不得小于2，N的值不得小于1。
不支持空tensor。
非连续tensor的支持度根据不同设备型号有不同的限制：
- Atlas A2 训练系列产品/Atlas A2 推理系列产品：不支持任何非连续tensor。
- Ascend 950PR/Ascend 950DT：仅支持x2为非连续tensor，其它非连续tensor均不支持。
传入的x1、x2、x2Scale和output不为空指针，且
- Ascend 950PR/Ascend 950DT：在x1QuantMode为pertoken动态量化场景下，不支持传入x1ScaleOptional。

groupSize相关约束:

仅当x1ScaleOptional和x2Scale输入都是2维及以上数据时，groupSize取值有效，其他场景需传入0。
传入的groupSize内部会按如下公式分解得到groupSizeM、groupSizeN、groupSizeK，当其中有1个或多个为0，会根据x1/x2/x1ScaleOptional/x2Scale输入shape重新设置groupSizeM、groupSizeN、groupSizeK用于计算。原理：假设groupSizeM=0，表示m方向量化分组值由接口推断，推断公式为groupSizeM = m / scaleM（需保证m能被scaleM整除），其中m与x1 shape中的m一致，scaleM与x1ScaleOptional shape中的m一致，k和n方向同理。
$g r o u p S i z e = g r o u p S i z e K ∣ g r o u p S i z e N < < 16 ∣ g r o u p S i z e M < < 32$

假设输入x和scale各方向满足整除关系，且自动推导的groupSizeM、groupSizeN、groupSizeK满足[1,1,32]，则mx量化场景下groupSize支持以下取值：

groupSize	根据计算公式[gsM,gsN,gsK]	根据自动推导[gsM,gsN,gsK]
4295032864	[1,1,32]	-
0	[0,0,0]	[1,1,32]
32	[0,0,32]	[1,1,32]
65536	[0,1,0]	[1,1,32]
65568	[0,1,32]	[1,1,32]
4294967296	[1,0,0]	[1,1,32]
4294967328	[1,0,32]	[1,1,32]
4295032832	[1,1,0]	[1,1,32]

该算子输入输出的数据类型、数据维度和量化模式根据不同设备型号有不同的限制：

Atlas A2 训练系列产品/Atlas A2 推理系列产品：
- 量化模式：
  - 目前支持左矩阵perToken量化和perToken动态量化，x1QuantMode=3或7；右矩阵perChannel量化，x2QuantMode=2。
- 类型约束：
  - x1、alltoAllOutOptional的数据类型必须一致。
  - 若x1、x2、alltoallout输入int32类型，则视作8个int4打包，会被重新解释为int4。
  - A16W8和A16W4时，smoothQuant场景，x1ScaleOptional与x1的数据类型必须一致。
  - A16W8时，x1、x2、biasOptional和output支持的数据类型组合有：
    
    x1 x2 biasOptional output
    
    FLOAT16 INT8 FLOAT16 FLOAT16
    
    FLOAT16 INT8 FLOAT32 FLOAT16
    
    BFLOAT16 INT8 BFLOAT16 BFLOAT16
    
    BFLOAT16 INT8 FLOAT32 BFLOAT16
  - A16W4时，x1、x2、biasOptional和output支持的数据类型组合有：
    
    x1 x2 biasOptional output
    
    FLOAT16 INT4 FLOAT16 FLOAT16
    
    FLOAT16 INT4 FLOAT32 FLOAT16
    
    BFLOAT16 INT4 BFLOAT16 BFLOAT16
    
    BFLOAT16 INT4 FLOAT32 BFLOAT16
  - A4W4时，x1ScaleOptional仅支持FLOAT32。x1、x2、biasOptional和output支持的数据类型组合有：
    
    x1 x2 biasOptional output
    
    INT4 INT4 FLOAT16 FLOAT16
    
    INT4 INT4 FLOAT32 FLOAT16
    
    INT4 INT4 BFLOAT16 BFLOAT16
    
    INT4 INT4 FLOAT32 BFLOAT16
- 维度约束：
  - A16W8时，rankSize * H必须整除16；rankSize * H取值范围：[1, 35000]。
  - A16W4时，rankSize * H必须整除16；N必须为偶数; rankSize * H取值范围：[1, 35000]。
  - A4W4时，H与N必须为偶数；rankSize * H取值范围：[1, 35000]。

x1	x2	biasOptional	output
FLOAT16	INT8	FLOAT16	FLOAT16
FLOAT16	INT8	FLOAT32	FLOAT16
BFLOAT16	INT8	BFLOAT16	BFLOAT16
BFLOAT16	INT8	FLOAT32	BFLOAT16

x1	x2	biasOptional	output
FLOAT16	INT4	FLOAT16	FLOAT16
FLOAT16	INT4	FLOAT32	FLOAT16
BFLOAT16	INT4	BFLOAT16	BFLOAT16
BFLOAT16	INT4	FLOAT32	BFLOAT16

x1	x2	biasOptional	output
INT4	INT4	FLOAT16	FLOAT16
INT4	INT4	FLOAT32	FLOAT16
INT4	INT4	BFLOAT16	BFLOAT16
INT4	INT4	FLOAT32	BFLOAT16

Ascend 950PR/Ascend 950DT：

量化模式：
- 目前支持：K-C动态量化，左矩阵perToken动态量化，x1QuantMode=7，右矩阵perChannel量化，x2QuantMode=2；mx量化，左矩阵mx量化，x1QuantMode=6，右矩阵mx量化，x2QuantMode=6。

类型约束：

x1、alltoAllOutOptional的数据类型必须一致。
x1QuantDtype在K-C动态量化场景下配置生效，支持配置35（表示aclDataType.ACL_FLOAT8_E5M2）和36（表示aclDataType.ACL_FLOAT8_E4M3FN）。其它量化场景配置不生效。
biasOptional可以为空。

输入输出支持的数据类型组合有：

K-C动态量化：

x1	x2	biasOptional	output	x1QuantMode	x2QuantMode	x1ScaleOptional	x2Scale
FLOAT16	FLOAT8_E4M3FN	FLOAT32	FLOAT16	7	2	-	FLOAT32
FLOAT16	FLOAT8_E4M3FN	FLOAT32	BFLOAT16	7	2	-	FLOAT32
FLOAT16	FLOAT8_E4M3FN	FLOAT32	FLOAT32	7	2	-	FLOAT32
FLOAT16	FLOAT8_E5M2	FLOAT32	FLOAT16	7	2	-	FLOAT32
FLOAT16	FLOAT8_E5M2	FLOAT32	BFLOAT16	7	2	-	FLOAT32
FLOAT16	FLOAT8_E5M2	FLOAT32	FLOAT32	7	2	-	FLOAT32
BFLOAT16	FLOAT8_E4M3FN	FLOAT32	FLOAT16	7	2	-	FLOAT32
BFLOAT16	FLOAT8_E4M3FN	FLOAT32	BFLOAT16	7	2	-	FLOAT32
BFLOAT16	FLOAT8_E4M3FN	FLOAT32	FLOAT32	7	2	-	FLOAT32
BFLOAT16	FLOAT8_E5M2	FLOAT32	FLOAT16	7	2	-	FLOAT32
BFLOAT16	FLOAT8_E5M2	FLOAT32	BFLOAT16	7	2	-	FLOAT32
BFLOAT16	FLOAT8_E5M2	FLOAT32	FLOAT32	7	2	-	FLOAT32

mx量化：

x1	x2	biasOptional	output	x1QuantMode	x2QuantMode	x1ScaleOptional	x2Scale
FLOAT8_E4M3FN	FLOAT8_E4M3FN	FLOAT32	FLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E4M3FN	FLOAT8_E4M3FN	FLOAT32	BFLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E4M3FN	FLOAT8_E4M3FN	FLOAT32	FLOAT32	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E4M3FN	FLOAT8_E5M2	FLOAT32	FLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E4M3FN	FLOAT8_E5M2	FLOAT32	BFLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E4M3FN	FLOAT8_E5M2	FLOAT32	FLOAT32	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E5M2	FLOAT8_E4M3FN	FLOAT32	FLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E5M2	FLOAT8_E4M3FN	FLOAT32	BFLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E5M2	FLOAT8_E4M3FN	FLOAT32	FLOAT32	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E5M2	FLOAT8_E5M2	FLOAT32	FLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E5M2	FLOAT8_E5M2	FLOAT32	BFLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT8_E5M2	FLOAT8_E5M2	FLOAT32	FLOAT32	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT4_E2M1	FLOAT4_E2M1	FLOAT32	FLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT4_E2M1	FLOAT4_E2M1	FLOAT32	BFLOAT16	6	6	FLOAT8_E8M0	FLOAT8_E8M0
FLOAT4_E2M1	FLOAT4_E2M1	FLOAT32	FLOAT32	6	6	FLOAT8_E8M0	FLOAT8_E8M0

维度约束：
- rankSize * H范围仅支持[1, 65535]。
- mx量化场景下，H必须整除64。
- mx量化场景下，x2必须转置，shape为(H*rankSize, N)，transposeX2为True。

通算融合算子不支持并发调用，不同的通算融合算子也不支持并发调用。
不支持跨超节点通信，只支持超节点内。
通信引擎约束：
- Atlas A2 训练系列产品/Atlas A2 推理系列产品：支持MTE通信。
- Ascend 950PR/Ascend 950DT：支持CCU通信。

调用示例

示例代码如下，仅供参考，具体编译和执行过程请参考编译与运行样例。

说明：本示例代码调用了部分HCCL集合通信库接口：HcclGetCommName、HcclCommInitAll、HcclCommDestroy, 请参考《HCCL API (C)》。

Atlas A2 训练系列产品/Atlas A2 推理系列产品：

#include <thread>
#include <iostream>
#include <string>
#include <cstring>
#include <vector>
#include <acl/acl.h>
#include <hccl/hccl.h>
#include "aclnn/opdev/fp16_t.h"
#include "aclnnop/aclnn_allto_all_quant_matmul.h"

int ndev = 2;

#define CHECK_RET(cond, return_expr) \
do {                               \
if (!(cond)) {                   \
return_expr;                   \
}                                \
} while (0)

#define LOG_PRINT(message, ...)     \
do {                              \
printf(message, ##__VA_ARGS__); \
} while (0)

int64_t GetShapeSize(const std::vector<int64_t> &shape) {
    int64_t shapeSize = 1;
    for (auto i: shape) {
        shapeSize *= i;
    }
    return shapeSize;
}

template<typename T>
int CreateAclTensor(const std::vector<T> &hostData, const std::vector<int64_t> &shape, void **deviceAddr,
                    aclDataType dataType, aclTensor **tensor) {
    auto size = GetShapeSize(shape) * sizeof(T);
    // 调用aclrtMalloc申请device侧内存
    auto ret = aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST);
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtMalloc failed. ERROR: %d\n", ret); return ret);
    // 调用aclrtMemcpy将host侧数据拷贝到device侧内存上
    ret = aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE);
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtMemcpy failed. ERROR: %d\n", ret); return ret);
    // 计算连续tensor的strides
    std::vector<int64_t> strides(shape.size(), 1);
    for (int64_t i = shape.size() - 2; i >= 0; i--) {
        strides[i] = shape[i + 1] * strides[i + 1];
    }
    // 调用aclCreateTensor接口创建aclTensor
    *tensor = aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND,
                            shape.data(), shape.size(), *deviceAddr);
    return 0;
}

struct Args {
    uint32_t rankId;
    HcclComm hcclComm;
    aclrtStream stream;
    aclrtContext context;
};

int launchOneThreadAlltoAllQuantMatmul(Args &args)
{
    int ret;
    ret = aclrtSetCurrentContext(args.context);
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSetCurrentContext failed. ERROR: %d\n", ret); return ret);
    char hcom_name[128] = {0};
    ret = HcclGetCommName(args.hcclComm, hcom_name);
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("[ERROR] HcclGetCommName failed. ret = %d \n", ret); return -1);
    LOG_PRINT("[INFO] rank %d hcom: %s stream: %p, context : %p\n", args.rankId, hcom_name, args.stream,
            args.context);

    std::vector<int64_t> x1Shape = {32, 64};
    std::vector<int64_t> x2Shape = {64 * ndev, 128}; // ndev = 2，x2Shape转置前后形状不变
    std::vector<int64_t> biasShape = {128};
    std::vector<int64_t> x2ScaleShape = {128};
    std::vector<int64_t> outShape = {32 / ndev, 128};
    std::vector<int64_t> allToAllOutShape = {32 / ndev, 64 * ndev};
    void *x1DeviceAddr = nullptr;
    void *x2DeviceAddr = nullptr;
    void *biasDeviceAddr = nullptr;
    void *x2ScaleDeviceAddr = nullptr;
    void *outDeviceAddr = nullptr;
    void *allToAllOutDeviceAddr = nullptr;
    aclTensor *x1 = nullptr;
    aclTensor *x2 = nullptr;
    aclTensor *bias = nullptr;
    aclTensor *x1ScaleOptional = nullptr;
    aclTensor *x2Scale = nullptr;
    aclTensor* commScaleOptional = nullptr;
    aclTensor* x1OffsetOptional = nullptr;
    aclTensor* x2OffsetOptional = nullptr;
    aclTensor *out = nullptr;
    aclTensor *allToAllOut = nullptr;

    int64_t a2aAxes[2] = {-2, -1};
    aclIntArray* alltoAllAxesOptional = aclCreateIntArray(a2aAxes, static_cast<uint64_t>(2));
    uint64_t workspaceSize = 0;
    int64_t x1QuantMode = 3;
    int64_t x2QuantMode = 2;
    int64_t commQuantMode = 0;
    int64_t commQuantDtype = -1;
    int64_t x1QuantDtype = 2;
    int64_t groupSize = 0;
    aclOpExecutor *executor;
    void *workspaceAddr = nullptr;

    long long x1ShapeSize = GetShapeSize(x1Shape);
    long long x2ShapeSize = GetShapeSize(x2Shape);
    long long biasShapeSize = GetShapeSize(biasShape);
    long long x2ScaleShapeSize = GetShapeSize(x2ScaleShape);
    long long outShapeSize = GetShapeSize(outShape);
    long long allToAllOutShapeSize = GetShapeSize(allToAllOutShape);
    std::vector<op::fp16_t> x1HostData(x1ShapeSize, 1);
    std::vector<int8_t> x2HostData(x2ShapeSize, 1);
    std::vector<op::fp16_t> biasHostData(biasShapeSize, 1);
    std::vector<float> x2ScaleHostData(x2ScaleShapeSize, 1);
    std::vector<op::fp16_t> outHostData(outShapeSize, 0);
    std::vector<op::fp16_t> allToAllOutHostData(allToAllOutShapeSize, 0);

    // 创建 tensor
    ret = CreateAclTensor(x1HostData, x1Shape, &x1DeviceAddr, aclDataType::ACL_FLOAT16, &x1);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(x2HostData, x2Shape, &x2DeviceAddr, aclDataType::ACL_INT8, &x2);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(biasHostData, biasShape, &biasDeviceAddr, aclDataType::ACL_FLOAT16, &bias);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(x2ScaleHostData, x2ScaleShape, &x2ScaleDeviceAddr, aclDataType::ACL_FLOAT, &x2Scale);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(outHostData, outShape, &outDeviceAddr, aclDataType::ACL_FLOAT16, &out);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(allToAllOutHostData, allToAllOutShape, &allToAllOutDeviceAddr, aclDataType::ACL_FLOAT16, &allToAllOut);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    // 调用第一段接口
    ret = aclnnAlltoAllQuantMatmulGetWorkspaceSize(x1, x2, bias, x1ScaleOptional, x2Scale, commScaleOptional, x1OffsetOptional, x2OffsetOptional,
                                            hcom_name, alltoAllAxesOptional, x1QuantMode, x2QuantMode, commQuantMode, commQuantDtype, x1QuantDtype,
                                            groupSize, false, true,
                                            out, allToAllOut, &workspaceSize, &executor);
    CHECK_RET(ret == ACL_SUCCESS,
            LOG_PRINT("aclnnAlltoAllQuantMatmulGetWorkspaceSize failed. ERROR: %d\n", ret); return ret);
    // 根据第一段接口计算出的workspaceSize申请device内存
    if (workspaceSize > 0) {
        ret = aclrtMalloc(&workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST);
        CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("allocate workspace failed. ERROR: %d\n", ret); return ret);
    }
    // 调用第二段接口
    ret = aclnnAlltoAllQuantMatmul(workspaceAddr, workspaceSize, executor, args.stream);
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnAlltoAllQuantMatmul failed. ERROR: %d\n", ret); return ret);
    //（固定写法）同步等待任务执行结束
    ret = aclrtSynchronizeStreamWithTimeout(args.stream, 10000);
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSynchronizeStream failed. ERROR: %d\n", ret); return ret);
    LOG_PRINT("device%d aclnnMatmulAlltoAll execute success \n", args.rankId);
    // 释放device资源，需要根据具体API的接口定义修改
    if (x1 != nullptr) {
        aclDestroyTensor(x1);
    }
    if (x2 != nullptr) {
        aclDestroyTensor(x2);
    }
    if (bias != nullptr) {
        aclDestroyTensor(bias);
    }
    if (x2Scale != nullptr) {
        aclDestroyTensor(x2Scale);
    }
    if (out != nullptr) {
        aclDestroyTensor(out);
    }
    if (allToAllOut != nullptr) {
        aclDestroyTensor(allToAllOut);
    }
    if (x1DeviceAddr != nullptr) {
        aclrtFree(x1DeviceAddr);
    }
    if (x2DeviceAddr != nullptr) {
        aclrtFree(x2DeviceAddr);
    }
    if (biasDeviceAddr != nullptr) {
        aclrtFree(biasDeviceAddr);
    }
    if (outDeviceAddr != nullptr) {
        aclrtFree(outDeviceAddr);
    }
    if (workspaceSize > 0) {
        aclrtFree(workspaceAddr);
    }
    aclrtDestroyStream(args.stream);
    HcclCommDestroy(args.hcclComm);
    aclrtDestroyContext(args.context);
    aclrtResetDevice(args.rankId);
    return 0;
}

int main(int argc, char *argv[])
{
    // 本样例基于Atlas A2实现，必须在Atlas A2上运行
    int ret = aclInit(nullptr);
    int32_t devices[ndev];
    for (int i = 0; i < ndev; i++) {
        devices[i] = i;
    }
    HcclComm comms[128];
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclInit failed. ERROR: %d\n", ret); return ret);
    // 初始化集合通信域
    for (int i = 0; i < ndev; i++) {
        ret = aclrtSetDevice(devices[i]);
        CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSetDevice failed. ERROR: %d\n", ret); return ret);
    }
    ret = HcclCommInitAll(ndev, devices, comms);
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("HcclCommInitAll failed. ERROR: %d\n", ret); return ret);
    Args args[ndev];
    aclrtStream stream[ndev];
    aclrtContext context[ndev];
    for (uint32_t rankId = 0; rankId < ndev; rankId++) {
        ret = aclrtSetDevice(rankId);
        CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSetDevice failed. ERROR: %d\n", ret); return ret);
        ret = aclrtCreateContext(&context[rankId], rankId);
        CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtCreateContext failed. ERROR: %d\n", ret); return ret);
        ret = aclrtCreateStream(&stream[rankId]);
        CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtCreateStream failed. ERROR: %d\n", ret); return ret);
    }
    // 启动多线程
    std::vector<std::unique_ptr<std::thread>> threads(ndev);
    for (uint32_t rankId = 0; rankId < ndev; rankId++) {
        args[rankId].rankId = rankId;
        args[rankId].hcclComm = comms[rankId];
        args[rankId].stream = stream[rankId];
        args[rankId].context = context[rankId];
        threads[rankId].reset(new(std::nothrow) std::thread(&launchOneThreadAlltoAllQuantMatmul, std::ref(args[rankId])));
    }
    for (uint32_t rankId = 0; rankId < ndev; rankId++) {
        threads[rankId]->join();
    }
    aclFinalize();
    return 0;
}

Ascend 950PR/Ascend 950DT：

#include <thread>
#include <iostream>
#include <string>
#include <cstring>
#include <vector>
#include <acl/acl.h>
#include <hccl/hccl.h>
#include "aclnnop/aclnn_allto_all_quant_matmul.h"

int ndev = 2;

#define CHECK_RET(cond, return_expr) \
do {                               \
if (!(cond)) {                   \
return_expr;                   \
}                                \
} while (0)

#define LOG_PRINT(message, ...)     \
do {                              \
printf(message, ##__VA_ARGS__); \
} while (0)

int64_t GetShapeSize(const std::vector<int64_t> &shape) {
int64_t shapeSize = 1;
for (auto i: shape) {
shapeSize *= i;
}
return shapeSize;
}

template<typename T>
int CreateAclTensor(const std::vector<T> &hostData, const std::vector<int64_t> &shape, void **deviceAddr,
aclDataType dataType, aclTensor **tensor) {
auto size = GetShapeSize(shape) * sizeof(T);
// 调用aclrtMalloc申请device侧内存
auto ret = aclrtMalloc(deviceAddr, size, ACL_MEM_MALLOC_HUGE_FIRST);
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtMalloc failed. ERROR: %d\n", ret); return ret);
// 调用aclrtMemcpy将host侧数据拷贝到device侧内存上
ret = aclrtMemcpy(*deviceAddr, size, hostData.data(), size, ACL_MEMCPY_HOST_TO_DEVICE);
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtMemcpy failed. ERROR: %d\n", ret); return ret);
// 计算连续tensor的strides
std::vector<int64_t> strides(shape.size(), 1);
for (int64_t i = shape.size() - 2; i >= 0; i--) {
strides[i] = shape[i + 1] * strides[i + 1];
}
// 调用aclCreateTensor接口创建aclTensor
*tensor = aclCreateTensor(shape.data(), shape.size(), dataType, strides.data(), 0, aclFormat::ACL_FORMAT_ND,
shape.data(), shape.size(), *deviceAddr);
return 0;
}

struct Args {
uint32_t rankId;
HcclComm hcclComm;
aclrtStream stream;
aclrtContext context;
};

int launchOneThreadAlltoAllQuantMatmul(Args &args)
{
int ret;
ret = aclrtSetCurrentContext(args.context);
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSetCurrentContext failed. ERROR: %d\n", ret); return ret);
char hcom_name[128] = {0};
ret = HcclGetCommName(args.hcclComm, hcom_name);
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("[ERROR] HcclGetCommName failed. ret = %d \n", ret); return -1);
LOG_PRINT("[INFO] rank %d hcom: %s stream: %p, context : %p\n", args.rankId, hcom_name, args.stream,
args.context);

    std::vector<int64_t> x1Shape = {32, 64};
    std::vector<int64_t> x2Shape = {64 * ndev, 128};
    std::vector<int64_t> biasShape = {128};
    std::vector<int64_t> x2ScaleShape = {128};
    std::vector<int64_t> outShape = {32 / ndev, 128};
    std::vector<int64_t> allToAllOutShape = {32 / ndev, 64 * ndev};
    void *x1DeviceAddr = nullptr;
    void *x2DeviceAddr = nullptr;
    void *biasDeviceAddr = nullptr;
    void *x2ScaleDeviceAddr = nullptr;
    void *outDeviceAddr = nullptr;
    void *allToAllOutDeviceAddr = nullptr;
    aclTensor *x1 = nullptr;
    aclTensor *x2 = nullptr;
    aclTensor *bias = nullptr;
    aclTensor *x1ScaleOptional = nullptr;
    aclTensor *x2Scale = nullptr;
    aclTensor* commScaleOptional = nullptr;
    aclTensor* x1OffsetOptional = nullptr;
    aclTensor* x2OffsetOptional = nullptr;
    aclTensor *out = nullptr;
    aclTensor *allToAllOut = nullptr;

    int64_t a2aAxes[2] = {-2, -1};
    aclIntArray* alltoAllAxesOptional = aclCreateIntArray(a2aAxes, static_cast<uint64_t>(2));
    uint64_t workspaceSize = 0;
    int64_t x1QuantMode = 7;
    int64_t x2QuantMode = 2;
    int64_t commQuantMode = 0;
    int64_t commQuantDtype = -1;
    int64_t x1QuantDtype = 35;
    int64_t groupSize = 0;
    aclOpExecutor *executor;
    void *workspaceAddr = nullptr;

    long long x1ShapeSize = GetShapeSize(x1Shape);
    long long x2ShapeSize = GetShapeSize(x2Shape);
    long long biasShapeSize = GetShapeSize(biasShape);
    long long x2ScaleShapeSize = GetShapeSize(x2ScaleShape);
    long long outShapeSize = GetShapeSize(outShape);
    long long allToAllOutShapeSize = GetShapeSize(allToAllOutShape);
    std::vector<int16_t> x1HostData(x1ShapeSize, 1);
    std::vector<int16_t> x2HostData(x2ShapeSize, 1);
    std::vector<int16_t> biasHostData(biasShapeSize, 1);
    std::vector<int16_t> x2ScaleHostData(x2ScaleShapeSize, 1);
    std::vector<int16_t> outHostData(outShapeSize, 0);
    std::vector<int16_t> allToAllOutHostData(allToAllOutShapeSize, 0);
    // 创建 tensor
    ret = CreateAclTensor(x1HostData, x1Shape, &x1DeviceAddr, aclDataType::ACL_FLOAT16, &x1);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(x2HostData, x2Shape, &x2DeviceAddr, aclDataType::ACL_FLOAT8_E5M2, &x2);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(biasHostData, biasShape, &biasDeviceAddr, aclDataType::ACL_FLOAT, &bias);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(x2ScaleHostData, x2ScaleShape, &x2ScaleDeviceAddr, aclDataType::ACL_FLOAT, &x2Scale);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(outHostData, outShape, &outDeviceAddr, aclDataType::ACL_FLOAT, &out);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    ret = CreateAclTensor(allToAllOutHostData, allToAllOutShape, &allToAllOutDeviceAddr, aclDataType::ACL_FLOAT16, &allToAllOut);
    CHECK_RET(ret == ACL_SUCCESS, return ret);
    // 调用第一段接口
    ret = aclnnAlltoAllQuantMatmulGetWorkspaceSize(x1, x2, bias, x1ScaleOptional, x2Scale, commScaleOptional, x1OffsetOptional, x2OffsetOptional,
                                            hcom_name, alltoAllAxesOptional, x1QuantMode, x2QuantMode, commQuantMode, commQuantDtype, x1QuantDtype,
                                            groupSize, false, false,
                                            out, allToAllOut, &workspaceSize, &executor);
    CHECK_RET(ret == ACL_SUCCESS,
            LOG_PRINT("aclnnAlltoAllQuantMatmulGetWorkspaceSize failed. ERROR: %d\n", ret); return ret);
    // 根据第一段接口计算出的workspaceSize申请device内存
    if (workspaceSize > 0) {
        ret = aclrtMalloc(&workspaceAddr, workspaceSize, ACL_MEM_MALLOC_HUGE_FIRST);
        CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("allocate workspace failed. ERROR: %d\n", ret); return ret);
    }
    // 调用第二段接口
    ret = aclnnAlltoAllQuantMatmul(workspaceAddr, workspaceSize, executor, args.stream);
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclnnAlltoAllQuantMatmul failed. ERROR: %d\n", ret); return ret);
    //（固定写法）同步等待任务执行结束
    ret = aclrtSynchronizeStreamWithTimeout(args.stream, 10000);
    CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSynchronizeStream failed. ERROR: %d\n", ret); return ret);
    LOG_PRINT("device%d aclnnAlltoAllQuantMatmul execute success \n", args.rankId);
    // 释放device资源，需要根据具体API的接口定义修改
    if (x1 != nullptr) {
        aclDestroyTensor(x1);
    }
    if (x2 != nullptr) {
        aclDestroyTensor(x2);
    }
    if (bias != nullptr) {
        aclDestroyTensor(bias);
    }
    if (x2Scale != nullptr) {
        aclDestroyTensor(x2Scale);
    }
    if (out != nullptr) {
        aclDestroyTensor(out);
    }
    if (allToAllOut != nullptr) {
        aclDestroyTensor(allToAllOut);
    }
    if (x1DeviceAddr != nullptr) {
        aclrtFree(x1DeviceAddr);
    }
    if (x2DeviceAddr != nullptr) {
        aclrtFree(x2DeviceAddr);
    }
    if (biasDeviceAddr != nullptr) {
        aclrtFree(biasDeviceAddr);
    }
    if (outDeviceAddr != nullptr) {
        aclrtFree(outDeviceAddr);
    }
    if (workspaceSize > 0) {
        aclrtFree(workspaceAddr);
    }
    aclrtDestroyStream(args.stream);
    HcclCommDestroy(args.hcclComm);
    aclrtDestroyContext(args.context);
    aclrtResetDevice(args.rankId);
    return 0;
}

int main(int argc, char *argv[])
{
// 本样例基于Ascend 950PR/Ascend 950DT实现，必须在Ascend 950PR/Ascend 950DT上运行
int ret = aclInit(nullptr);
int32_t devices[ndev];
for (int i = 0; i < ndev; i++) {
devices[i] = i;
}
HcclComm comms[128];
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclInit failed. ERROR: %d\n", ret); return ret);
// 初始化集合通信域
for (int i = 0; i < ndev; i++) {
ret = aclrtSetDevice(devices[i]);
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSetDevice failed. ERROR: %d\n", ret); return ret);
}
ret = HcclCommInitAll(ndev, devices, comms);
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("HcclCommInitAll failed. ERROR: %d\n", ret); return ret);
Args args[ndev];
aclrtStream stream[ndev];
aclrtContext context[ndev];
for (uint32_t rankId = 0; rankId < ndev; rankId++) {
ret = aclrtSetDevice(rankId);
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtSetDevice failed. ERROR: %d\n", ret); return ret);
ret = aclrtCreateContext(&context[rankId], rankId);
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtCreateContext failed. ERROR: %d\n", ret); return ret);
ret = aclrtCreateStream(&stream[rankId]);
CHECK_RET(ret == ACL_SUCCESS, LOG_PRINT("aclrtCreateStream failed. ERROR: %d\n", ret); return ret);
}
// 启动多线程
std::vector<std::unique_ptr<std::thread>> threads(ndev);
for (uint32_t rankId = 0; rankId < ndev; rankId++) {
args[rankId].rankId = rankId;
args[rankId].hcclComm = comms[rankId];
args[rankId].stream = stream[rankId];
args[rankId].context = context[rankId];
threads[rankId].reset(new(std::nothrow) std::thread(&launchOneThreadAlltoAllQuantMatmul, std::ref(args[rankId])));
}
for (uint32_t rankId = 0; rankId < ndev; rankId++) {
threads[rankId]->join();
}
aclFinalize();
return 0;
}