Sparse4to2QuantMatmul
产品支持情况
| 产品 | 是否支持 |
|---|---|
| Atlas A3 训练系列产品/Atlas A3 推理系列产品 | √ |
| Atlas A2 训练系列产品/Atlas A2 推理系列产品 | √ |
功能说明
-
算子功能:完成稀疏4:2量化的矩阵乘计算。
-
计算公式:
- Atlas A2 训练系列产品/Atlas A2 推理系列产品、Atlas A3 训练系列产品/Atlas A3 推理系列产品:
out=x@sparseWeight∗sparseWeightScale∗xScale+biasout = x@sparseWeight * sparseWeightScale * xScale + bias
- Atlas A2 训练系列产品/Atlas A2 推理系列产品、Atlas A3 训练系列产品/Atlas A3 推理系列产品:
参数说明
| 参数名 | 输入/输出/属性 | 描述 | 数据类型 | 数据格式 |
|---|---|---|---|---|
| x | 输入 | 矩阵乘运算中的左矩阵, 对应公式的x。 | INT8 | ND |
| sparseWeight | 输入 | 矩阵乘运算中的稀疏右矩阵,经过压缩处理, 对应公式的sparseWeight。 | INT8 | FRACTAL_NZ |
| index | 输入 | 矩阵乘运算中右矩阵在压缩过程中生成的索引矩阵。 | UINT8 | ND |
| xScale | 输入 | 输入x对应的反量化参数, 对应公式的xScale。 | FLOAT32 | ND |
| sparseWeightScale | 输入 | 输入sparseWeight对应的反量化参数, 对应公式的sparseWeightScale。 | FLOAT32 | ND |
| bias | 输入 | 矩阵乘运算后累加的偏置,对应公式中的bias。 | BFLOAT16 | ND |
| y | 输出 | 矩阵乘运算的计算结果。 | BFLOAT16 | ND |
约束说明
- 不支持空tensor。
- 不支持非连续tensor。
调用说明
| 调用方式 | 样例代码 | 说明 |
|---|---|---|
| aclnn接口 | test_aclnn_sparse4to2quant_matmul | 通过 aclnnSparse4to2QuantMatmulWeightNz 等方式调用Sparse4to2QuantMatmul算子。 |