AntiQuantize
产品支持情况
功能说明
按元素做伪量化计算,比如将int8_t数据类型伪量化为half数据类型。本接口最多支持输入为二维数据,不支持更高维度的输入。
AntiQuantize与AscendAntiQuant的功能类似,本接口在不同量化场景下的形式更统一,因此推荐使用本接口。
本接口的伪量化策略包括PER_TENSOR,PER_CHANNEL,PER_TOKEN,PER_GROUP四种,反量化系数scale、offset在PER_TENSOP场景下为标量,其余场景下为矢量,计算公式如下:
-
PER_TENSOR场景 (按张量量化):scale和offset的shape为[1]。

-
PER_CHANNEL场景(按通道量化):srcTensor的shape为[m, n],每个channel维度对应一个量化参数,scale和offset的shape为[1, n]。

-
PER_TOKEN场景 (按token量化):srcTensor的每组token(token为n方向,共有m组token)中的元素共享一个量化参数,srcTensor的shape为[m, n]时,scale和offset的shape为[m, 1]。

-
PER_GROUP场景 (按组量化):定义group的计算方向为k方向,srcTensor在k方向上每groupSize个元素共享一组scale和offset。srcTensor的shape为[m, n]时,如果kDim=0,表示k是m方向,scale和offset的shape为[(m + groupSize - 1) / groupSize, n];如果kDim=1,表示k是n方向,scale和offset的shape为[m,(n + groupSize - 1) / groupSize]。
根据输入数据类型的不同,PER_GROUP分为两种场景:fp4x2_e2m1_t/fp4x2_e1m2_t场景(后续内容中简称为float4场景)和int8_t/hifloat8_t/fp8_e5m2_t/fp8_e4m3fn_t场景(后续内容中简称为b8场景)。
-
fp4x2_e2m1_t/fp4x2_e1m2_t场景(float4场景)
-
k为m方向,即公式中i轴为group的计算方向(kDim=0):

-
k为n方向,即公式中j轴为group的计算方向(kDim=1):

-
-
int8_t/hifloat8_t/fp8_e5m2_t/fp8_e4m3fn_t场景(b8场景)
-
k为m方向,即公式中i轴为group的计算方向(kDim=0):

-
k为n方向,即公式中j轴为group的计算方向(kDim=1):

-
-
函数原型
-
通过sharedTmpBuffer入参传入临时空间
template <const AntiQuantizeConfig& config, typename DstT, typename SrcT, typename ScaleT, typename OffsetT> __aicore__ inline void AntiQuantize(const LocalTensor<DstT>& dstTensor, const LocalTensor<SrcT>& srcTensor, const ScaleT& scale, const OffsetT& offset, const LocalTensor<uint8_t>& sharedTmpBuffer, const AntiQuantizeParams& params) -
接口框架申请临时空间
template <const AntiQuantizeConfig& config, typename DstT, typename SrcT, typename ScaleT, typename OffsetT> __aicore__ inline void AntiQuantize(const LocalTensor<DstT>& dstTensor, const LocalTensor<SrcT>& srcTensor, const ScaleT& scale, const OffsetT& offset, const AntiQuantizeParams& params)
由于该接口的内部实现中涉及复杂的数学计算,需要额外的临时空间来存储计算过程中的中间变量。临时空间支持接口框架申请和开发者通过sharedTmpBuffer入参传入两种方式。
-
接口框架申请临时空间,开发者无需申请,但是需要预留临时空间的大小。
-
通过sharedTmpBuffer入参传入,使用该tensor作为临时空间进行处理,接口框架不再申请。该方式开发者可以自行管理sharedTmpBuffer内存空间,并在接口调用完成后,复用该部分内存,内存不会反复申请释放,灵活性较高,内存利用率也较高。
接口框架申请的方式,开发者需要预留临时空间;通过sharedTmpBuffer传入的情况,开发者需要为sharedTmpBuffer申请空间。临时空间大小BufferSize的获取方式如下:通过GetAntiQuantizeMaxMinTmpSize中提供的接口获取需要预留空间的范围大小。
参数说明
表 1 模板参数说明
用于配置伪量化相关信息,AntiQuantizeConfig类型,具体定义如下。 struct AntiQuantizeConfig {
AntiQuantizePolicy policy;
bool hasOffset;
int32_t kDim = 1;
}
|
|
目的操作数的数据类型。接口内根据入参dstTensor自动推导数据类型,开发者无需配置该参数,保证dstTensor满足表3 输入输出支持的数据类型组合即可。 |
|
源操作数的数据类型。接口内根据入参srcTensor自动推导数据类型,开发者无需配置该参数,保证srcTensor满足表3 输入输出支持的数据类型组合即可。 |
|
scale的数据类型。接口内根据入参scale自动推导数据类型,开发者无需配置该参数。ScaleT可以为标量数据类型或LocalTensor类型。
|
|
offset的数据类型。接口内根据入参offset自动推导数据类型,开发者无需配置该参数。OffsetT可以为标量数据类型或LocalTensor类型。
|
表 2 接口参数说明
|
类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 |
||
|
类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 |
||
|
类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT。 临时空间大小BufferSize的获取方式请参考GetAntiQuantizeMaxMinTmpSize。 |
||
量化接口的参数,AntiQuantizeParams类型,具体定义如下。 struct AntiQuantizeParams {
uint32_t m;
uint32_t n;
uint32_t groupSize = 0;
}
|
表 3 输入输出支持的数据类型组合
返回值说明
无
约束说明
- 不支持源操作数与目的操作数地址重叠。
- 操作数地址对齐要求请参见通用地址对齐约束。
- 输入输出操作数参与计算的数据长度要求32字节对齐。
- 连续计算方向(即n方向)的数据量要求32字节对齐。
- PER_GROUP量化的float4场景不支持offset,该场景下模板参数config中的hasOffset参数必须配置为false。
调用示例
// 注意m,n需从外部传入
constexpr static AntiQuantizePolicy policy = AntiQuantizePolicy::PER_TOKEN;
constexpr static AntiQuantizeConfig config = {policy, hasOffset, -1};
AntiQuantizeParams params;
params.m = m;
params.n = n;
params.groupSize = 0; // 仅PER_GROUP场景有效
AntiQuantize<config>(dstLocal, srcLocal, scale, offset, params);