Brcb
产品支持情况
功能说明
头文件路径为:"basic_api/kernel_operator_vec_brcb_intf.h"。
Brcb接口对输入数据,每一次取输入张量中的8个数进行填充操作,将每个数填充到结果张量的一个DataBlock(32字节)中。
接口计算原理和参考伪代码如下:
import numpy as np
def Brcb(src, dst, repeatTime, repeatParams):
outputType = np.dtype("uint16")
oneDataBlockSize = 32
if repeatParams.dstBlkStride == 0:
repeatParams.dstBlkStride = 1
for i in range(repeatTime):
for j in range(8):
srcEleIndex = i * 8 + j
dstBlockStartIndex = (oneDataBlockSize * i * repeatParams.dstRepStride + oneDataBlockSize * j * repeatParams.dstBlkStride) // outputType.itemsize
dstBlockEndIndex = (oneDataBlockSize * i * repeatParams.dstRepStride + oneDataBlockSize * j * repeatParams.dstBlkStride + oneDataBlockSize) // outputType.itemsize
dst[dstBlockStartIndex : dstBlockEndIndex] = src[srcEleIndex]
函数原型
template <typename T>
__aicore__ inline void Brcb(const LocalTensor<T>& dst, const LocalTensor<T>& src, const uint8_t repeatTime, const BrcbRepeatParams& repeatParams)
参数说明
表 1 模板参数说明
| 参数名称 | 描述 |
|---|---|
| T | 操作数数据类型。 |
表 2 接口参数说明
| 参数名称 | 输入/输出 | 含义 |
|---|---|---|
| dst | 输出 | 目的操作数,类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT(存储位置为Unified Buffer)。 LocalTensor的起始地址需要按照32字节对齐。 |
| src | 输入 | 源操作数,类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT(存储位置为Unified Buffer)。 需要按照32字节对齐。 注:每一次迭代读取src中的8个元素,所以src的元素个数不小于8 * repeatTime。 |
| repeatTime | 输入 | 指令迭代次数,每次迭代完成8个DataBlock的数据收集,取值范围:repeatTime∈[0,255]。 |
| repeatParams | 输入 | 用于控制指令迭代的相关参数,类型为BrcbRepeatParms。 BrcbRepeatParams参数说明请参考表3 BrcbRepeatParams结构体参数说明。 |
| 参数名称 | 含义 |
|---|---|
| dstBlkStride | 单次迭代内,矢量目的操作数不同DataBlock间地址步长,单位为DataBlock。 |
| dstRepStride | 相邻迭代间,矢量目的操作数相同DataBlock地址步长,单位为DataBlock。 |
| blockNumber | 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。 |
| src1BlkStride | 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。 |
| src1RepStride | 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。 |
| repeatStrideMode | 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。 |
| strideSizeMode | 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。 |
数据类型
Ascend 950PR/Ascend 950DT,支持的数据类型为:int8_t、uint8_t、int16_t、uint16_t、half、bfloat16_t、int32_t、uint32_t、float、int64_t、uint64_t。
Atlas A3 训练系列产品/Atlas A3 推理系列产品,支持的数据类型为:int16_t、uint16_t、half、bfloat16_t、int32_t、uint32_t、float。
Atlas A2 训练系列产品/Atlas A2 推理系列产品,支持的数据类型为:int16_t、uint16_t、half、bfloat16_t、int32_t、uint32_t、float。
Atlas 推理系列产品AI Core,支持的数据类型为:int16_t、uint16_t、half、int32_t、uint32_t、float。
Kirin X90,支持的数据类型为:uint16_t、half、uint32_t、float。
Kirin 9030,支持的数据类型为:uint16_t、half、uint32_t、float。
返回值说明
无
约束说明
-
操作数地址对齐要求请参见通用地址对齐约束。
-
不支持源操作数与目的操作数使用同一块内存地址。
-
repeatTime = 0表示不会执行计算操作,不会对目的操作数进行写入,该接口将被视为 NOP(空操作)。该约束适用于以下型号。
- Atlas A3 训练系列产品/Atlas A3 推理系列产品
- Atlas A2 训练系列产品/Atlas A2 推理系列产品
- BrcbRepeatParams结构体内参数dstBlkStride不支持设置为0,若设置成0可能产生未定义行为。
- 针对Atlas 推理系列产品AI Core,使用时需要预留8KB的Unified Buffer空间,作为接口的临时数据存放区。
关键特性说明
源操作数不支持Stride参数配置,始终采用连续读。
目的操作数连续
利用dstBlkStride和dstRepStride参数进行连续写,从源操作数取8个half数据类型的元素填充到连续的8个DataBlock中。
dstBlkStride为1:说明同一迭代内目的操作数中相邻DataBlock地址连续。
dstRepStride为8:说明相邻迭代间目的操作数中首尾DataBlock地址连续。
图 1 目的操作数连续

目的操作数非连续
利用dstBlkStride和dstRepStride参数进行跳写,从源操作数取8个half数据类型的元素填充到非连续的8个DataBlock中。
dstBlkStride为2:说明同一迭代内目的操作数中相邻DataBlock地址非连续(间隔1个DataBlock)。
dstRepStride为16:说明相邻迭代间目的操作数中首尾DataBlock地址非连续(间隔1个DataBlock)。
图 2 目的操作数非连续

调用示例
本样例中只展示Compute流程中的部分代码。如果您需要运行样例代码,请将该代码段拷贝并替换Brcb样例完整样例模板中Compute函数的部分代码即可。
// repeatTime = 2, 128 elements one repeat, 256 elements total
// srcLocal数据类型为half,dstLocal数据类型为half
// dstBlkStride = 1, no gap between blocks in one repeat
// dstRepStride = 8, no gap between repeats
AscendC::Brcb(dstLocal, srcLocal, 2, {1,8});
结果示例如下:
输入数据(srcLocal):
[1 2 3 ... 16]
输出数据(dstLocal)初始值:
[0. 0. 0. 0. 0. 0. ... 0.]
进行Brcb计算后,输出数据(dstLocal):
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 ... 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16]