Brcb

产品支持情况

产品

是否支持

Ascend 950PR/Ascend 950DT

Atlas A3 训练系列产品/Atlas A3 推理系列产品

Atlas A2 训练系列产品/Atlas A2 推理系列产品

Atlas 200I/500 A2 推理产品

x

Atlas 推理系列产品AI Core

Atlas 推理系列产品Vector Core

x

Atlas 训练系列产品

x

Kirin X90

Kirin 9030

功能说明

头文件路径为:"basic_api/kernel_operator_vec_brcb_intf.h"

Brcb接口对输入数据,每一次取输入张量中的8个数进行填充操作,将每个数填充到结果张量的一个DataBlock(32字节)中。

接口计算原理和参考伪代码如下:

import numpy as np

def Brcb(src, dst, repeatTime, repeatParams):
    outputType = np.dtype("uint16")
    oneDataBlockSize = 32
    if repeatParams.dstBlkStride == 0:
        repeatParams.dstBlkStride = 1
    
    for i in range(repeatTime): 
        for j in range(8):
            srcEleIndex = i * 8 + j
            dstBlockStartIndex = (oneDataBlockSize * i * repeatParams.dstRepStride + oneDataBlockSize * j * repeatParams.dstBlkStride) // outputType.itemsize
            dstBlockEndIndex = (oneDataBlockSize * i * repeatParams.dstRepStride + oneDataBlockSize * j * repeatParams.dstBlkStride + oneDataBlockSize) // outputType.itemsize
            dst[dstBlockStartIndex : dstBlockEndIndex] = src[srcEleIndex]

函数原型

template <typename T>
__aicore__ inline void Brcb(const LocalTensor<T>& dst, const LocalTensor<T>& src, const uint8_t repeatTime, const BrcbRepeatParams& repeatParams)

参数说明

表 1 模板参数说明

参数名称 描述
T 操作数数据类型。

表 2 接口参数说明

参数名称 输入/输出 含义
dst 输出 目的操作数,类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT(存储位置为Unified Buffer)。
LocalTensor的起始地址需要按照32字节对齐。
src 输入 源操作数,类型为LocalTensor,支持的TPosition为VECIN/VECCALC/VECOUT(存储位置为Unified Buffer)。
需要按照32字节对齐。
注:每一次迭代读取src中的8个元素,所以src的元素个数不小于8 * repeatTime。
repeatTime 输入 指令迭代次数,每次迭代完成8个DataBlock的数据收集,取值范围:repeatTime∈[0,255]。
repeatParams 输入 用于控制指令迭代的相关参数,类型为BrcbRepeatParms。
BrcbRepeatParams参数说明请参考表3 BrcbRepeatParams结构体参数说明

表 3 BrcbRepeatParams结构体参数说明

参数名称 含义
dstBlkStride 单次迭代内,矢量目的操作数不同DataBlock间地址步长,单位为DataBlock。
dstRepStride 相邻迭代间,矢量目的操作数相同DataBlock地址步长,单位为DataBlock。
blockNumber 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。
src1BlkStride 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。
src1RepStride 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。
repeatStrideMode 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。
strideSizeMode 注:预留的扩展参数,当前因后续架构升级,该参数已废弃,不对其进行业务处理。

数据类型

Ascend 950PR/Ascend 950DT,支持的数据类型为:int8_t、uint8_t、int16_t、uint16_t、half、bfloat16_t、int32_t、uint32_t、float、int64_t、uint64_t。

Atlas A3 训练系列产品/Atlas A3 推理系列产品,支持的数据类型为:int16_t、uint16_t、half、bfloat16_t、int32_t、uint32_t、float。

Atlas A2 训练系列产品/Atlas A2 推理系列产品,支持的数据类型为:int16_t、uint16_t、half、bfloat16_t、int32_t、uint32_t、float。

Atlas 推理系列产品AI Core,支持的数据类型为:int16_t、uint16_t、half、int32_t、uint32_t、float。

Kirin X90,支持的数据类型为:uint16_t、half、uint32_t、float。

Kirin 9030,支持的数据类型为:uint16_t、half、uint32_t、float。

返回值说明

约束说明

  • 操作数地址对齐要求请参见通用地址对齐约束

  • 不支持源操作数与目的操作数使用同一块内存地址。

  • repeatTime = 0表示不会执行计算操作,不会对目的操作数进行写入,该接口将被视为 NOP(空操作)。该约束适用于以下型号。

    • Atlas A3 训练系列产品/Atlas A3 推理系列产品
    • Atlas A2 训练系列产品/Atlas A2 推理系列产品
  • BrcbRepeatParams结构体内参数dstBlkStride不支持设置为0,若设置成0可能产生未定义行为。
  • 针对Atlas 推理系列产品AI Core,使用时需要预留8KB的Unified Buffer空间,作为接口的临时数据存放区。

关键特性说明

源操作数不支持Stride参数配置,始终采用连续读。

目的操作数连续

利用dstBlkStride和dstRepStride参数进行连续写,从源操作数取8个half数据类型的元素填充到连续的8个DataBlock中。

dstBlkStride为1:说明同一迭代内目的操作数中相邻DataBlock地址连续。

dstRepStride为8:说明相邻迭代间目的操作数中首尾DataBlock地址连续。

图 1 目的操作数连续

目的操作数连续

目的操作数非连续

利用dstBlkStride和dstRepStride参数进行跳写,从源操作数取8个half数据类型的元素填充到非连续的8个DataBlock中。

dstBlkStride为2:说明同一迭代内目的操作数中相邻DataBlock地址非连续(间隔1个DataBlock)。

dstRepStride为16:说明相邻迭代间目的操作数中首尾DataBlock地址非连续(间隔1个DataBlock)。

图 2 目的操作数非连续

目的操作数非连续

调用示例

本样例中只展示Compute流程中的部分代码。如果您需要运行样例代码,请将该代码段拷贝并替换Brcb样例完整样例模板中Compute函数的部分代码即可。

// repeatTime = 2, 128 elements one repeat, 256 elements total
// srcLocal数据类型为half,dstLocal数据类型为half
// dstBlkStride = 1, no gap between blocks in one repeat
// dstRepStride = 8, no gap between repeats 
AscendC::Brcb(dstLocal, srcLocal, 2, {1,8});

结果示例如下:

输入数据(srcLocal):
[1 2 3 ... 16]
输出数据(dstLocal)初始值:
[0. 0. 0. 0. 0. 0. ... 0.]
进行Brcb计算后,输出数据(dstLocal):
[1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 1 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 2 ... 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 15 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16 16]