asc_copy_l12l0b_mx

产品支持情况

产品 是否支持
Ascend 950PR/Ascend 950DT

功能说明

将Mx scale矩阵从L1 Buffer搬运到L0B Buffer。

函数原型

__aicore__ inline void asc_copy_l12l0b_mx(uint64_t dst, __cbuf__ fp8_e8m0_t* src, uint16_t x_start_pos, uint16_t y_start_pos, uint8_t x_step, uint8_t y_step, uint16_t src_stride, uint16_t dst_stride)
__aicore__ inline void asc_copy_l12l0b_mx_sync(uint64_t dst, __cbuf__ fp8_e8m0_t* src, uint16_t x_start_pos, uint16_t y_start_pos, uint8_t x_step, uint8_t y_step, uint16_t src_stride, uint16_t dst_stride)

参数说明

参数名 输入/输出 描述
dst 输出 目的操作数的地址。
src 输入 源操作数(Mx scale矩阵)的起始地址,数据类型为fp8_e8m0_t。
x_start_pos 输入 源操作数X轴方向的起始位置,即M维度方向,单位为1个分形(1个单位代表一个32B的分形)。
y_start_pos 输入 源操作数Y轴方向的起始位置,即K维度方向,单位为32B。
x_step 输入 源操作数X轴方向搬运长度,即M维度方向,单位为1个分形(1个单位代表一个32B的分形)。取值范围:[0, 255]。
y_step 输入 源操作数Y轴方向搬运长度,即K维度方向,单位为32B。取值范围:[0, 255]。
src_stride 输入 源操作数X轴方向前一个分形起始地址与后一个分形起始地址的间隔,单位为32B。
dst_stride 输入 目的操作数X轴方向前一个分形起始地址与后一个分形起始地址的间隔,单位为32B。

返回值说明

流水类型

PIPE_MTE1

约束说明

  • scale矩阵的分形固定为(16, 2, 16),对应L0B Buffer的分形为(16, 32, 16),占L0B Buffer地址的1 / 16,需要按照这种地址约束存放地址。
  • dst(L0B Buffer的地址)的数据类型支持fp4x2_e2m1_t、fp4x2_e1m2_t、fp8_e5m2_t、fp8_e4m3fn_t,src的数据类型支持fp8_e8m0_t。
  • dst、src的起始地址需要32字节对齐。

调用示例

__cbuf__ fp8_e8m0_t src[1024];
__cb__ fp8_e5m2_t dst[1024];
uint16_t x_start_pos = 0;
uint16_t y_start_pos = 0;
uint8_t x_step = 0;
uint8_t y_step = 0;
uint16_t src_stride = 8;
uint16_t dst_stride = 8;
uint64_t mx_dst_addr = static_cast<uint64_t>(reinterpret_cast<uintptr_t>(dst)) / 16;
asc_copy_l12l0b_mx(mx_dst_addr, src, x_start_pos, y_start_pos, x_step, y_step, src_stride, dst_stride);