asc_loadalign_deintlv
产品支持情况
| 产品 | 是否支持 |
|---|---|
| Ascend 950PR/Ascend 950DT | √ |
功能说明
asc_loadalign_deintlv用于从UB中读取以32B对齐地址为起始位置的连续2 x VL长度数据。数据按元素类型宽度进行解释,在Load过程中完成解交织后,分别写入两个目的矢量数据寄存器。
以float数据类型、Ascend 950PR/Ascend 950DT产品为例,若VL = 256B,则单次操作覆盖64个float元素。调用asc_loadalign_deintlv后,数据从UB到Reg的排布如下图所示。

提示:
使用本接口需要包含头文件
reg_load.h。
函数原型
asc_loadalign_deintlv按源地址的寻址方式分为以下三类接口:基址寻址接口、标量偏移寻址接口、地址寄存器偏移寻址接口。支持的数据类型请参见数据类型章节。
基址寻址接口
__simd_callee__ inline void asc_loadalign_deintlv(vector_int4x2_t& dst0, vector_int4x2_t& dst1, __ubuf__ int4b_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int8_t& dst0, vector_int8_t& dst1, __ubuf__ int8_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_uint8_t& dst0, vector_uint8_t& dst1, __ubuf__ uint8_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp4x2_e2m1_t& dst0, vector_fp4x2_e2m1_t& dst1, __ubuf__ fp4x2_e2m1_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp4x2_e1m2_t& dst0, vector_fp4x2_e1m2_t& dst1, __ubuf__ fp4x2_e1m2_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_hifloat8_t& dst0, vector_hifloat8_t& dst1, __ubuf__ hifloat8_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp8_e8m0_t& dst0, vector_fp8_e8m0_t& dst1, __ubuf__ fp8_e8m0_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp8_e5m2_t& dst0, vector_fp8_e5m2_t& dst1, __ubuf__ fp8_e5m2_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp8_e4m3fn_t& dst0, vector_fp8_e4m3fn_t& dst1, __ubuf__ fp8_e4m3fn_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int16_t& dst0, vector_int16_t& dst1, __ubuf__ int16_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_uint16_t& dst0, vector_uint16_t& dst1, __ubuf__ uint16_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_half& dst0, vector_half& dst1, __ubuf__ half* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_bfloat16_t& dst0, vector_bfloat16_t& dst1, __ubuf__ bfloat16_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int32_t& dst0, vector_int32_t& dst1, __ubuf__ int32_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_uint32_t& dst0, vector_uint32_t& dst1, __ubuf__ uint32_t* src)
__simd_callee__ inline void asc_loadalign_deintlv(vector_float& dst0, vector_float& dst1, __ubuf__ float* src)
标量偏移寻址接口
源地址通过src + offset计算得到,且计算结果必须满足32B对齐要求。offset的单位为元素个数,实际地址偏移字节数为:offset * sizeof(data_type)。
__simd_callee__ inline void asc_loadalign_deintlv(vector_int8_t& dst0, vector_int8_t& dst1, __ubuf__ int8_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_uint8_t& dst0, vector_uint8_t& dst1, __ubuf__ uint8_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp4x2_e2m1_t& dst0, vector_fp4x2_e2m1_t& dst1, __ubuf__ fp4x2_e2m1_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp4x2_e1m2_t& dst0, vector_fp4x2_e1m2_t& dst1, __ubuf__ fp4x2_e1m2_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp8_e8m0_t& dst0, vector_fp8_e8m0_t& dst1, __ubuf__ fp8_e8m0_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp8_e5m2_t& dst0, vector_fp8_e5m2_t& dst1, __ubuf__ fp8_e5m2_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp8_e4m3fn_t& dst0, vector_fp8_e4m3fn_t& dst1, __ubuf__ fp8_e4m3fn_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_hifloat8_t& dst0, vector_hifloat8_t& dst1, __ubuf__ hifloat8_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int16_t& dst0, vector_int16_t& dst1, __ubuf__ int16_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_uint16_t& dst0, vector_uint16_t& dst1, __ubuf__ uint16_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_half& dst0, vector_half& dst1, __ubuf__ half* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_bfloat16_t& dst0, vector_bfloat16_t& dst1, __ubuf__ bfloat16_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int32_t& dst0, vector_int32_t& dst1, __ubuf__ int32_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_uint32_t& dst0, vector_uint32_t& dst1, __ubuf__ uint32_t* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_float& dst0, vector_float& dst1, __ubuf__ float* src, int32_t offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int4x2_t& dst0, vector_int4x2_t& dst1, __ubuf__ int4b_t* src, int32_t offset)
地址寄存器偏移寻址接口
该类接口通过地址寄存器iter_reg offset生成实际访问地址。地址寄存器通常在循环场景中使用,需配合asc_create_iter_reg完成初始化。实际访问地址必须满足32B对齐要求。
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp4x2_e1m2_t& dst0, vector_fp4x2_e1m2_t& dst1, __ubuf__ fp4x2_e1m2_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp4x2_e2m1_t& dst0, vector_fp4x2_e2m1_t& dst1, __ubuf__ fp4x2_e2m1_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_uint8_t& dst0, vector_uint8_t& dst1, __ubuf__ uint8_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int8_t& dst0, vector_int8_t& dst1, __ubuf__ int8_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp8_e4m3fn_t& dst0, vector_fp8_e4m3fn_t& dst1, __ubuf__ fp8_e4m3fn_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp8_e5m2_t& dst0, vector_fp8_e5m2_t& dst1, __ubuf__ fp8_e5m2_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_fp8_e8m0_t& dst0, vector_fp8_e8m0_t& dst1, __ubuf__ fp8_e8m0_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_hifloat8_t& dst0, vector_hifloat8_t& dst1, __ubuf__ hifloat8_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_uint16_t& dst0, vector_uint16_t& dst1, __ubuf__ uint16_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int16_t& dst0, vector_int16_t& dst1, __ubuf__ int16_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_bfloat16_t& dst0, vector_bfloat16_t& dst1, __ubuf__ bfloat16_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_half& dst0, vector_half& dst1, __ubuf__ half* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_uint32_t& dst0, vector_uint32_t& dst1, __ubuf__ uint32_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int32_t& dst0, vector_int32_t& dst1, __ubuf__ int32_t* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_float& dst0, vector_float& dst1, __ubuf__ float* src, iter_reg offset)
__simd_callee__ inline void asc_loadalign_deintlv(vector_int4x2_t& dst0, vector_int4x2_t& dst1, __ubuf__ int4b_t* src, iter_reg offset)
参数说明
| 参数名 | 输入/输出 | 说明 |
|---|---|---|
| dst0 | 输出 | 第一个目的向量寄存器。 |
| dst1 | 输出 | 第二个目的向量寄存器。 |
| src | 输入 | 源数据在UB中的起始地址。对于不同寻址接口,src分别表示基址或参与地址计算的基地址。 |
| offset | 输入 | 地址偏移量。对于标量偏移寻址接口,单位为元素个数;对于地址寄存器偏移寻址接口,表示地址寄存器。 |
寄存器类型的详细说明请参见reg数据类型定义.md。
数据类型
asc_loadalign_deintlv支持的数据类型如下表所示。三类寻址接口均支持表中所列数据类型。
源数据类型src |
目的寄存器类型dst0/dst1 |
|---|---|
int4b_t |
vector_int4x2_t |
fp4x2_e1m2_t |
vector_fp4x2_e1m2_t |
fp4x2_e2m1_t |
vector_fp4x2_e2m1_t |
int8_t |
vector_int8_t |
uint8_t |
vector_uint8_t |
fp8_e4m3fn_t |
vector_fp8_e4m3fn_t |
fp8_e5m2_t |
vector_fp8_e5m2_t |
fp8_e8m0_t |
vector_fp8_e8m0_t |
hifloat8_t |
vector_hifloat8_t |
int16_t |
vector_int16_t |
uint16_t |
vector_uint16_t |
half |
vector_half |
bfloat16_t |
vector_bfloat16_t |
int32_t |
vector_int32_t |
uint32_t |
vector_uint32_t |
float |
vector_float |
返回值说明
无。
流水类型
PIPE_V
约束说明
- 对于基址寻址接口,
src必须为32B对齐地址,且访问范围不能超过UB有效地址上界减去2 x VL。 - 对于标量偏移寻址接口和地址寄存器偏移寻址接口,实际访问地址必须为32B对齐,且访问范围不能超过UB有效地址上界减去
2 x VL。 - 使用地址寄存器偏移寻址接口时,需要先通过
asc_create_iter_reg完成地址寄存器初始化。
调用示例
从UB中连续读取以32B对齐地址src为起始位置的float数据。
基址寻址接口
for (uint16_t i = 0; i < repeat_times; i++) {
asc_loadalign_deintlv(reg0, reg1, src + i * one_repeat_size);
...
}
标量偏移寻址接口
// 方式1:通过offset控制偏移
for (uint16_t i = 0; i < repeat_times; i++) {
asc_loadalign_deintlv(reg0, reg1, src, i * one_repeat_size);
...
}
// 方式2:通过src控制偏移
for (uint16_t i = 0; i < repeat_times; i++) {
asc_loadalign_deintlv(reg0, reg1, src + i * one_repeat_size, 0);
...
}
地址寄存器偏移寻址接口
iter_reg addr_reg = asc_create_iter_reg_b32(one_repeat_size);
for (uint16_t i = 0; i < repeat_times; i++) {
asc_loadalign_deintlv(reg0, reg1, src, addr_reg);
...
}