SwinAttentionFFN

产品支持情况

产品 是否支持
Ascend 950PR/Ascend 950DT ×
Atlas A3 训练系列产品/Atlas A3 推理系列产品 ×
Atlas A2 训练系列产品/Atlas A2 推理系列产品
Atlas 200I/500 A2 推理产品 ×
Atlas 推理系列加速卡产品 ×
Atlas 训练系列产品 ×
Kirin X90 处理器系列产品
Kirin 9030 处理器系列产品

功能说明

  • 算子功能:全量推理场景的FlashAttention算子,支持sparse优化、支持actualSeqLengthsKv优化、支持int8量化功能,支持高精度或者高性能模式选择。

  • 计算公式:

    y=x1∗x2+bias+x3y=x1*x2+bias +x3

参数说明

参数名 输入/输出/属性 描述 数据类型 数据格式
x1 输入 必选参数,Device侧的aclTensor,公式中的输入x1,支持输入的维度为3维[B,M,K],其中B为batch size,[M,K]仅支持[64,128]。 FLOAT16 ND
x2 输入 必选参数,Device侧的aclTensor,公式中的输入x2,支持输入的维度为2维[K, N],[K, N]仅支持[128,128]。 FLOAT16 ND
bias 输入 必选参数,Device侧的aclTensor,公式中的输入bias,支持输入的维度为1维[N],[N]仅支持[128]。 FLOAT16 ND
x3 输入 可选参数,Device侧的aclTensor,公式中的输入x3,支持输入的维度为3维[B,M,N],其中B为batch size,[M,N]仅支持[64,128]。 FLOAT16 ND
y 输出 必选参数,Device侧的aclTensor,公式中的输出y。 FLOAT16 ND

约束说明

当前不支持用户直接调用