cann-robotrefactor common headers for op_host/op_api

文件	最后提交记录	最后更新时间
examples	conv算子代码同步	4 个月前
op_graph	Arch编码更新	4 个月前
op_host	refactor common headers for op_host/op_api	3 个月前
op_kernel	修复 dequant flag 在quant_conv3d下的异常影响	4 个月前
tests	conv dev2nn	4 个月前
CMakeLists.txt	conv算子代码同步	4 个月前
README.md	extendconv2d quantconv3d docs bugfix	3 个月前

QuantConv3D

产品支持情况

产品	是否支持
Ascend 950PR/Ascend 950DT	√
Atlas A3 训练系列产品/Atlas A3 推理系列产品	x
Atlas A2 训练系列产品/Atlas A2 推理系列产品	x
Atlas 200I/500 A2 推理产品	×
Atlas 推理系列产品	×
Atlas 训练系列产品	×

功能说明

算子功能：实现 3D 量化卷积功能。
计算公式：
- 假定输入（x）的 shape 是 $C_{\text{in}}, D, H, W)$ ，（filter）的 shape 是 $(Cout,Cin,Kd,Kh,Kw)(C_{\text{out}}, C_{\text{in}}, K_d, K_h, K_w)$ ，输出（y）的 shape 是 $C_{\text{out}}, D_{\text{out}}, H_{\text{out}}, W_{\text{out}})$
- 输出表示为：
$\text{out}(N_i, C_{\text{out}_j}) = \text{bias}(C_{\text{out}_j}) + \text{scale} \times \sum_{k = 0}^{C_{\text{in}} - 1} \text{filter}(C_{\text{out}_j}, k) \star \text{x}(N_i, k)$

其中， $⋆\star$ 表示卷积计算，支持空洞卷积、分组卷积。 $N$ 代表 batch size， $C$ 代表通道数， $D$ 、 $H$ 和 $W$ 分别代表深度、高和宽，相应输出维度的计算公式如下：

$Dout=(D+pad_head+pad_tail−(dilation_d×(Kd−1)+1))/stride_d+1Hout=(H+pad_top+pad_bottom−(dilation_h×(Kh−1)+1))/stride_h+1Wout=(W+pad_left+pad_right−(dilation_w×(Kw−1)+1))/stride_w+1 D_{\text{out}} = (D + \text{pad\_head} + \text{pad\_tail} - (\text{dilation\_d} \times (K_d - 1) + 1)) / \text{stride\_d} + 1 \\ H_{\text{out}} = (H + \text{pad\_top} + \text{pad\_bottom} - (\text{dilation\_h} \times (K_h - 1) + 1)) / \text{stride\_h} + 1 \\ W_{\text{out}} = (W + \text{pad\_left} + \text{pad\_right} - (\text{dilation\_w} \times (K_w - 1) + 1)) / \text{stride\_w} + 1$

参数说明

参数名	输入 / 输出 / 属性	描述	数据类型	数据格式
x	输入	公式中的输入张量 x。	FLOAT8_E4M3FN、INT8、HIFLOAT8	NCDHW、NDHWC
filter	输入	公式中的卷积权重张量 filter。	FLOAT8_E4M3FN、INT8、HIFLOAT8	NCDHW、DHWCN
scale	可选输入	缩放因子张量 scale。	INT64、UINT64	ND
bias	可选输入	卷积偏置张量 bias。	FLOAT、INT32	ND
offset	可选输入	偏移张量 offset（未使用）。	FLOAT	ND
y	输出	公式中的输出张量 y。	FLOAT16、FLOAT、FLOAT8_E4M3FN、INT8、HIFLOAT8	NCDHW、NDHWC
dtype	属性	表示输出 y 的数据类型。支持的列表包括 [-1(默认)，0(FLOAT)，1(FLOAT16)，2(INT8)，27(BF16)， 34(HIFLOAT8), 36(FLOAT8_E4M3FN)]。	BOOL	-
strides	属性	卷积扫描步长，stride_d ∈ [1,1000000]，stride_h, stride_w ∈ [1,63]。	INT32	-
pads	可选属性	对输入的填充，pad_top, pad_bottom, pad_left, pad_right ∈ [0,255]，pad_head, pad_tail ∈ [0,1000000]。	INT32	-
dilations	可选属性	卷积核中元素的间隔，dilation_h, dilation_w ∈ [1,255]，dilation_d ∈ [1,1000000]。	INT32	-
groups	可选属性	从输入通道到输出通道的块链接个数，必须满足 groups × filter 的 in_channels 维度 = x 的 in_channels 维度。支持范围 [1, 65535]。	INT32	-
data_format	可选属性	输入数据格式，支持 "NCDHW"、"NDHWC"。	STRING	-
offset_x	可选属性	量化算法中的偏移，用于pad的填充值。	INT32	-
round_mode	可选属性	舍入模式，如果输出的数据类型是 hifloat8，round_mode 可以设置为 'round'。否则可以设置为 'rint'。	STRING	-
pad_mode	可选属性	填充模式，支持 "SPECIFIC"、"SAME"、"VALID"、"SAME_UPPER", "SAME_LOWER"。	STRING	-

约束说明

Ascend 950PR/Ascend 950DT ：

x 的数据类型必须与 filter 一致。N 维度大小应该大于等于 0。D、H、W 维度大小应该大于等于 0（等于 0 的场景仅在输出 y 的 D、H、W 维度也等于 0 时支持）。C 维度大小应该大于等于 0（等于 0 的场景仅在输出 y 的任意维度也等于 0 时支持）。
对于 filter 输入，H、W 的大小应该在 [1, 511] 的范围内， D维度大小应该在[1, 100000]范围内。N 维度大小应该大于等于 0（等于 0 的场景仅在输入 bias、输出 y 的 N 维度也等于 0 时支持），C 维度大小的支持情况与输入 x 的 C 维度 / groups 大小一致。
bias和scale维度大小应该与filter的N维度大小一致。
支持的数据类型组合入下表：

张量	x	filter	scale	bias	y
数据类型	INT8	INT8	INT64/UINT64	INT32	FLOAT16/INT8
	HIFLOAT8	HIFLOAT8	INT64/UINT64	FLOAT	FLOAT/FLOAT16/BFLOAT16/HIFLOAT8
	FLOAT8_E4M3FN	FLOAT8_E4M3FN	INT64/UINT64	FLOAT	FLOAT/FLOAT16/BFLOAT16/FLOAT8_E4M3FN
数据格式	NCDHW	NCDHW	ND	ND	NCDHW
数据格式	NDHWC	DHWCN	ND	ND	NDHWC

x、filter、bias、scale、y 中每一组 tensor 的每一维大小都应不大于 1000000。
当format为NCDHW时，stides传入的值为[1, 1, stride_d, stride_h, stride_w]；当format为NDHWC时，stides传入的值为[1, stride_d, stride_h, stride_w，1]；N C维度对应的stride必须是1
groups ∈ [1, 65535]。
offset_x ∈ [-128, 127]。
如果任何参数超出上述范围，算子的正确性无法保证。
由于硬件资源限制，算子在部分参数取值组合场景下会执行失败，请根据日志信息提示分析并排查问题。若无法解决，请单击 Link 获取技术支持。

调用说明

调用方式	调用样例	说明
aclnn调用	test_aclnn_quant_conv3d	通过 aclnnQuantConvolution 接口方式调用 QuantConv3D 算子。