AttentionWorkerCombine

产品支持情况

参数名	输入/输出/属性	描述	数据类型	数据格式
schedule_context	输入	包含调度上下文信息。	INT8	ND
expert_scales	输入	表示专家权重。	FLOAT	ND
layer_id	输入	当前的模型层ID。	INT32	ND
y	输出	最终的注意力合并结果。	FLOAT16，BFLOAT16	ND
next_layer_id	输出	下一个要处理的层ID。	INT32	ND
hidden_size	属性	token_data的隐藏维度大小，用于确定输出y的第二维大小。必要属性。	Int	-
token_dtype	属性	指定schedule_context中token数据的原始精度类型，0表示FLOAT16，1表示BFLOAT16。	Int	-
need_schedule	属性	指定是否等待token数据填充完成后再执行，0表示不等待，1表示等待。	Int	-

调用方式	样例代码	说明
图模式调用	test_geir_attention_worker_combine.cpp	通过算子IR构图方式调用AttentionWorkerCombine算子。