NsaSelectedAttentionInfer

产品支持情况

参数名	输入/输出/属性	描述	数据类型	数据格式
query	输入	公式中的输入query。	FLOAT16、BFLOAT16	ND
key	输入	公式中的输入key。	FLOAT16、BFLOAT16	ND
value	输入	公式中的输入value。	FLOAT16、BFLOAT16	ND
topkIndices	输入	公式里的topK索引。	INT32	ND
output	输出	公式中attention的输出。	FLOAT16、BFLOAT16	ND

参数query中的N和numHeads值相等，key、value的N和numKeyValueHeads值相等，并且numHeads是numKeyValueHeads的倍数关系。
参数query中的D和key的D(H/numKeyValueHeads)值相等，value的D(H/numKeyValueHeads)和output的D值相等。
query，key，value输入，功能使用限制如下：
- 支持B轴小于等于3072。
- 支持key/value的N轴小于等于256。
- 支持query的N轴与key/value的N轴（H/D）的比值（即GQA中的group大小）小于等于16。
- 支持query与Key的D轴等于192。
- 支持value的D轴等于128。
- 支持Key与Value的blockSize等于64或128。
- 普通场景下仅支持query的S轴等于1。
- 多token推理场景下，仅支持query的S轴最大等于4，并且此时要求每个batch单独的actualQSeqLen <= actualSelKvSeqLen。
- 仅支持paged attention。
- 仅支持selectBlockSize取值为16的整数倍，最大支持到128。
- selectBlockCount上限满足selectBlockCount * selectBlockSize <= MaxKvSeqlen，MaxKvSeqlen = Max(actualSelKvSeqLenOptional)。

调用方式	样例代码	说明
aclnn接口	test_aclnn_nsa_selected_attention_infer	通过`aclnnNsaSelectedAttentionInfer`接口方式调用NsaCompressAttentionInfer算子。