| qkv |
输入 |
Device侧的aclTensor,需要切分的张量。 |
FLOAT16 |
ND |
| cos |
输入 |
Device侧的aclTensor,用于旋转位置编码的张量。 |
FLOAT16 |
ND |
| sin |
输入 |
Device侧的aclTensor,用于旋转位置编码的张量。 |
FLOAT16 |
ND |
| quant_scale |
输入 |
Device侧的aclTensor,表示量化缩放参数的张量。 |
FLOAT32 |
ND |
| quant_offset |
输入 |
Device侧的aclTensor,表示量化偏移量的张量。 |
INT32 |
- |
| k_cache |
输入 |
用于原地更新的输入。 |
INT8 |
- |
| v_cache |
输入 |
用于原地更新的输入。 |
INT8 |
- |
| indice |
输入 |
用于更新量化结果的下标 |
INT32 |
ND |
| size_splits |
属性 |
用于对qkv进行切分。 |
INT64 |
- |
| layout |
属性 |
表示qkv的数据排布方式。 |
String |
- |
| kv_output |
属性 |
控制是否输出原本的k、v。 |
BOOL |
- |
| q |
输出 |
切分出的q执行旋转位置编码后的结果。 |
FLOAT16 |
ND |
| k |
输出 |
切分出的k执行旋转位置编码后的结果。 |
FLOAT16 |
ND |
| v |
输出 |
切分出的v。 |
FLOAT16 |
ND |
| k_cache |
输出 |
切分出的k执行旋转位置编码并量化后的结果。 |
INT8 |
ND |
| v_cache |
输出 |
切分出的v量化后的结果。 |
INT8 |
ND |