MoeReRouting

产品支持情况

参数名	输入/输出/属性	描述	数据类型	数据格式
tokens	输入	表示待重新排布的token。	通用：FLOAT16、BF16、INT8 Ascend 950PR/Ascend 950DT：FLOAT16、BF16、INT8、FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8、FLOAT4_E2M1、FLOAT4_E1M2	ND
expert_token_num_per_rank	输入	表示每张卡上各个专家处理的token数，对应公式中的`expert_token_num_per_rank`。	INT32、INT64	ND
per_token_scales	可选输入	表示每个token对应的scale，需要随token同样进行重新排布。	通用：FLOAT Ascend 950PR/Ascend 950DT：FLOAT、FLOAT8_E8M0	ND
permute_tokens	输出	表示重新排布后的token。	通用：FLOAT16、BF16、INT8 Ascend 950PR/Ascend 950DT：FLOAT16、BF16、INT8、FLOAT8_E5M2、FLOAT8_E4M3FN、HIFLOAT8、FLOAT4_E2M1、FLOAT4_E1M2	ND
permute_per_token_scales	输出	表示重新排布后的per_token_scales。	通用：FLOAT Ascend 950PR/Ascend 950DT：FLOAT、FLOAT8_E8M0	ND
permute_token_idx	输出	表示每个token在原排布方式的索引。	INT32	ND
expert_token_num	输出	表示每个专家处理的token数。	INT32、INT64	ND
expert_token_num_type	可选属性	表示输出expert_token_num的模式。0为cumsum模式，1为count模式，默认值为1。	INT64	-
idx_type	可选属性	表示输出permute_token_idx的索引类型。0为gather索引，1为scatter索引，默认值为0。	INT64	-

Tensor中shape使用的变量说明：
- A：表示token个数，取值要求Sum(expert_token_num_per_rank)=A。
- H：表示token长度，取值要求 0 < H < 16384。
- N：表示卡数，取值无限制。
- E：表示卡上的专家数，取值无限制。
输入值域限制
- expert_token_num_type，即输出expert_token_num的模式。0为cumsum模式，1为count模式，默认值为1。当前只支持为1。
- idx_type，即输出permute_token_idx的索引类型。0为gather索引，1为scatter索引，默认值为0。Ascend 950PR/Ascend 950DT支持0或1，其余产品仅支持0。
输出类型限制
- expert_token_num类型应与输入的expert_token_num_per_rank类型保持一致。