msmodeling/tests/benchmark/models/cases/qwen3-8B-decode.json-代码预览-MindStudio-Modeling:基于 PyTorch 的神经网络推理性能模拟与分析框架项目 - AtomGit

ascend-robotrefactor(tensor_cast): unify word embedding tp config
{
  "type": "text",
  "name": "qwen3-8B-decode",
  "description": "Qwen3-8B decode, 32 queries, ctx=1536, TP=2, compile",
  "initial_time_s": 0.012733,
  "baseline_time_s": 0.015406,
  "initial_tolerance": 0.1,
  "baseline_tolerance": 0.2,
  "operator_top_n": 10,
  "operator_tolerance": 0.1,
  "user_input": {
    "device": "ATLAS_800_A2_376T_64G",
    "model_id": "Qwen/Qwen3-8B",
    "num_queries": 32,
    "query_len": 1,
    "context_length": 1536,
    "prefix_cache_hit_rate": 0.0,
    "do_compile": true,
    "allow_graph_break": false,
    "enable_multistream": true,
    "dump_input_shapes": false,
    "chrome_trace": null,
    "graph_log_url": null,
    "log_level": null,
    "quantize_linear_action": "DISABLED",
    "quantize_lmhead": false,
    "mxfp4_group_size": 32,
    "quantize_attention_action": "DISABLED",
    "enable_sequence_parallel": false,
    "decode": true,
    "num_mtp_tokens": 0,
    "mtp_acceptance_rate": [
      0.9,
      0.6,
      0.4,
      0.2
    ],
    "num_hidden_layers_override": 0,
    "disable_repetition": false,
    "reserved_memory_gb": 0,
    "world_size": 2,
    "tp_size": 2,
    "pp_size": 1,
    "dp_size": null,
    "o_proj_tp_size": null,
    "o_proj_dp_size": null,
    "mlp_tp_size": null,
    "mlp_dp_size": null,
    "lmhead_tp_size": null,
    "lmhead_dp_size": null,
    "ep_size": 1,
    "moe_dp_size": 1,
    "moe_tp_size": null,
    "word_embedding_tp": null,
    "enable_redundant_experts": false,
    "enable_shared_expert_tp": false,
    "enable_dispatch_ffn_combine": false,
    "enable_external_shared_experts": false,
    "host_external_shared_experts": false,
    "block_size": 128,
    "remote_source": "huggingface",
    "image_batch_size": null,
    "image_height": null,
    "image_width": null,
    "performance_model": [
      "analytic"
    ],
    "profiling_database": null
  },
  "operators": [
    {
      "name": "aten.mm.default",
      "total_time_s": 0.005301999999999999,
      "num_calls": 73
    },
    {
      "name": "tensor_cast.attention.default",
      "total_time_s": 0.003625,
      "num_calls": 36
    },
    {
      "name": "tensor_cast.matmul_all_reduce.default",
      "total_time_s": 0.002796,
      "num_calls": 72
    },
    {
      "name": "tensor_cast.all_gather.default",
      "total_time_s": 0.000258559,
      "num_calls": 1
    },
    {
      "name": "tensor_cast.rms_norm.default",
      "total_time_s": 0.000247859,
      "num_calls": 109
    },
    {
      "name": "tensor_cast.swiglu.default",
      "total_time_s": 0.000112233,
      "num_calls": 36
    },
    {
      "name": "tensor_cast.add_rms_norm2.default",
      "total_time_s": 0.00010804199999999999,
      "num_calls": 36
    },
    {
      "name": "aten.add.Tensor",
      "total_time_s": 9.8822e-05,
      "num_calls": 36
    },
    {
      "name": "tensor_cast.apply_rope.default",
      "total_time_s": 8.3735e-05,
      "num_calls": 36
    },
    {
      "name": "tensor_cast.reshape_and_cache.default",
      "total_time_s": 7.6479e-05,
      "num_calls": 36
    }
  ]
}