vllm_ascend/tests/e2e/nightly/multi_node/config/Qwen3-235B-disagg-pd.yaml-代码预览-vllm_ascend:基于 vLLM 社区的 Ascend NPU 后端插件项目 - AtomGit

GGitHub[Doc][KV Pool]Revision KV Pool User Guide (#7434 )
test_name: "test Qwen3-235B-A22B disaggregated_prefill"

model: "Qwen/Qwen3-235B-A22B"

num_nodes: 2

npu_per_node: 16

env_common:

  VLLM_USE_MODELSCOPE: true

  PYTORCH_NPU_ALLOC_CONF: expandable_segments:True

  HCCL_BUFFSIZE: 1024

  HCCL_OP_EXPANSION_MODE: "AIV"

  OMP_PROC_BIND: false

  OMP_NUM_THREADS: 1

  VLLM_ASCEND_ENABLE_FLASHCOMM1: 1

  VLLM_ASCEND_ENABLE_FUSED_MC2: 2

  TASK_QUEUE_ENABLE: 1

  SERVER_PORT: 8080

  

disaggregated_prefill:

  enabled: true

  prefiller_host_index: [0]

  decoder_host_index: [1]



deployment:

  -

    server_cmd: >

        vllm serve "Qwen/Qwen3-235B-A22B"

        --host 0.0.0.0

        --port $SERVER_PORT

        --data-parallel-size 2

        --data-parallel-size-local 2

        --data-parallel-start-rank 0

        --data-parallel-address $LOCAL_IP

        --data-parallel-rpc-port 13389

        --tensor-parallel-size 8

        --seed 1024

        --max-num-seqs 32

        --max-model-len 8192

        --max-num-batched-tokens 8192

        --enable-expert-parallel

        --trust-remote-code

        --gpu-memory-utilization 0.9

        --no-enable-prefix-caching

        --kv-transfer-config

        '{"kv_connector": "MooncakeConnectorV1",

        "kv_role": "kv_producer",

        "kv_port": "30000",

        "engine_id": "0",

        "kv_connector_extra_config": {

                  "prefill": {

                          "dp_size": 2,

                          "tp_size": 8

                  },

                  "decode": {

                          "dp_size": 4,

                          "tp_size": 4

                  }

            }

        }'



  -

    server_cmd: >

        vllm serve "Qwen/Qwen3-235B-A22B"

        --host 0.0.0.0

        --port $SERVER_PORT

        --data-parallel-size 4

        --data-parallel-size-local 4

        --data-parallel-start-rank 0

        --data-parallel-address $LOCAL_IP

        --data-parallel-rpc-port 13389

        --tensor-parallel-size 4

        --seed 1024

        --max-num-seqs 32

        --max-model-len 8192

        --max-num-batched-tokens 8192

        --enable-expert-parallel

        --trust-remote-code

        --gpu-memory-utilization 0.9

        --no-enable-prefix-caching

        --compilation-config '{"cudagraph_mode":"FULL_DECODE_ONLY"}'

        --async-scheduling

        --kv-transfer-config

        '{"kv_connector": "MooncakeConnectorV1",

        "kv_role": "kv_consumer",

        "kv_port": "30100",

        "engine_id": "1",

        "kv_connector_extra_config": {

                  "prefill": {

                          "dp_size": 2,

                          "tp_size": 8

                  },

                  "decode": {

                          "dp_size": 4,

                          "tp_size": 4

                  }

            }

        }'



benchmarks:

  perf:

    case_type: performance

    dataset_path: vllm-ascend/GSM8K-in3500-bs2800

    request_conf: vllm_api_stream_chat

    dataset_conf: gsm8k/gsm8k_gen_0_shot_cot_str_perf

    num_prompts: 2800

    max_out_len: 1500

    batch_size: 700

    request_rate: 11.2

    baseline: 1

    threshold: 0.97

  acc:

    case_type: accuracy

    dataset_path: vllm-ascend/gsm8k-lite

    request_conf: vllm_api_general_chat

    dataset_conf: gsm8k/gsm8k_gen_0_shot_cot_chat_prompt

    max_out_len: 7680

    batch_size: 512

    baseline: 97

    threshold: 3