vllm_ascend/tests/e2e/nightly/multi_node/config/Qwen3-235B-W8A8-longseq.yaml-代码预览-vllm_ascend:基于 vLLM 社区的 Ascend NPU 后端插件项目 - AtomGit

GGitHub[Refactor]Refactor of vllm_ascend/distributed module (#5719 )
test_name: "test Qwen3-235B-A22B-W8A8-longseq disaggregated_prefill"

model: "vllm-ascend/Qwen3-235B-A22B-W8A8"

num_nodes: 2

npu_per_node: 16

env_common:

  HCCL_OP_EXPANSION_MODE: AIV

  VLLM_USE_MODELSCOPE: true

  TASK_QUEUE_ENABLE: 1

  OMP_PROC_BIND: false

  OMP_NUM_THREADS: 1

  HCCL_BUFFSIZE: 1024

  SERVER_PORT: 8080

  NUMEXPR_MAX_THREADS: 128

  DYNAMIC_EPLB: true

disaggregated_prefill:

  enabled: true

  prefiller_host_index: [0]

  decoder_host_index: [1]



deployment:

  -

    server_cmd: >

        vllm serve "vllm-ascend/Qwen3-235B-A22B-W8A8"

        --host 0.0.0.0

        --port $SERVER_PORT

        --data-parallel-size 1

        --decode-context-parallel-size 2

        --prefill-context-parallel-size 2

        --tensor-parallel-size 8

        --cp-kv-cache-interleave-size 128

        --seed 1024

        --enforce-eager

        --enable-expert-parallel

        --max-num-seqs 16

        --max-model-len 8192

        --max-num-batched-tokens 8192

        --quantization ascend

        --trust-remote-code

        --no-enable-prefix-caching

        --gpu-memory-utilization 0.9

        --kv-transfer-config

        '{"kv_connector": "MooncakeConnectorV1",

        "kv_role": "kv_producer",

        "kv_port": "30000",

        "engine_id": "0",

        "kv_connector_extra_config": {

                  "prefill": {

                          "dp_size": 1,

                          "tp_size": 8

                  },

                  "decode": {

                          "dp_size": 2,

                          "tp_size": 8

                  }

            }

        }'

        --additional-config

          '{"dynamic_eplb":true}'



  -

    server_cmd: >

        vllm serve "vllm-ascend/Qwen3-235B-A22B-W8A8"

        --host 0.0.0.0

        --port $SERVER_PORT

        --data-parallel-size 2

        --decode-context-parallel-size 2

        --prefill-context-parallel-size 1

        --tensor-parallel-size 8

        --cp-kv-cache-interleave-size 128

        --seed 1024

        --quantization ascend

        --max-num-seqs 16

        --max-model-len 8192

        --max-num-batched-tokens 8192

        --enable-expert-parallel

        --trust-remote-code

        --no-enable-prefix-caching

        --gpu-memory-utilization 0.9

        --compilation_config '{"cudagraph_mode": "FULL_DECODE_ONLY"}'

        --kv-transfer-config

        '{"kv_connector": "MooncakeConnectorV1",

        "kv_role": "kv_consumer",

        "kv_port": "30100",

        "engine_id": "1",

        "kv_connector_extra_config": {

                  "prefill": {

                          "dp_size": 1,

                          "tp_size": 8

                  },

                  "decode": {

                          "dp_size": 2,

                          "tp_size": 8

                  }

            }

        }'

        --additional-config

          '{"dynamic_eplb":true}'

benchmarks: