refactor: move qwen3.5_bf16_b200.sh to benchmarks/single_node/

github-actions[bot] · kedarpotdar-nv · github-actions[bot] · commit afb1d7dbdab3 · 2026-02-19T22:40:18.000Z
Align with the multinode reorganization (PR #666): - Move script to benchmarks/single_node/ directory - Update source path to reference parent benchmark_lib.sh - Add EP_SIZE and data-parallel-size params for consistency - Reformat server launch command to match other B200 SGLang scripts Co-authored-by: Kedar Potdar <kedarpotdar-nv@users.noreply.github.com>
diff --git a/benchmarks/single_node/qwen3.5_bf16_b200.sh b/benchmarks/single_node/qwen3.5_bf16_b200.sh
@@ -1,6 +1,6 @@
 #!/usr/bin/env bash
 
-source "$(dirname "$0")/benchmark_lib.sh"
+source "$(dirname "$0")/../benchmark_lib.sh"
 
 check_env_vars \
     MODEL \
@@ -9,7 +9,8 @@ check_env_vars \
     ISL \
     OSL \
     RANDOM_RANGE_RATIO \
-    RESULT_FILENAME
+    RESULT_FILENAME \
+    EP_SIZE
 
 if [[ -n "$SLURM_JOB_ID" ]]; then
   echo "JOB $SLURM_JOB_ID running on $SLURMD_NODENAME"
@@ -27,7 +28,7 @@ export PYTHONUNBUFFERED=1
 SERVER_LOG=/workspace/server.log
 PORT=${PORT:-8888}
 
-# Low latency (conc 4,8): recv interval 10; max throughput (conc 16+): recv interval 30
+# Default: recv every ~10 requests; if CONC ≥ 16, relax to ~30 requests between scheduler recv polls.
 if [[ $CONC -ge 16 ]]; then
   SCHEDULER_RECV_INTERVAL=30
 else
@@ -46,27 +47,15 @@ echo "SCHEDULER_RECV_INTERVAL: $SCHEDULER_RECV_INTERVAL, CONC: $CONC, ISL: $ISL,
 ps aux
 
 set -x
-PYTHONNOUSERSITE=1 python3 -m sglang.launch_server \
-    --model-path=$MODEL \
-    --served-model-name "Qwen/Qwen3.5-397B-A17B" \
-    --host=0.0.0.0 \
-    --port=$PORT \
-    --trust-remote-code \
-    --tensor-parallel-size=$TP \
-    --disable-radix-cache \
-    --mem-fraction-static $MEM_FRAC_STATIC \
-    --chunked-prefill-size $CHUNKED_PREFILL_SIZE \
-    --max-prefill-tokens $MAX_PREFILL_TOKENS \
-    --cuda-graph-max-bs $CUDA_GRAPH_MAX_BATCH_SIZE \
-    --max-running-requests $MAX_RUNNING_REQUESTS \
-    --context-length $CONTEXT_LENGTH \
-    --attention-backend trtllm_mha \
-    --moe-runner-backend flashinfer_trtllm \
-    --tokenizer-worker-num 6 \
-    --stream-interval 30 \
-    --scheduler-recv-interval $SCHEDULER_RECV_INTERVAL \
-    --enable-flashinfer-allreduce-fusion \
-    > $SERVER_LOG 2>&1 &
+PYTHONNOUSERSITE=1 python3 -m sglang.launch_server --model-path=$MODEL --host=0.0.0.0 --port=$PORT \
+--served-model-name "Qwen/Qwen3.5-397B-A17B" --trust-remote-code \
+--tensor-parallel-size=$TP --data-parallel-size=1 --ep-size $EP_SIZE \
+--cuda-graph-max-bs $CUDA_GRAPH_MAX_BATCH_SIZE --max-running-requests $MAX_RUNNING_REQUESTS \
+--mem-fraction-static $MEM_FRAC_STATIC --chunked-prefill-size $CHUNKED_PREFILL_SIZE --max-prefill-tokens $MAX_PREFILL_TOKENS \
+--context-length $CONTEXT_LENGTH --disable-radix-cache \
+--attention-backend trtllm_mha --moe-runner-backend flashinfer_trtllm \
+--enable-flashinfer-allreduce-fusion --scheduler-recv-interval $SCHEDULER_RECV_INTERVAL \
+--tokenizer-worker-num 6 --stream-interval 30 > $SERVER_LOG 2>&1 &
 
 SERVER_PID=$!