SemiAnalysisAI · Oseltamivir · Apr 29, 2026 · Apr 26, 2026 · Apr 26, 2026 · Apr 26, 2026
@@ -7627,7 +7627,7 @@ kimik2.5-fp4-gb200-dynamo-vllm:
         dp-attn: true
 
 dsv4-fp4-gb200-dynamo-vllm:
-  image: vllm/vllm-openai:deepseekv4-cu130
+  image: vllm/vllm-openai:v0.20.0-ubuntu2404
   model: deepseek-ai/DeepSeek-V4-Pro
   model-prefix: dsv4
   runner: gb200
@@ -7636,104 +7636,57 @@ dsv4-fp4-gb200-dynamo-vllm:
   multinode: true
   disagg: true
   seq-len-configs:
-  # 1k/1k — extrapolated from kimi-k2.5 1k/1k topologies, scaled to DSV4-Pro's
-  # DP>=8 constraint. No upstream NVIDIA reference for DSV4-Pro vLLM disagg
-  # at this seq-len yet (PR #67 only publishes 8k/1k).
-  - isl: 1024
+  - isl: 8192
     osl: 1024
     search-space:
-    # Low-concurrency / interactivity: 1 prefill (DP=8) + 1 decode (TP=8).
-    # 4 nodes total. Mirrors NVIDIA aflowers/gb200-dsv4-recipes branch
-    # 1p1d-dep8-tep8.yaml (offload + numa-bind stripped — see recipe header).
-    - conc-list: [1, 4, 8, 16, 32, 64]
+    # Three validated 8k/1k points mirrored from NVIDIA/srt-slurm
+    # aflowers/vllm-gb200-v0.20.0 history. conc-list values match each
+    # recipe's benchmark.concurrencies.
+
+    # Low latency: 1 prefill (DEP=8) + 1 decode (TP=8). 5 nodes total with
+    # a dedicated NATS/etcd infra node.
+    - conc-list: [1]
       prefill:
         num-worker: 1
         tp: 8
         ep: 8
         dp-attn: true
         additional-settings:
-        - "CONFIG_FILE=recipes/vllm/deepseek-v4/1k1k/disagg-gb200-1p1d-dep8-tep8.yaml"
+        - "CONFIG_FILE=recipes/vllm/deepseek-v4/8k1k/disagg-gb200-low-latency.yaml"
       decode:
         num-worker: 1
         tp: 8
         ep: 1
         dp-attn: false
-    # Mid throughput: 1 prefill (DP=8) + 1 wide decode (DP=16).
-    # 6 nodes. Single prefill is plenty for 1k prompts up to ~conc 4096.
-    - conc-list: [128, 256, 1024, 2048, 4096]
+
+    # Mid curve: 1 prefill (DEP=8) + 1 decode (DEP=8). 5 nodes total with
+    # a dedicated NATS/etcd infra node.
+    - conc-list: [256]
       prefill:
         num-worker: 1
         tp: 8
         ep: 8
         dp-attn: true
         additional-settings:
-        - "CONFIG_FILE=recipes/vllm/deepseek-v4/1k1k/disagg-gb200-1p1d-dep8-dep16.yaml"
+        - "CONFIG_FILE=recipes/vllm/deepseek-v4/8k1k/disagg-gb200-mid-curve.yaml"
       decode:
         num-worker: 1
-        tp: 16
-        ep: 16
-        dp-attn: true
-    # High throughput: 3 prefills (DP=8) + 1 wide decode (DP=16). 10 nodes.
-    # The 4096 overlap with the 1p1d block gives a crossover point. 8192
-    # would saturate 1p1d's prefill, so this topology takes over there.
-    - conc-list: [4096, 8192]
-      prefill:
-        num-worker: 3
         tp: 8
         ep: 8
         dp-attn: true
-        additional-settings:
-        - "CONFIG_FILE=recipes/vllm/deepseek-v4/1k1k/disagg-gb200-3p1d-dep8-dep16.yaml"
-      decode:
-        num-worker: 1
-        tp: 16
-        ep: 16
-        dp-attn: true
 
-  - isl: 8192
-    osl: 1024
-    search-space:
-    # Low-concurrency / interactivity: 1 prefill (DP=8) + 1 decode (TP=8).
-    # 4 nodes total. Mirrors NVIDIA aflowers/gb200-dsv4-recipes branch.
-    - conc-list: [1, 4, 8, 16, 32, 64]
-      prefill:
-        num-worker: 1
-        tp: 8
-        ep: 8
-        dp-attn: true
-        additional-settings:
-        - "CONFIG_FILE=recipes/vllm/deepseek-v4/8k1k/disagg-gb200-1p1d-dep8-tep8.yaml"
-      decode:
-        num-worker: 1
-        tp: 8
-        ep: 1
-        dp-attn: false
-    # Mid: 3 prefills (DP=8) + 1 wide decode (DP=16). 10 nodes total.
-    - conc-list: [512, 1024]
+    # Max throughput: 3 prefill (DEP=8 each) + 1 decode (DEP=8). 9 nodes
+    # total with a dedicated NATS/etcd infra node.
+    - conc-list: [4096]
       prefill:
         num-worker: 3
         tp: 8
         ep: 8
         dp-attn: true
         additional-settings:
-        - "CONFIG_FILE=recipes/vllm/deepseek-v4/8k1k/disagg-gb200-3p1d-dep8-dep16.yaml"
+        - "CONFIG_FILE=recipes/vllm/deepseek-v4/8k1k/disagg-gb200-max-tpt.yaml"
       decode:
         num-worker: 1
-        tp: 16
-        ep: 16
-        dp-attn: true
-    # Max throughput: 7 prefills (DP=8) + 1 wide decode (DP=16). 18 nodes
-    # (full cluster). Mirrors NVIDIA/srt-slurm PR #67.
-    - conc-list: [4096, 8192]
-      prefill:
-        num-worker: 7
         tp: 8
         ep: 8
         dp-attn: true
-        additional-settings:
-        - "CONFIG_FILE=recipes/vllm/deepseek-v4/8k1k/disagg-gb200-7p1d-dep8-dep16.yaml"
-      decode:
-        num-worker: 1
-        tp: 16
-        ep: 16
-        dp-attn: true
diff --git a/...arks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/1k1k/disagg-gb200-1p1d-dep8-dep16.yaml b/...arks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/1k1k/disagg-gb200-1p1d-dep8-dep16.yaml
diff --git a/...arks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/1k1k/disagg-gb200-3p1d-dep8-dep16.yaml b/...arks/multi_node/srt-slurm-recipes/vllm/deepseek-v4/1k1k/disagg-gb200-3p1d-dep8-dep16.yaml