From 7eea23f23870d956c892a5fcea158fb2651dc3de Mon Sep 17 00:00:00 2001
From: bukejiyu <52310069+bukejiyu@users.noreply.github.com>
Date: Sat, 6 Dec 2025 00:47:01 +0800
Subject: [PATCH 001/161] cp pr5373 pr5379 pr5410 (#5411)

---
 fastdeploy/model_executor/layers/linear.py | 16 ++++++++++++----
 1 file changed, 12 insertions(+), 4 deletions(-)

diff --git a/fastdeploy/model_executor/layers/linear.py b/fastdeploy/model_executor/layers/linear.py
index e126aed2ba1..14d1e0dcc0c 100644
--- a/fastdeploy/model_executor/layers/linear.py
+++ b/fastdeploy/model_executor/layers/linear.py
@@ -367,11 +367,14 @@ def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = N
             # loaded_shard_id == "kv_a"
             param_shard_offset = self.output_sizes[0]
             param_shard_size = self.output_sizes[1]
-        param_output_dim = True
         if hasattr(param, "tensor_track"):
-            param_output_dim = param.tensor_track.output_dim
             param.tensor_track.mark(start=param_shard_offset, end=param_shard_offset + param_shard_size)
-        param = slice_fn(param, param_output_dim, start=param_shard_offset, end=param_shard_offset + param_shard_size)
+        param = slice_fn(
+            param,
+            (self.fd_config.model_config.model_format == "torch") ^ True,
+            start=param_shard_offset,
+            end=param_shard_offset + param_shard_size,
+        )
         assert param.shape == loaded_weight.shape, (
             f" Attempted to load weight ({loaded_weight.shape}) " f"into parameter ({param.shape})"
         )
@@ -974,7 +977,12 @@ def __init__(
     def process_weights_after_loading(self):
         if self.fd_config.load_config.dynamic_load_weight:
             return
-        w = self.kv_b_proj.weight.reshape(
+        w = (
+            self.kv_b_proj.weight.transpose([1, 0])
+            if self.fd_config.model_config.model_format == "torch"
+            else self.kv_b_proj.weight
+        )
+        w = w.reshape(
             [
                 self.kv_lora_rank,
                 self.num_heads_per_partition,

From 707d1a1fc947c08ef4496e48b72812affb96c45a Mon Sep 17 00:00:00 2001
From: RAM <gstian5555@outlook.com>
Date: Mon, 8 Dec 2025 10:00:35 +0800
Subject: [PATCH 002/161] [New][RL] Support Rollout Routing Replay (#5405)
 (#5408)

* [RL] Support Rollout Routing Replay

* add routing indices cache

* fix config bug and moe forward bug

* R3 Support GLM

* support eb4.5

* fix merge bug

* Apply suggestion from @Copilot


* Apply suggestion from @Copilot


* Apply suggestion from @Copilot


* Apply suggestion from @Copilot


* add routing replay ci

* support glm topk

* support orther top_k

* fix ci bug

* pre-commit

* only support chatcmpl

* Revert "Revert "[RL] Support Rollout Routing Replay (#5321)" (#5402)"

This reverts commit c45e064f3df5a84c98f5427d5fd8a9f6e7d26177.

* Fix XPU and NPU bug

---------

Co-authored-by: Copilot <175728472+Copilot@users.noreply.github.com>
Co-authored-by: Yuanle Liu <yuanlehome@163.com>
---
 fastdeploy/config.py                          |  27 ++
 fastdeploy/engine/args_utils.py               |  22 ++
 fastdeploy/engine/engine.py                   |   1 +
 fastdeploy/model_executor/forward_meta.py     |   2 +
 .../backends/dcu/fused_moe_triton_backends.py |   5 +
 .../gcu/moe/fused_moe_method_gcu_backend.py   |   6 +
 .../intel_hpu/moe/fused_moe_hpu_backend.py    |   8 +
 .../moe/fused_moe_triton_metax_backend.py     |   6 +
 .../layers/backends/xpu/moe/fused_moe.py      |   8 +
 .../layers/moe/fused_moe_backend_base.py      |  11 +-
 .../layers/moe/fused_moe_cutlass_backend.py   |  17 +
 .../layers/moe/fused_moe_deepgemm_backend.py  |  16 +
 .../layers/moe/fused_moe_marlin_backend.py    |   6 +
 .../layers/moe/fused_moe_triton_backend.py    |  18 +
 .../layers/moe/fused_moe_wint2_backend.py     |  10 +
 fastdeploy/model_executor/layers/moe/moe.py   |  60 ++-
 .../layers/moe/routing_indices_cache.py       | 346 ++++++++++++++++++
 fastdeploy/model_executor/models/glm4_moe.py  |   7 +-
 fastdeploy/rl/rollout_config.py               |   2 +
 fastdeploy/worker/gpu_model_runner.py         |  32 ++
 fastdeploy/worker/worker_process.py           |  10 +
 tests/distributed/chunked_moe.py              |   4 +-
 tests/e2e/test_EB_Lite_serving.py             |   2 +
 tests/layers/test_fusedmoe.py                 |   2 +
 tests/layers/test_w4a8_moe.py                 |   2 +
 tests/layers/test_w4afp8_moe.py               |   2 +
 26 files changed, 608 insertions(+), 24 deletions(-)
 create mode 100644 fastdeploy/model_executor/layers/moe/routing_indices_cache.py

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index 63ac382d108..a820e8d94e6 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1484,6 +1484,31 @@ def __str__(self) -> str:
         return json.dumps({key: value for key, value in self.__dict__.items()})
 
 
+class RoutingReplayConfig:
+    """Configuration for Routing Replay used in RL training"""
+
+    def __init__(self, args) -> None:
+        self.enable_routing_replay: bool = False
+        self.routing_store_type: str = "local"
+
+        # Local routing store
+        self.local_store_dir: str = "./routing_replay_output"
+
+        # RDMA routing store
+        # TODO: Add RDMA routing store configuration attributes here when the feature is implemented.
+
+        if args is not None:
+            for key, value in args.items():
+                if hasattr(self, key) and value != "None":
+                    setattr(self, key, value)
+
+    def to_json_string(self):
+        """
+        Convert routing replay config to json string.
+        """
+        return json.dumps({key: value for key, value in self.__dict__.items()})
+
+
 class FDConfig:
     """
     The configuration class which contains all fastdeploy-related configuration. This
@@ -1517,6 +1542,7 @@ def __init__(
         early_stop_config: Optional[Dict[str, Any]] = None,
         tool_parser: str = None,
         test_mode=False,
+        routing_replay_config: Optional[RoutingReplayConfig] = None,
     ):
         self.model_config: ModelConfig = model_config  # type: ignore
         self.cache_config: CacheConfig = cache_config  # type: ignore
@@ -1533,6 +1559,7 @@ def __init__(
         self.plas_attention_config: Optional[PlasAttentionConfig] = plas_attention_config
         self.structured_outputs_config: StructuredOutputsConfig = structured_outputs_config
         self.router_config: RouterConfig = router_config
+        self.routing_replay_config = routing_replay_config
 
         # Initialize cuda graph capture list
         max_capture_shape = self.scheduler_config.max_num_seqs
diff --git a/fastdeploy/engine/args_utils.py b/fastdeploy/engine/args_utils.py
index 1eaf535498a..d2d7c6f908a 100644
--- a/fastdeploy/engine/args_utils.py
+++ b/fastdeploy/engine/args_utils.py
@@ -35,6 +35,7 @@
     PlasAttentionConfig,
     PoolerConfig,
     RouterConfig,
+    RoutingReplayConfig,
     RunnerOption,
     SpeculativeConfig,
     StructuredOutputsConfig,
@@ -491,6 +492,11 @@ class EngineArgs:
     Configuration for eplb.
     """
 
+    routing_replay_config: Optional[Dict[str, Any]] = None
+    """
+    Flag to rollout routing replay(r3)
+    """
+
     def __post_init__(self):
         """
         Post-initialization processing to set default tokenizer if not provided.
@@ -882,6 +888,12 @@ def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
             default=EngineArgs.eplb_config,
             help="Config of eplb.",
         )
+        parallel_group.add_argument(
+            "--routing-replay-config",
+            type=json.loads,
+            default=EngineArgs.routing_replay_config,
+            help="Flag of rollout routing replay(r3).",
+        )
         parallel_group.add_argument(
             "--enable-chunked-moe",
             action="store_true",
@@ -1235,6 +1247,14 @@ def create_eplb_config(self) -> EPLBConfig:
         eplb_args["enable_eplb"] = self.enable_eplb
         return EPLBConfig(eplb_args)
 
+    def create_routing_repaly_config(self) -> RoutingReplayConfig:
+        """ """
+        routing_replay_args = asdict(self)
+        if self.routing_replay_config is not None:
+            for k, v in self.routing_replay_config.items():
+                routing_replay_args[k] = v
+        return RoutingReplayConfig(routing_replay_args)
+
     def create_engine_config(self, port_availability_check=True) -> FDConfig:
         """
         Create and return a Config object based on the current settings.
@@ -1278,6 +1298,7 @@ def create_engine_config(self, port_availability_check=True) -> FDConfig:
         graph_opt_cfg = self.create_graph_optimization_config()
         plas_attention_config = self.create_plas_attention_config()
         eplb_cfg = self.create_eplb_config()
+        routing_replay_config = self.create_routing_repaly_config()
         router_config = RouterConfig(all_dict)
 
         early_stop_cfg = self.create_early_stop_config()
@@ -1310,4 +1331,5 @@ def create_engine_config(self, port_availability_check=True) -> FDConfig:
             graph_opt_config=graph_opt_cfg,
             plas_attention_config=plas_attention_config,
             early_stop_config=early_stop_cfg,
+            routing_replay_config=routing_replay_config,
         )
diff --git a/fastdeploy/engine/engine.py b/fastdeploy/engine/engine.py
index 4a493843df7..fadf954679b 100644
--- a/fastdeploy/engine/engine.py
+++ b/fastdeploy/engine/engine.py
@@ -568,6 +568,7 @@ def _start_worker_service(self):
             f" --logprobs_mode {self.cfg.model_config.logprobs_mode}"
             f" --max_logprobs {self.cfg.model_config.max_logprobs}"
             f" --eplb_config '{self.cfg.eplb_config.to_json_string()}'"
+            f" --routing_replay_config '{self.cfg.routing_replay_config.to_json_string()}'"
         )
         if self.cfg.structured_outputs_config.logits_processors is not None:
             arguments += f" --logits-processors {' '.join(self.cfg.structured_outputs_config.logits_processors)}"
diff --git a/fastdeploy/model_executor/forward_meta.py b/fastdeploy/model_executor/forward_meta.py
index 4e9df0d3ce3..787ec77c0eb 100644
--- a/fastdeploy/model_executor/forward_meta.py
+++ b/fastdeploy/model_executor/forward_meta.py
@@ -142,6 +142,8 @@ class ForwardMeta:
     caches: Optional[list[paddle.Tensor]] = None
     # Flag of profile run
     is_dummy_or_profile_run: bool = False
+    # Routing Replay table buffer
+    routing_replay_table: Optional[paddle.Tensor] = None
 
     # chunked MoE related
     moe_num_chunk: int = 1
diff --git a/fastdeploy/model_executor/layers/backends/dcu/fused_moe_triton_backends.py b/fastdeploy/model_executor/layers/backends/dcu/fused_moe_triton_backends.py
index 918450c74f1..192c0b8833a 100644
--- a/fastdeploy/model_executor/layers/backends/dcu/fused_moe_triton_backends.py
+++ b/fastdeploy/model_executor/layers/backends/dcu/fused_moe_triton_backends.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """
 
+from typing import Callable
+
 import paddle
 from paddle import nn
 
@@ -101,6 +103,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Triton compute Fused MoE.
@@ -117,6 +120,8 @@ def apply(
         scores += layer.gate_correction_bias
         topk_weights, topk_ids = paddle.topk(scores, k=top_k, axis=-1, sorted=False)
         topk_weights = topk_weights / topk_weights.sum(axis=-1, keepdim=True)
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_ids)
 
         intermediate_cache1 = paddle.empty(
             [token_num * top_k, moe_intermediate_size * 2],
diff --git a/fastdeploy/model_executor/layers/backends/gcu/moe/fused_moe_method_gcu_backend.py b/fastdeploy/model_executor/layers/backends/gcu/moe/fused_moe_method_gcu_backend.py
index e67dd6dbdaf..2260d7caf7b 100644
--- a/fastdeploy/model_executor/layers/backends/gcu/moe/fused_moe_method_gcu_backend.py
+++ b/fastdeploy/model_executor/layers/backends/gcu/moe/fused_moe_method_gcu_backend.py
@@ -16,6 +16,7 @@
 
 import multiprocessing
 import os
+from typing import Callable
 
 import numpy as np
 import paddle
@@ -182,6 +183,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Paddle gcu compute Fused MoE.
@@ -194,6 +196,7 @@ def apply_ep_prefill(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP prefill method.
@@ -205,6 +208,7 @@ def apply_ep_decode(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP decoder method.
@@ -216,6 +220,7 @@ def apply_tp(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Paddle Cutlass compute Fused MoE.
@@ -381,6 +386,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Paddle gcu compute Fused MoE.
diff --git a/fastdeploy/model_executor/layers/backends/intel_hpu/moe/fused_moe_hpu_backend.py b/fastdeploy/model_executor/layers/backends/intel_hpu/moe/fused_moe_hpu_backend.py
index d47bfc86b93..8e4d7b1cc5e 100644
--- a/fastdeploy/model_executor/layers/backends/intel_hpu/moe/fused_moe_hpu_backend.py
+++ b/fastdeploy/model_executor/layers/backends/intel_hpu/moe/fused_moe_hpu_backend.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """
 
+from typing import Callable
+
 import paddle
 from paddle import nn
 
@@ -48,6 +50,7 @@ def apply_ep_prefill(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate_out: paddle.Tensor,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP prefill method.
@@ -59,6 +62,7 @@ def apply_ep_decode(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate_out: paddle.Tensor,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP decoder method.
@@ -70,6 +74,7 @@ def apply_tp(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Paddle hpu Fused MoE.
@@ -142,6 +147,7 @@ def apply_ep_prefill(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate_out: paddle.Tensor,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP prefill method.
@@ -153,6 +159,7 @@ def apply_ep_decode(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate_out: paddle.Tensor,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP decoder method.
@@ -164,6 +171,7 @@ def apply_tp(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Paddle hpu Fused MoE.
diff --git a/fastdeploy/model_executor/layers/backends/metax/moe/fused_moe_triton_metax_backend.py b/fastdeploy/model_executor/layers/backends/metax/moe/fused_moe_triton_metax_backend.py
index 7b61d58b6f5..fbbfac277b8 100644
--- a/fastdeploy/model_executor/layers/backends/metax/moe/fused_moe_triton_metax_backend.py
+++ b/fastdeploy/model_executor/layers/backends/metax/moe/fused_moe_triton_metax_backend.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """
 
+from typing import Callable
+
 import paddle
 from paddle import nn
 
@@ -245,6 +247,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Triton compute Fused MoE.
@@ -274,6 +277,9 @@ def apply(
                 True,  # apply_norm_weight
                 False,
             )
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_ids)
+
         up_gate_proj_out = paddle.empty(
             [token_num * top_k, moe_intermediate_size * 2],
             dtype=x.dtype,
diff --git a/fastdeploy/model_executor/layers/backends/xpu/moe/fused_moe.py b/fastdeploy/model_executor/layers/backends/xpu/moe/fused_moe.py
index 3a14e28e305..4356f8cc442 100644
--- a/fastdeploy/model_executor/layers/backends/xpu/moe/fused_moe.py
+++ b/fastdeploy/model_executor/layers/backends/xpu/moe/fused_moe.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """
 
+from typing import Callable
+
 import paddle
 from paddle import nn
 
@@ -235,6 +237,7 @@ def apply_tp_fused_op(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply TP Fused Op.
@@ -262,6 +265,7 @@ def apply_tp_scatter_op(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply TP Scatter Op.
@@ -318,6 +322,7 @@ def apply_tp(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         apply tp
@@ -368,6 +373,7 @@ def apply_ep_prefill(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP prefill method.
@@ -442,6 +448,7 @@ def apply_ep_decode(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP decoder method.
@@ -488,6 +495,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         compute Fused MoE.
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py b/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
index b34291a96f4..a8bd70465ea 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
@@ -15,6 +15,7 @@
 """
 
 from abc import abstractmethod
+from typing import Callable
 
 import paddle
 from paddle import nn
@@ -163,6 +164,7 @@ def apply_ep_prefill(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP prefill method.
@@ -175,6 +177,7 @@ def apply_ep_decode(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP decoder method.
@@ -187,6 +190,7 @@ def apply_tp(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Paddle Cutlass compute Fused MoE.
@@ -198,6 +202,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Paddle Cutlass compute Fused MoE.
@@ -207,13 +212,13 @@ def apply(
             if layer.fd_config.model_config.moe_phase.phase == "prefill":
                 if layer.fd_config.scheduler_config.splitwise_role == "mixed" and is_moe_start_layer:
                     self.ep_prefill_runner.clean_low_latency_buffer()
-                return self.apply_ep_prefill(layer, x, gate)
+                return self.apply_ep_prefill(layer, x, gate, topk_ids_hookfunc=topk_ids_hookfunc)
             else:
                 if layer.fd_config.scheduler_config.splitwise_role == "mixed" and is_moe_start_layer:
                     self.ep_decoder_runner.clean_low_latency_buffer()
-                return self.apply_ep_decode(layer, x, gate)
+                return self.apply_ep_decode(layer, x, gate, topk_ids_hookfunc=topk_ids_hookfunc)
         else:
-            return self.apply_tp(layer, x, gate)
+            return self.apply_tp(layer, x, gate, topk_ids_hookfunc=topk_ids_hookfunc)
 
 
 class UnquantizedFusedMoEMethod(MoEMethodBase):
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_cutlass_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_cutlass_backend.py
index e45ad63b19c..c3dbfc9ba5f 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_cutlass_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_cutlass_backend.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """
 
+from typing import Callable
+
 import paddle
 from paddle import nn
 from paddle.nn.quant import weight_quantize
@@ -132,6 +134,7 @@ def apply_ep_prefill(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP prefill method.
@@ -148,8 +151,13 @@ def apply_ep_prefill(
             handle,
             event,
         ) = self.ep_prefill_runner.dispatch(x, topk_idx, topk_weights)
+
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_idx)
+
         if self.ep_prefill_runner.ep_engine.async_finish:
             event.current_stream_wait()
+
         token_all_num = sum(recv_num_tokens_per_expert_list)
 
         # 3. Compute ffn
@@ -217,6 +225,7 @@ def apply_ep_decode(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP decoder method.
@@ -225,6 +234,10 @@ def apply_ep_decode(
         estimate_total_token_nums = gate_out.shape[0] * layer.top_k
         # 1. Select topk experts and weights
         topk_idx, topk_weights = self.ep_decoder_runner.moe_select(layer, gate_out)
+
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_idx)
+
         expertwise_scale = None
         if hasattr(layer, "up_gate_proj_in_scale_all_experts"):  # only use in w4a8
             expertwise_scale = getattr(layer, "up_gate_proj_in_scale_all_experts", None)
@@ -269,6 +282,7 @@ def apply_tp(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Paddle Cutlass compute Fused MoE.
@@ -369,6 +383,9 @@ def apply_tp(
         if hasattr(layer, "up_gate_proj_in_scale"):
             dequant_scale = None
 
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_idx)
+
         if not layer.with_bias and self.moe_quant_type != "w4a8" and self.moe_quant_type != "w4afp8":
             # only w4a8 need expert_idx_per_token
             # Other need not this tensor, so we make it None.
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
index 1245cddcebc..881f9a22c4d 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """
 
+from typing import Callable
+
 import paddle
 from paddle import nn
 from paddle.distributed.communication import deep_ep
@@ -139,6 +141,7 @@ def apply_ep_prefill(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP prefill method.
@@ -147,6 +150,10 @@ def apply_ep_prefill(
 
         # 1. Select topk experts and weights
         topk_idx, topk_weights = self.ep_prefill_runner.moe_select(layer, gate_out)
+
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_idx)
+
         # 2. Dynamic compute blockwise quantization scales
         x, x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
             x, self.quant_config.weight_block_size[0]
@@ -264,6 +271,7 @@ def apply_ep_decode(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Apply the EP decoder method.
@@ -271,6 +279,10 @@ def apply_ep_decode(
         gate_out = gate(x.cast("float32"))
         # 1. Select topk experts and weights
         topk_idx, topk_weights = self.ep_decoder_runner.moe_select(layer, gate_out)
+
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_idx)
+
         # 2. EP Dispatch
         permute_input, token_nums_per_expert, handle = self.ep_decoder_runner.dispatch(
             x, topk_idx, topk_weights, use_fp8=True
@@ -335,6 +347,7 @@ def apply_tp(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Paddle Use DeepGemm compute Fused MoE.
@@ -363,6 +376,9 @@ def apply_tp(
                 False,
             )
 
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_ids)
+
         tmp = count_tokens_per_expert_func(topk_ids, layer.num_experts)
 
         recv_x, recv_x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(x, 128)
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_marlin_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_marlin_backend.py
index 094d3df8f1a..cd836dbaf09 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_marlin_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_marlin_backend.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """
 
+from typing import Callable
+
 import paddle
 from paddle import nn
 
@@ -239,6 +241,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Marlin compute Fused MoE.
@@ -273,6 +276,9 @@ def apply(
                 False,
             )
 
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_ids)
+
         block_size_m = 64
 
         for m in [8, 16, 32, 48, 64]:
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
index 3c14859375c..2861d96e8d3 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """
 
+from typing import Callable
+
 import paddle
 from paddle import nn
 
@@ -282,6 +284,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Triton compute Fused MoE.
@@ -314,6 +317,10 @@ def apply(
                 True,  # apply_norm_weight,
                 False,
             )
+
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_ids)
+
         up_gate_proj_out = paddle.empty(
             [token_num * top_k, moe_intermediate_size * 2],
             dtype=x.dtype,
@@ -664,6 +671,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Triton compute Fused MoE.
@@ -724,6 +732,9 @@ def apply(
             * ceil_div(moe_intermediate_size * 2, config["BLOCK_SIZE_N"]),
         )
 
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_ids)
+
         up_gate_proj_out = paddle.empty(
             [token_num * top_k, moe_intermediate_size * 2],
             dtype=x.dtype,
@@ -953,6 +964,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Triton compute Fused MoE.
@@ -974,6 +986,9 @@ def apply(
             False,
         )
 
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_ids)
+
         up_gate_proj_out = paddle.empty(
             [token_num * top_k, moe_intermediate_size * 2],
             dtype=x.dtype,
@@ -1466,6 +1481,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Triton compute Fused MoE.
@@ -1488,6 +1504,8 @@ def apply(
             True,  # apply_norm_weight
             False,
         )
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_ids)
 
         config = {
             "BLOCK_SIZE_M": 64,
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_wint2_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_wint2_backend.py
index f75e36bcbdd..3c548ba57c8 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_wint2_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_wint2_backend.py
@@ -14,6 +14,8 @@
 # limitations under the License.
 """
 
+from typing import Callable
+
 import paddle
 from paddle import nn
 
@@ -261,6 +263,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Use Wint2 Triton Fusedmoe compute Fused MoE.
@@ -288,6 +291,9 @@ def apply(
             topk_only_mode=False,
         )
 
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_idx)
+
         ffn_out = fastdeploy.model_executor.ops.gpu.moe_expert_ffn_wint2(
             permute_input,
             token_nums_per_expert,
@@ -328,6 +334,7 @@ def apply(
         layer: nn.Layer,
         x: paddle.Tensor,
         gate: nn.Layer,
+        topk_ids_hookfunc: Callable = None,
     ) -> paddle.Tensor:
         """
         Use Wint2 Triton Fusedmoe compute Fused MoE.
@@ -343,6 +350,9 @@ def apply(
             False,
         )
 
+        if topk_ids_hookfunc is not None:
+            topk_ids_hookfunc(topk_ids=topk_ids)
+
         num_tokens, K = x.shape
         E, _, N = layer.up_gate_proj_weight.shape
         M = num_tokens
diff --git a/fastdeploy/model_executor/layers/moe/moe.py b/fastdeploy/model_executor/layers/moe/moe.py
index 743e05031f6..5b1be52d183 100644
--- a/fastdeploy/model_executor/layers/moe/moe.py
+++ b/fastdeploy/model_executor/layers/moe/moe.py
@@ -14,7 +14,8 @@
 # limitations under the License.
 """
 
-from typing import Optional
+from functools import partial
+from typing import Callable, Optional
 
 import paddle
 from paddle import nn
@@ -26,6 +27,9 @@
     tensor_model_parallel_all_reduce_custom,
 )
 from fastdeploy.model_executor.forward_meta import ForwardMeta
+from fastdeploy.model_executor.layers.moe.routing_indices_cache import (
+    save_routing_to_buffer,
+)
 from fastdeploy.model_executor.layers.utils import get_tensor
 from fastdeploy.model_executor.utils import h2d_copy, slice_fn
 from fastdeploy.platforms import current_platform
@@ -226,7 +230,7 @@ def __init__(
         self.is_rearrange = False
         if self.ep_size > 1:
             self.quant_method.init_ep(self)
-
+        self.enable_routing_replay = fd_config.routing_replay_config.enable_routing_replay
         # Merge normal and RL build model
         if gate_correction_bias is not None:
             self.gate_correction_bias = gate_correction_bias
@@ -600,7 +604,7 @@ def load_state_dict(self, state_dict, is_rearrange: bool = False):
         else:
             self.quant_method.process_loaded_weights(self, state_dict)
 
-    def forward_split_allgather(self, x: paddle.Tensor, gate: nn.Layer):
+    def forward_split_allgather(self, x: paddle.Tensor, gate: nn.Layer, topk_ids_hookfunc: Callable = None):
         """
         Forward split allgather function.
         """
@@ -615,14 +619,14 @@ def forward_split_allgather(self, x: paddle.Tensor, gate: nn.Layer):
         if end_offset > token_num:
             end_offset = token_num
         part_x[: (end_offset - start_offset), :] = x[start_offset:end_offset, :]
-        out = self.quant_method.apply(self, part_x, gate)
+        out = self.quant_method.apply(self, part_x, gate, topk_ids_hookfunc=topk_ids_hookfunc)
         multi_outs = paddle.zeros([token_num_per_rank * self.attn_tp_size, x.shape[1]], dtype=x.dtype)
         paddle.distributed.all_gather(multi_outs, out, self.tp_group)
         out = multi_outs[:token_num, :]
 
         return out
 
-    def forward(self, x: paddle.Tensor, gate: nn.Layer, forward_meta: ForwardMeta):
+    def forward(self, x: paddle.Tensor, gate: nn.Layer, forward_meta: ForwardMeta = None):
         """
         Defines the forward computation of the moe layer.
 
@@ -633,6 +637,21 @@ def forward(self, x: paddle.Tensor, gate: nn.Layer, forward_meta: ForwardMeta):
             Tensor: Output tensor.s
 
         """
+        topk_ids_hookfunc = None
+        if self.enable_routing_replay:
+            if forward_meta is not None:  # forward_meta is None when execute empty_input_forward
+                topk_ids_hookfunc = partial(
+                    save_routing_to_buffer,
+                    routing_replay_table=forward_meta.routing_replay_table,
+                    batch_id_per_token=forward_meta.batch_id_per_token,
+                    seq_lens_decoder=forward_meta.seq_lens_decoder,
+                    cu_seqlens_q=forward_meta.cu_seqlens_q,
+                    layer_idx=self.layer_idx,
+                    tp_size=self.fd_config.parallel_config.tensor_parallel_size,
+                    ep_size=self.fd_config.parallel_config.expert_parallel_size,
+                    tp_group=self.fd_config.parallel_config.tp_group,
+                )
+
         token_num = x.shape[0]
         if (
             self.ep_size > 1
@@ -640,11 +659,16 @@ def forward(self, x: paddle.Tensor, gate: nn.Layer, forward_meta: ForwardMeta):
             and (not self.fd_config.parallel_config.use_sequence_parallel_moe)
             and token_num >= self.attn_tp_size
         ):
-            out = self.forward_split_allgather(x, gate)
+            out = self.forward_split_allgather(x, gate, topk_ids_hookfunc=topk_ids_hookfunc)
         elif self.fd_config.parallel_config.use_ep and self.fd_config.parallel_config.enable_chunked_moe:
-            out = self.forward_chunked_moe(x, gate, forward_meta)
+            out = self.forward_chunked_moe(
+                x,
+                gate,
+                forward_meta,
+                topk_ids_hookfunc=topk_ids_hookfunc,
+            )
         else:
-            out = self.forward_normal(x, gate)
+            out = self.forward_normal(x, gate, forward_meta, topk_ids_hookfunc=topk_ids_hookfunc)
 
         if self.reduce_results and self.tp_size > 1:
             if current_platform.is_intel_hpu():
@@ -653,7 +677,9 @@ def forward(self, x: paddle.Tensor, gate: nn.Layer, forward_meta: ForwardMeta):
                 out = tensor_model_parallel_all_reduce(out, self.tp_group)
         return out
 
-    def forward_chunked_moe(self, x: paddle.Tensor, gate: nn.Layer, forward_meta: ForwardMeta):
+    def forward_chunked_moe(
+        self, x: paddle.Tensor, gate: nn.Layer, forward_meta: ForwardMeta, topk_ids_hookfunc: Callable = None
+    ):
         """
         Split input to multi chunk to reduce the memory usage of moe.
 
@@ -677,21 +703,25 @@ def forward_chunked_moe(self, x: paddle.Tensor, gate: nn.Layer, forward_meta: Fo
 
             for i in range(forward_meta.max_moe_num_chunk):
                 if i < forward_meta.moe_num_chunk:
-                    out_split_list[i] = self.quant_method.apply(self, x_split_list[i], gate)
+                    out_split_list[i] = self.quant_method.apply(
+                        self, x_split_list[i], gate, topk_ids_hookfunc=topk_ids_hookfunc
+                    )
                 else:
                     # just need to use real data to infer max_moe_num_chunk times.
-                    self.quant_method.apply(self, fake_x, gate)
+                    self.quant_method.apply(self, fake_x, gate, topk_ids_hookfunc=topk_ids_hookfunc)
 
             out = paddle.concat(out_split_list, axis=0)
         else:
             # when only one chunk, just need to use real data to infer once.
-            out = self.quant_method.apply(self, x, gate)
+            out = self.quant_method.apply(self, x, gate, topk_ids_hookfunc=topk_ids_hookfunc)
             for i in range(forward_meta.max_moe_num_chunk - 1):
-                self.quant_method.apply(self, fake_x, gate)
+                self.quant_method.apply(self, fake_x, gate, topk_ids_hookfunc=topk_ids_hookfunc)
 
         return out
 
-    def forward_normal(self, x: paddle.Tensor, gate: nn.Layer):
+    def forward_normal(
+        self, x: paddle.Tensor, gate: nn.Layer, forward_meta: ForwardMeta, topk_ids_hookfunc: Callable = None
+    ):
         """
         Normal mode of forward.
 
@@ -702,5 +732,5 @@ def forward_normal(self, x: paddle.Tensor, gate: nn.Layer):
             Tensor: Output tensor.s
 
         """
-        out = self.quant_method.apply(self, x, gate)
+        out = self.quant_method.apply(self, x, gate, topk_ids_hookfunc=topk_ids_hookfunc)
         return out
diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
new file mode 100644
index 00000000000..e95a3d8569f
--- /dev/null
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -0,0 +1,346 @@
+"""
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+
+import copy
+import os
+import shutil
+from abc import ABC, abstractmethod
+from typing import Dict, List, Optional
+
+import paddle
+import paddle.distributed as dist
+import triton
+import triton.language as tl
+
+from fastdeploy.config import FDConfig
+
+
+@triton.jit
+def _save_routing_kernel(
+    ROUTING_REPLAY_TABLE_PTR,
+    TOPK_IDS_PTR,
+    BATCH_ID_PER_TOKEN_PTR,
+    CU_SEQLENS_Q_PTR,
+    SEQ_LENS_DECODER_PTR,
+    LAYER_IDX,
+    TOKEN_NUM,
+    TOP_K,
+    NUM_HIDDEN_LAYERS,
+    MAX_MODEL_LEN,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+
+    token_offsets = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    token_mask = token_offsets < TOKEN_NUM
+
+    k_offsets = tl.arange(0, BLOCK_SIZE_K)
+
+    k_mask = k_offsets < TOP_K
+
+    topk_ids_ptrs = TOPK_IDS_PTR + token_offsets[:, None] * TOP_K + k_offsets[None, :]
+    # [BLOCK_SIZE_M, BLOCK_SIZE_K]
+
+    load_mask = token_mask[:, None] & k_mask[None, :]
+    topk_vals = tl.load(topk_ids_ptrs, mask=load_mask)
+
+    batch_ids = tl.load(BATCH_ID_PER_TOKEN_PTR + token_offsets, mask=token_mask)
+    pad_mask = token_mask & (batch_ids != -1)
+    # [0, 3, 4, 10, 12][0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 3, 3]
+    # -> [0, 0, 0, 0, 4, 4, 4, 4, 4, 4, 10, 10]
+    # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11] - [0, 0, 0, 0, 4, 4, 4, 4, 4, 4, 10, 10]
+    # -> [0, 1, 2, 3, 0, 1, 2, 3, 4, 5, 0, 1]
+    start_offsets = tl.load(CU_SEQLENS_Q_PTR + batch_ids, mask=pad_mask)
+    token_relative_index = token_offsets - start_offsets
+
+    # [BLOCK_SIZE_M]
+    len_decoder = tl.load(SEQ_LENS_DECODER_PTR + batch_ids, mask=pad_mask)
+    token_seq_pos = len_decoder + token_relative_index
+
+    STRIDE_BUF_SEQ = NUM_HIDDEN_LAYERS * MAX_MODEL_LEN * TOP_K
+    STRIDE_BUF_LAYER = MAX_MODEL_LEN * TOP_K
+    STRIDE_BUF_TOKEN = TOP_K
+
+    # [BLOCK_SIZE_M, BLOCK_SIZE_K]
+    output_ptrs = (
+        ROUTING_REPLAY_TABLE_PTR
+        + batch_ids[:, None] * STRIDE_BUF_SEQ
+        + LAYER_IDX * STRIDE_BUF_LAYER
+        + token_seq_pos[:, None] * STRIDE_BUF_TOKEN
+        + k_offsets[None, :]
+    )
+
+    pos_mask = token_seq_pos < MAX_MODEL_LEN
+    pos_mask = pos_mask & pad_mask
+
+    # [BLOCK_SIZE_M, BLOCK_SIZE_K]
+    pos_mask = pos_mask[:, None] & k_mask[None, :]
+
+    final_mask = load_mask & pos_mask
+
+    tl.store(output_ptrs, topk_vals, mask=final_mask)
+
+
+def save_routing_to_buffer(
+    routing_replay_table: paddle.Tensor,  # [max_num_seqs, num_layers, max_len, top_k]
+    topk_ids: paddle.Tensor,  # [token_num, top_k]
+    batch_id_per_token: paddle.Tensor,  # [token_num, 1]
+    seq_lens_decoder: paddle.Tensor,  # [max_num_seqs, 1]
+    cu_seqlens_q: paddle.Tensor,  # [max_num_seqs + 1, 1]
+    layer_idx: int,
+    tp_size: int,
+    ep_size: int,
+    tp_group: dist.communication.group.Group,
+):
+    if tp_size > 1 and ep_size > 1:
+        token_num_per_rank = topk_ids.shape[0]
+        topk_ids_all = paddle.zeros([token_num_per_rank * tp_size, topk_ids.shape[1]], dtype=topk_ids.dtype)
+        paddle.distributed.all_gather(topk_ids_all, topk_ids, tp_group)
+        topk_ids = topk_ids_all[: batch_id_per_token.shape[0], :]
+
+    token_num, top_k = topk_ids.shape
+    max_num_seqs, num_hidden_layers, max_model_len, _ = routing_replay_table.shape
+    assert token_num > 0
+
+    assert topk_ids.shape[1] == routing_replay_table.shape[3], (topk_ids.shape[1], routing_replay_table.shape[3])
+    assert batch_id_per_token.shape[0] == token_num, (batch_id_per_token.shape[0], token_num)
+    assert seq_lens_decoder.shape[0] == max_num_seqs, (seq_lens_decoder.shape[0], max_num_seqs)
+
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_K = triton.next_power_of_2(top_k)  # top_k
+
+    grid = (triton.cdiv(token_num, BLOCK_SIZE_M),)
+    _save_routing_kernel[grid](
+        routing_replay_table,
+        topk_ids,
+        batch_id_per_token,
+        cu_seqlens_q,
+        seq_lens_decoder,
+        LAYER_IDX=layer_idx,
+        TOKEN_NUM=token_num,
+        TOP_K=top_k,
+        NUM_HIDDEN_LAYERS=num_hidden_layers,
+        MAX_MODEL_LEN=max_model_len,
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+    )
+
+
+class RoutingReplayManager:
+    """Request level routing replay table manager"""
+
+    def __init__(
+        self,
+        fd_config: FDConfig,
+    ):
+        self.max_num_seqs = fd_config.scheduler_config.max_num_seqs
+        self.max_model_len = fd_config.model_config.max_model_len
+        self.num_moe_layers = fd_config.model_config.num_hidden_layers - fd_config.model_config.moe_layer_start_index
+
+        if fd_config.model_config.architectures[0] == "Glm4MoeForCausalLM":
+            self.moe_top_k = fd_config.model_config.num_experts_per_tok
+        else:
+            self.moe_top_k = fd_config.model_config.moe_k
+        self.tp_rank = fd_config.parallel_config.tensor_parallel_rank
+
+        self.routing_store = get_routing_store(fd_config=fd_config)
+        self.routing_batch_to_request: Dict[int, str] = {}
+        self.routing_replay_table = paddle.full(
+            shape=[self.max_num_seqs, self.num_moe_layers, self.max_model_len, self.moe_top_k],
+            fill_value=-1,
+            dtype="int32",
+        )
+
+    def register_request(self, batch_id: int, request_id: str):
+        """
+        Register a new request to routing replay table
+        Args:
+            batch_id: The batch ID of this request
+            request_id: The global ID of the request is usually executed by the training process in RL
+        """
+        # Save requests that have been finished for the current slot
+        if batch_id in self.routing_batch_to_request:
+            pre_request_id = self._deregister_request(batch_id)
+            self._put_request_to_store(batch_id, pre_request_id)
+        # Register the new request
+        self.routing_batch_to_request[batch_id] = request_id
+
+    def _deregister_request(self, batch_id: int) -> str:
+        """
+        Deregister a request from routing replay table
+        """
+        assert batch_id in self.routing_batch_to_request
+        return self.routing_batch_to_request.pop(batch_id)
+
+    def _put_request_to_store(
+        self,
+        batch_id: int,
+        request_id: str,
+    ):
+        if self.tp_rank == 0:
+            batch_buffer = self.routing_replay_table[batch_id]
+            for layer_id in range(self.num_moe_layers):
+                layer_buffer = batch_buffer[layer_id]
+                rollout_id = self.split_request_id(request_id)
+                self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)
+
+        self._clear_table_slot(batch_id)
+
+    def put_table_to_store(self):
+        """Put the routing table"""
+        batch_ids = copy.deepcopy(list(self.routing_batch_to_request.keys()))
+        for batch_id in batch_ids:
+            request_id = self._deregister_request(batch_id)
+            self._put_request_to_store(batch_id, request_id)
+
+    def _clear_table_slot(self, batch_id: int):
+        assert 0 <= batch_id < self.max_num_seqs
+        self.routing_replay_table[batch_id].fill_(-1)
+
+    def clear_routing_table(self):
+        """Clear all slots of the routing replay table"""
+        self.routing_replay_table.fill_(-1)
+
+    def _clear_store(self):
+        """Clear routing store"""
+        self.routing_store.clear_store()
+
+    def _clear_request_of_store(self, request_id):
+        """Clear one request of routing store"""
+        rollout_id = self.split_request_id(request_id)
+        for layer_idx in range(self.num_moe_layers):
+            self.routing_store.clear(rollout_id=rollout_id, layer_idx=layer_idx)
+
+    def get_request_from_store(self, request_id: str) -> List[paddle.Tensor]:
+        """Get the routing indices of the request from store"""
+        routing_list = []
+        rollout_id = self.split_request_id(request_id)
+        for layer_idx in range(self.num_moe_layers):
+            one_layer_routing = self.routing_store.get(rollout_id, layer_idx)
+            routing_list.append(one_layer_routing)
+
+        return routing_list
+
+    def get_routing_table(self) -> paddle.Tensor:
+        return self.routing_replay_table
+
+    def split_request_id(self, request_id: str):
+        """Split the request id to get rollout id"""
+        chat_type, tmp_str = request_id.split("-", 1)
+        # NOTE(gongshaotian): only support chatcmpl now
+        # assert chat_type == "chatcmpl"
+        reversed_tmp_str = tmp_str[::-1].split("-", 5)
+        rollout_id = reversed_tmp_str[-1][::-1]
+        return rollout_id
+
+
+class RoutingStoreBase(ABC):
+    """Base class for routing store"""
+
+    def __init__(self, fd_config: FDConfig) -> None:
+        self.fd_config = fd_config
+
+    @abstractmethod
+    def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: Optional[int] = None) -> None:
+        """Put the routing indices into store"""
+        raise NotImplementedError
+
+    @abstractmethod
+    def get(self, rollout_id: str, layer_idx: Optional[int] = None) -> paddle.Tensor:
+        """Get the routing indices from store"""
+        raise NotImplementedError
+
+    @abstractmethod
+    def clear(self, rollout_id: str, layer_idx: Optional[int] = None) -> None:
+        """Clear the routing indices of the request"""
+        raise NotImplementedError
+
+    @abstractmethod
+    def clear_store(
+        self,
+    ):
+        """Clear the routing indices store"""
+        raise NotImplementedError
+
+
+class RoutingStoreLocal(RoutingStoreBase):
+    """Routing Store using local memory"""
+
+    def __init__(self, fd_config) -> None:
+        super().__init__(fd_config=fd_config)
+        self.local_store_dir = fd_config.routing_replay_config.local_store_dir
+
+    def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+        """Put the routing indices into store"""
+        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
+        os.makedirs(dir_path, exist_ok=True)
+        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
+        paddle.save(routing_indices, file_path)
+
+    def get(
+        self,
+        rollout_id: str,
+        layer_idx: int = None,
+    ) -> paddle.Tensor:
+        """Get the routing indices from store"""
+        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
+        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
+        assert os.path.exists(file_path), f"File not found: {file_path}"
+        layer_routing_indices = paddle.load(file_path)
+
+        return layer_routing_indices
+
+    def clear(
+        self,
+        rollout_id: str,
+        layer_idx: int = None,
+    ) -> None:
+        """Clear the routing indices of the request"""
+        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
+        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
+        assert os.path.exists(file_path), f"File not found: {file_path}"
+        os.remove(file_path)
+
+        # Delete empty directory
+        if len(os.listdir(dir_path)) == 0:
+            os.rmdir(dir_path)
+
+    def clear_store(self):
+        """Clear the routing indices store"""
+        if os.path.isdir(self.local_store_dir):
+            for file_name in os.listdir(self.local_store_dir):
+                file_path = os.path.join(self.local_store_dir, file_name)
+                shutil.rmtree(file_path)
+
+
+class RoutingStoreRDMA(RoutingStoreBase):
+    """Routing Store using RDMA"""
+
+    def __init__(self) -> None:
+        super().__init__()
+
+
+def get_routing_store(fd_config: FDConfig) -> RoutingStoreBase:
+    if fd_config.routing_replay_config.routing_store_type == "local":
+        return RoutingStoreLocal(fd_config=fd_config)
+    elif fd_config.routing_replay_config.routing_store_type == "rdma":
+        return RoutingStoreRDMA(fd_config=fd_config)
+    else:
+        raise ValueError(
+            f"Invalid routing store type: '{fd_config.routing_replay_config.routing_store_type}'. "
+            "Valid types are: 'local', 'rdma'"
+        )
diff --git a/fastdeploy/model_executor/models/glm4_moe.py b/fastdeploy/model_executor/models/glm4_moe.py
index d5ad6e3916b..0cc7c4dae45 100644
--- a/fastdeploy/model_executor/models/glm4_moe.py
+++ b/fastdeploy/model_executor/models/glm4_moe.py
@@ -161,7 +161,7 @@ def __init__(
             reduce_results=False,
         )
 
-    def forward(self, x, forward_meta):
+    def forward(self, x, forward_meta: ForwardMeta = None):
         shared_experts_out = self.shared_experts(x)
         out = self.experts(x, self.gate, forward_meta)
         out = out + shared_experts_out
@@ -306,10 +306,7 @@ def forward(
         # Fully Connected
         hidden_states, residual = self.post_attention_layernorm(hidden_states, residual)
 
-        hidden_states = self.mlp(
-            hidden_states,
-            forward_meta,
-        )
+        hidden_states = self.mlp(hidden_states, forward_meta)
 
         return hidden_states, residual
 
diff --git a/fastdeploy/rl/rollout_config.py b/fastdeploy/rl/rollout_config.py
index 6bd3c3bcb35..f7ff748fed7 100644
--- a/fastdeploy/rl/rollout_config.py
+++ b/fastdeploy/rl/rollout_config.py
@@ -65,6 +65,7 @@ def __init__(
         data_parallel_size: int = 1,
         num_nextn_predict_layers: int = 0,
         eplb_config: str = {},
+        routing_replay_config: str = None,
     ):
         # Required parameters
         self.model = model_name_or_path
@@ -113,6 +114,7 @@ def __init__(
         self.plas_attention_config = plas_attention_config
         self.num_nextn_predict_layers = num_nextn_predict_layers
         self.eplb_config = eplb_config
+        self.routing_replay_config = routing_replay_config
 
     def __str__(self):
         return "\n".join(f"{k}: {v}" for k, v in self.__dict__.items())
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 2d5f47def46..9b550f10438 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -45,6 +45,9 @@
 from fastdeploy.model_executor.layers.attention.base_attention_backend import (
     AttentionBackend,
 )
+from fastdeploy.model_executor.layers.moe.routing_indices_cache import (
+    RoutingReplayManager,
+)
 from fastdeploy.model_executor.layers.rotary_embedding import get_rope, get_rope_3d
 from fastdeploy.model_executor.layers.sample.meta_data import SamplingMetadata
 from fastdeploy.model_executor.layers.sample.sampler import Sampler, SpeculativeSampler
@@ -202,6 +205,11 @@ def __init__(
         os.environ["INFERENCE_MSG_QUEUE_ID"] = str(self.parallel_config.engine_worker_queue_port)
         logger.info(f"queue id is {str(self.parallel_config.engine_worker_queue_port)}")
 
+        # Rollout routing replay config
+        self.routing_replay_manager = None
+        if self.fd_config.routing_replay_config.enable_routing_replay:
+            self.routing_replay_manager = RoutingReplayManager(fd_config=self.fd_config)
+
         self.zmq_client = None
         self.async_output_queue = None
         if envs.FD_USE_GET_SAVE_OUTPUT_V1:
@@ -648,6 +656,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                 self.share_inputs["step_seq_lens_decoder"][idx : idx + 1] = 0
                 self.share_inputs["prompt_lens"][idx : idx + 1] = len(input_ids)
                 self.share_inputs["is_block_step"][idx : idx + 1] = False
+                self.share_inputs["is_chunk_step"][idx : idx + 1] = prefill_end_index < len(input_ids)
                 self.share_inputs["step_idx"][idx : idx + 1] = (
                     len(request.output_token_ids) if prefill_end_index >= len(input_ids) else 0
                 )
@@ -656,6 +665,12 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                 if request.sampling_params is not None and request.sampling_params.prompt_logprobs is not None:
                     self.prompt_logprobs_reqs[request.request_id] = request
                 has_prefill_task = True
+
+                # Routing Replay
+                if self.fd_config.routing_replay_config.enable_routing_replay:
+                    if prefill_start_index == 0:
+                        self.routing_replay_manager.register_request(batch_id=idx, request_id=request.request_id)
+
                 if (
                     self.fd_config.scheduler_config.splitwise_role == "decode"
                 ):  # In PD, we continue to decode after P generate first token
@@ -1152,6 +1167,7 @@ def _init_share_inputs(self, max_num_seqs: int):
         self.share_inputs["bad_tokens_len"] = paddle.full([max_num_seqs], 1, dtype="int64")
         self.share_inputs["next_tokens"] = paddle.full([max_num_seqs, 1], -1, dtype="int64")
         self.share_inputs["is_block_step"] = paddle.full([max_num_seqs], False, dtype="bool")
+        self.share_inputs["is_chunk_step"] = paddle.full([max_num_seqs], False, dtype="bool").cpu()
         self.share_inputs["encoder_block_lens"] = paddle.full([max_num_seqs], 0, dtype="int32")
         self.share_inputs["step_block_list"] = paddle.full([max_num_seqs], -1, dtype="int32")
         self.share_inputs["step_lens"] = paddle.full([1], 0, dtype="int32")
@@ -1422,6 +1438,9 @@ def initialize_forward_meta(self, is_dummy_or_profile_run=False):
         Initialize forward meta, attention meta data and update some config.
         """
         # Initialize forward meta
+        routing_replay_table = None
+        if self.routing_replay_manager is not None:
+            routing_replay_table = self.routing_replay_manager.get_routing_table()
         self.forward_meta = ForwardMeta(
             ids_remove_padding=self.share_inputs["ids_remove_padding"],
             rotary_embs=self.share_inputs["rope_emb"],
@@ -1448,6 +1467,7 @@ def initialize_forward_meta(self, is_dummy_or_profile_run=False):
             kv_batch_ids=self.share_inputs["kv_batch_ids"],
             kv_tile_ids_per_batch=self.share_inputs["kv_tile_ids_per_batch"],
             kv_num_blocks_x_cpu=self.share_inputs["kv_num_blocks_x_cpu"],
+            routing_replay_table=routing_replay_table,
         )
 
         dist_status = self.collect_distributed_status()
@@ -1936,6 +1956,9 @@ def _dummy_run(
             if int((self.share_inputs["seq_lens_this_time"] > 0).sum()) == 0:
                 break
 
+        if self.fd_config.routing_replay_config.enable_routing_replay:
+            self.routing_replay_manager.clear_routing_table()
+
     def _update_chunked_prefill(self, tasks):
         """
         Update chunked prefill related parameters
@@ -2434,6 +2457,15 @@ class at the server level, which is too granular for ModelRunner.
                     self.speculative_config.num_speculative_tokens,
                 )
 
+        # Routing replay
+        if self.fd_config.routing_replay_config.enable_routing_replay:
+            if (
+                not self.exist_prefill()
+                and not self.exist_decode()
+                and self.share_inputs["is_block_step"].sum() == 0
+                and self.share_inputs["is_chunk_step"].sum() == 0
+            ):
+                self.routing_replay_manager.put_table_to_store()
             return None
 
     def _pool(self, hidden_states: paddle.Tensor, num_running_requests: int) -> Optional[ModelRunnerOutput]:
diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 02d66f4bc53..0c29ce4d757 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -38,6 +38,7 @@
     ModelConfig,
     ParallelConfig,
     PlasAttentionConfig,
+    RoutingReplayConfig,
     SpeculativeConfig,
     StructuredOutputsConfig,
 )
@@ -885,6 +886,13 @@ def parse_args():
         help="EPLB Configuration.",
     )
 
+    parser.add_argument(
+        "--routing_replay_config",
+        type=json.loads,
+        default=None,
+        help="Configation of Rollout Routing Replay.",
+    )
+
     args = parser.parse_args()
     return args
 
@@ -944,6 +952,7 @@ def initialize_fd_config(args, ranks: int = 1, local_rank: int = 0) -> FDConfig:
     eplb_config = EPLBConfig(args.eplb_config)
 
     structured_outputs_config: StructuredOutputsConfig = StructuredOutputsConfig(args=vars(args))
+    routing_replay_config = RoutingReplayConfig(args.routing_replay_config)
 
     # Note(tangbinhan): used for load_checkpoint
     model_config.pretrained_config.tensor_parallel_rank = parallel_config.tensor_parallel_rank
@@ -1003,6 +1012,7 @@ def initialize_fd_config(args, ranks: int = 1, local_rank: int = 0) -> FDConfig:
         plas_attention_config=plas_attention_config,
         structured_outputs_config=structured_outputs_config,
         eplb_config=eplb_config,
+        routing_replay_config=routing_replay_config,
     )
     update_fd_config_for_mm(fd_config)
     if fd_config.load_config.load_choices == "default_v1" and not v1_loader_support(fd_config):
diff --git a/tests/distributed/chunked_moe.py b/tests/distributed/chunked_moe.py
index 0be645d38e2..ef41a610dcb 100644
--- a/tests/distributed/chunked_moe.py
+++ b/tests/distributed/chunked_moe.py
@@ -90,7 +90,7 @@ def init_attention_metadata(self, forward_meta):
 
 
 class MockQuantMethod:
-    def apply(self, layer, x, gate):
+    def apply(self, layer, x, gate, topk_ids_hookfunc=None):
         return x
 
 
@@ -129,6 +129,7 @@ def setup_model_runner(self):
         model_runner.speculative_decoding = False
         model_runner._init_share_inputs(mock_fd_config.scheduler_config.max_num_seqs)
         model_runner.share_inputs["caches"] = None
+        model_runner.routing_replay_manager = None
 
         if dist.get_rank() == 0:
             model_runner.share_inputs["ids_remove_padding"] = paddle.ones([10])
@@ -148,6 +149,7 @@ def setup_fused_moe(self):
 
         fused_moe.fd_config = mock_fd_config
         fused_moe.quant_method = MockQuantMethod()
+        fused_moe.enable_routing_replay = None
         return fused_moe
 
     def run_model_runner(self):
diff --git a/tests/e2e/test_EB_Lite_serving.py b/tests/e2e/test_EB_Lite_serving.py
index bc27daab993..c71b7667260 100644
--- a/tests/e2e/test_EB_Lite_serving.py
+++ b/tests/e2e/test_EB_Lite_serving.py
@@ -78,6 +78,8 @@ def setup_and_run_server():
         "wint4",
         "--graph-optimization-config",
         '{"cudagraph_capture_sizes": [1], "use_cudagraph":true}',
+        "--routing-replay-config",
+        '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./routing_replay_output"}',
     ]
 
     # Start subprocess in new process group
diff --git a/tests/layers/test_fusedmoe.py b/tests/layers/test_fusedmoe.py
index ed4fe5b28b6..346afc98fd3 100644
--- a/tests/layers/test_fusedmoe.py
+++ b/tests/layers/test_fusedmoe.py
@@ -31,6 +31,7 @@
     LoadConfig,
     ModelConfig,
     ParallelConfig,
+    RoutingReplayConfig,
 )
 from fastdeploy.model_executor.layers.moe.moe import FusedMoE
 from fastdeploy.model_executor.layers.quantization.block_wise_fp8 import (
@@ -476,6 +477,7 @@ def __init__(
             graph_opt_config=GraphOptimizationConfig({}),
             load_config=LoadConfig({}),
             ips=",".join(["0"] * nnodes),
+            routing_replay_config=RoutingReplayConfig({}),
         )
         self.fd_config.parallel_config.tp_group = None
         self.fd_config.parallel_config.tensor_parallel_rank = tp_rank
diff --git a/tests/layers/test_w4a8_moe.py b/tests/layers/test_w4a8_moe.py
index dc6dab15427..f20c27b06bf 100644
--- a/tests/layers/test_w4a8_moe.py
+++ b/tests/layers/test_w4a8_moe.py
@@ -13,6 +13,7 @@
     LoadConfig,
     ModelConfig,
     ParallelConfig,
+    RoutingReplayConfig,
 )
 from fastdeploy.model_executor.layers.moe.moe import FusedMoE
 from fastdeploy.model_executor.layers.quantization.w4a8 import W4A8Config
@@ -59,6 +60,7 @@ def __init__(
             graph_opt_config=GraphOptimizationConfig({}),
             load_config=LoadConfig({}),
             ips=",".join(["0"] * nnodes),
+            routing_replay_config=RoutingReplayConfig({}),
         )
         self.fd_config.parallel_config.tp_group = None
         self.fd_config.parallel_config.tensor_parallel_rank = tp_rank
diff --git a/tests/layers/test_w4afp8_moe.py b/tests/layers/test_w4afp8_moe.py
index 65b7733172c..8f1ae79cd67 100644
--- a/tests/layers/test_w4afp8_moe.py
+++ b/tests/layers/test_w4afp8_moe.py
@@ -13,6 +13,7 @@
     LoadConfig,
     ModelConfig,
     ParallelConfig,
+    RoutingReplayConfig,
 )
 from fastdeploy.model_executor.layers.moe.moe import FusedMoE
 from fastdeploy.model_executor.layers.quantization.w4afp8 import W4AFP8Config
@@ -65,6 +66,7 @@ def __init__(
             graph_opt_config=GraphOptimizationConfig({}),
             load_config=LoadConfig({}),
             ips=",".join(["0"] * nnodes),
+            routing_replay_config=RoutingReplayConfig({}),
         )
         self.fd_config.parallel_config.tp_group = None
         self.fd_config.parallel_config.tensor_parallel_rank = tp_rank

From 7926add37c6da6f8975cf882b23e69b200836602 Mon Sep 17 00:00:00 2001
From: Nyakku Shigure <sigure.qaq@gmail.com>
Date: Mon, 8 Dec 2025 10:01:20 +0800
Subject: [PATCH 003/161] [Cherry-Pick][Loader][BugFix] Fix some parameters
 place on CPU in PaddleOCR-VL (#5413) (#5414)

* [BugFix] Fix some parameter place on CPU in PaddleOCR-VL

* clean log

* fix codestyle
---
 .../model_executor/models/paddleocr_vl/projector.py       | 6 +++++-
 fastdeploy/model_executor/models/paddleocr_vl/siglip.py   | 8 ++++++--
 2 files changed, 11 insertions(+), 3 deletions(-)

diff --git a/fastdeploy/model_executor/models/paddleocr_vl/projector.py b/fastdeploy/model_executor/models/paddleocr_vl/projector.py
index f1b5ef60928..434e416fc52 100644
--- a/fastdeploy/model_executor/models/paddleocr_vl/projector.py
+++ b/fastdeploy/model_executor/models/paddleocr_vl/projector.py
@@ -20,6 +20,8 @@
 import paddle
 import paddle.nn as nn
 
+from fastdeploy.model_executor.utils import h2d_copy
+
 
 class GELUActivation(nn.Layer):
     """
@@ -97,6 +99,8 @@ def forward(self, image_features, image_grid_thw):
 
     def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = None):
         loaded_weight = loaded_weight.transpose([1, 0])
+        if not param._is_initialized():
+            param.initialize()
         assert param.shape == loaded_weight.shape, (
             f" Attempted to load weight ({loaded_weight.shape}) " f"into parameter ({param.shape})"
         )
@@ -106,4 +110,4 @@ def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = N
                 loaded_weight = loaded_weight.view(param.dtype)
             else:
                 loaded_weight = loaded_weight.cast(param.dtype)
-        param.copy_(loaded_weight, False)
+        h2d_copy(param, loaded_weight)
diff --git a/fastdeploy/model_executor/models/paddleocr_vl/siglip.py b/fastdeploy/model_executor/models/paddleocr_vl/siglip.py
index 0bb256cd51f..452d8dd1f76 100644
--- a/fastdeploy/model_executor/models/paddleocr_vl/siglip.py
+++ b/fastdeploy/model_executor/models/paddleocr_vl/siglip.py
@@ -100,6 +100,8 @@ def qkv_weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str]
 
     def out_proj_weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = None):
         loaded_weight = loaded_weight.transpose([1, 0])
+        if not param._is_initialized():
+            param.initialize()
         assert param.shape == loaded_weight.shape, (
             f" Attempted to load weight ({loaded_weight.shape}) " f"into parameter ({param.shape})"
         )
@@ -109,7 +111,7 @@ def out_proj_weight_loader(self, param, loaded_weight, loaded_shard_id: Optional
                 loaded_weight = loaded_weight.view(param.dtype)
             else:
                 loaded_weight = loaded_weight.cast(param.dtype)
-        param.copy_(loaded_weight, False)
+        h2d_copy(param, loaded_weight)
 
     def forward(
         self,
@@ -287,6 +289,8 @@ def __init__(self, config):
 
     def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = None):
         loaded_weight = loaded_weight.transpose([1, 0])
+        if not param._is_initialized():
+            param.initialize()
         assert param.shape == loaded_weight.shape, (
             f" Attempted to load weight ({loaded_weight.shape}) " f"into parameter ({param.shape})"
         )
@@ -296,7 +300,7 @@ def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = N
                 loaded_weight = loaded_weight.view(param.dtype)
             else:
                 loaded_weight = loaded_weight.cast(param.dtype)
-        param.copy_(loaded_weight, False)
+        h2d_copy(param, loaded_weight)
 
     def forward(self, hidden_states: paddle.Tensor) -> paddle.Tensor:
         hidden_states = self.fc1(hidden_states)

From 1dceb1c48c817cfc4b8efabcc386fd49c941ff4d Mon Sep 17 00:00:00 2001
From: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>
Date: Mon, 8 Dec 2025 11:21:26 +0800
Subject: [PATCH 004/161] Update setup.py

---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 8e6037aeb27..e6cbf436f90 100644
--- a/setup.py
+++ b/setup.py
@@ -251,7 +251,7 @@ def get_name():
 
 cmdclass_dict = {"bdist_wheel": CustomBdistWheel}
 cmdclass_dict["build_ext"] = CMakeBuild
-FASTDEPLOY_VERSION = os.environ.get("FASTDEPLOY_VERSION", "2.3.0-dev")
+FASTDEPLOY_VERSION = os.environ.get("FASTDEPLOY_VERSION", "2.4.0")
 cmdclass_dict["build_optl"] = PostInstallCommand
 
 
From d4c16aa63e7e998d3d109d39171b97f778fcd600 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E5=91=A8=E5=91=A8=E5=91=A8?=
 <39978853+zhoutianzi666@users.noreply.github.com>
Date: Mon, 8 Dec 2025 13:12:27 +0800
Subject: [PATCH 005/161] [BugFix][Cherry-Pick] fix can not enter into cuda
 graph (#5423)

* fix bug

* fix bug
---
 fastdeploy/config.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index a820e8d94e6..475b9f6ffe9 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1578,7 +1578,7 @@ def __init__(
         self.graph_opt_config.init_with_cudagrpah_size(max_capture_size=max_capture_shape)
 
         if self.parallel_config.use_ep:
-            self.graph_opt_config.cudagraph_capture_sizes = [0] + self.graph_opt_config.cudagraph_capture_sizes
+            self.graph_opt_config.cudagraph_capture_sizes += [0]
 
         self.tokenizer = tokenizer
         self.ips = ips

From 31436a35e48fe8c0909bd0a5ea8e4c19474ef033 Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Mon, 8 Dec 2025 19:13:06 +0800
Subject: [PATCH 006/161] [Cherry-Pick] [BugFix] [RL] remove
 shutdown_process_group/restart_process_group for RL (#5433) (#5434)

* [fix] remove shutdown_process_group/restart_process_group for RL

* [chore] remove log

* [chore] remove log

* [chore] set log to debug level
---
 fastdeploy/rl/dynamic_weight_manager.py | 20 ++++++++++----------
 fastdeploy/worker/worker_process.py     |  6 +++---
 2 files changed, 13 insertions(+), 13 deletions(-)

diff --git a/fastdeploy/rl/dynamic_weight_manager.py b/fastdeploy/rl/dynamic_weight_manager.py
index a6b61151654..4f45413ff32 100644
--- a/fastdeploy/rl/dynamic_weight_manager.py
+++ b/fastdeploy/rl/dynamic_weight_manager.py
@@ -68,11 +68,11 @@ def update_parameters(self, pid: int = 0) -> None:
         paddle.device.cuda.empty_cache()
 
         # step1 : restart paddle process group
-        if not self.first_load:
-            paddle.distributed.restart_process_group()
-            paddle.distributed.restart_process_group(self.parallel_config.tp_group)
-            if self.parallel_config.enable_expert_parallel:
-                paddle.distributed.restart_process_group(self.parallel_config.ep_group)
+        # if not self.first_load:
+        #     paddle.distributed.restart_process_group()
+        #     paddle.distributed.restart_process_group(self.parallel_config.tp_group)
+        #     if self.parallel_config.enable_expert_parallel:
+        #         paddle.distributed.restart_process_group(self.parallel_config.ep_group)
 
         # step2 : recreat deepep buffer when enable expert parallel
         if self.parallel_config.enable_expert_parallel and not self.first_load:
@@ -136,7 +136,7 @@ def clear_parameters(self, pid: int = 0) -> None:
             # ep barrier
             paddle.distributed.barrier(self.parallel_config.ep_group)
             # shutdown ep group
-            paddle.distributed.shutdown_process_group(self.parallel_config.ep_group)
+            # paddle.distributed.shutdown_process_group(self.parallel_config.ep_group)
 
         paddle.device.cuda.empty_cache()
         # step2: release model weight
@@ -149,11 +149,11 @@ def clear_parameters(self, pid: int = 0) -> None:
         if self.parallel_config.tensor_parallel_size > 1:
             # tp barrier
             paddle.distributed.barrier(self.parallel_config.tp_group)
-            paddle.distributed.shutdown_process_group(self.parallel_config.tp_group)
+            # paddle.distributed.shutdown_process_group(self.parallel_config.tp_group)
         if self.parallel_config.enable_expert_parallel:
             paddle.distributed.barrier(self.parallel_config.ep_group)
-            paddle.distributed.shutdown_process_group(self.parallel_config.ep_group)
-        paddle.distributed.shutdown_process_group()
+            # paddle.distributed.shutdown_process_group(self.parallel_config.ep_group)
+        # paddle.distributed.shutdown_process_group()
         self._update_shared_status(pid, ModelWeightsStatus.CLEARED)
 
     def _update_model_from_state(self, state_dict: Dict[str, paddle.Tensor], src_type: str):
@@ -257,7 +257,7 @@ def check_model_weights_status(model_weights_status, model_runner, pid):
         """
         check model weights status
         """
-        logger.info(f"dynamic weight manager is check model weights status! {model_weights_status.value[0]}")
+        # logger.info(f"dynamic weight manager is check model weights status! {model_weights_status.value[0]}")
         while (
             model_weights_status.value[0] != ModelWeightsStatus.NORMAL
             and model_weights_status.value[0] != ModelWeightsStatus.CLEARED
diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 0c29ce4d757..4d87f3c1f1e 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -459,7 +459,7 @@ def event_loop_normal(self) -> None:
                 else:
                     paddle.distributed.barrier(self.parallel_config.tp_group)
                 if self.model_weights_signal[0] != ModelWeightsStatus.NORMAL:
-                    logger.info(
+                    logger.debug(
                         f"Rank: {self.local_rank} to update or clear parameters, signal is {self.model_weights_signal[0]}, [-1:clear, 1:update]"
                     )
                     from fastdeploy.rl.dynamic_weight_manager import (
@@ -473,10 +473,10 @@ def event_loop_normal(self) -> None:
                         self.worker.model_runner,
                         self.parallel_config.engine_worker_queue_port,
                     )
-                    logger.info(f"current task queue data: {self.task_queue.num_tasks()}")
+                    logger.debug(f"current task queue data: {self.task_queue.num_tasks()}")
                     self.task_queue.clear_data()
                     self.model_weights_signal[0] = ModelWeightsStatus.NORMAL
-                    logger.info(f"Rank: {self.local_rank} has updated or cleared parameters.")
+                    logger.debug(f"Rank: {self.local_rank} has updated or cleared parameters.")
 
             if self.exist_task_signal.value[0] == ExistTaskStatus.EXIST or self.task_queue.read_finish_flag.get() == 1:
                 logger.info(f"Rank: {self.local_rank} Detected new requests.")

From 4b9e2c5c8eadbc2e13b3214ef24282250a72da43 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E5=91=A8=E5=91=A8=E5=91=A8?=
 <39978853+zhoutianzi666@users.noreply.github.com>
Date: Tue, 9 Dec 2025 11:08:55 +0800
Subject: [PATCH 007/161] [BugFix] 0 not into cuda graph to save memory (#5426)
 (#5432)

---
 fastdeploy/config.py                             |  3 ---
 .../custom_all_reduce/custom_all_reduce.py       |  4 ++++
 fastdeploy/worker/gpu_model_runner.py            | 16 +++++++---------
 3 files changed, 11 insertions(+), 12 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index 475b9f6ffe9..f1eb23852f8 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1577,9 +1577,6 @@ def __init__(
             self.graph_opt_config._set_cudagraph_sizes(max_capture_size=max_capture_shape)
         self.graph_opt_config.init_with_cudagrpah_size(max_capture_size=max_capture_shape)
 
-        if self.parallel_config.use_ep:
-            self.graph_opt_config.cudagraph_capture_sizes += [0]
-
         self.tokenizer = tokenizer
         self.ips = ips
         self.tool_parser = tool_parser
diff --git a/fastdeploy/distributed/custom_all_reduce/custom_all_reduce.py b/fastdeploy/distributed/custom_all_reduce/custom_all_reduce.py
index dfbed094dd6..0c9be796ced 100644
--- a/fastdeploy/distributed/custom_all_reduce/custom_all_reduce.py
+++ b/fastdeploy/distributed/custom_all_reduce/custom_all_reduce.py
@@ -207,6 +207,10 @@ def register_graph_buffers(self):
 
     def custom_all_reduce(self, input: paddle.Tensor) -> Optional[paddle.Tensor]:
         """The main allreduce API that provides support for cuda graph."""
+
+        if input.shape[0] == 0:
+            return input
+
         if self.capturing:
             lib = cuda_wrapper.CudaRTLibrary()
             stream = paddle.device.current_stream()
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 9b550f10438..2a0248894e9 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -1020,14 +1020,10 @@ def get_input_length_list(
         """
         # NOTE(gongshaotian): The maximum decoding length is equal to the expected decoded tokens plus the eos token
         max_dec_len = expected_decode_len + 1
-        if batch_size == 0:
-            # Note(ZKK): divided by 0 is invalid, here we give a input_length = 1
-            input_length = 1
-        else:
-            input_length = min(
-                num_tokens // (1 if capture_prefill else batch_size),
-                self.model_config.max_model_len - max_dec_len,
-            )
+        input_length = min(
+            num_tokens // (1 if capture_prefill else batch_size),
+            self.model_config.max_model_len - max_dec_len,
+        )
 
         # NOTE(wanglongzhi): When the full length is too large, DeepEP's buffer size will not be enough to cause the result to appear nan.
         # TODO(wanglongzhi): Figure out the accurate buffer size of DeepEP.
@@ -1490,7 +1486,9 @@ def initialize_forward_meta(self, is_dummy_or_profile_run=False):
 
         # When support capture both prefill-only and decode-only, this will use [only_prefill_use_cudagraph or only_decode_use_cudagraph]
         self.forward_meta.step_use_cudagraph = (
-            only_prefill_use_cudagraph if self.cudagraph_only_prefill else only_decode_use_cudagraph
+            only_prefill_use_cudagraph
+            if self.cudagraph_only_prefill
+            else only_decode_use_cudagraph and self.forward_meta.ids_remove_padding.shape[0] > 0
         )
 
         # Set forward_meta.is_dummy_or_profile_run to True to skip init_kv_signal_per_query for attention backends

From 2c55bbc3f8577f558be813f57de62970ba4f5a62 Mon Sep 17 00:00:00 2001
From: gaoziyuan <88373061+gzy19990617@users.noreply.github.com>
Date: Tue, 9 Dec 2025 15:07:19 +0800
Subject: [PATCH 008/161] support dynamic load for normal (#5437)

---
 .../model_loader/default_loader.py            | 28 +++++++++++++++++++
 .../model_loader/default_loader_v1.py         | 27 ++++++++++++++++++
 fastdeploy/rl/dynamic_weight_manager.py       |  9 ++++++
 3 files changed, 64 insertions(+)

diff --git a/fastdeploy/model_executor/model_loader/default_loader.py b/fastdeploy/model_executor/model_loader/default_loader.py
index ca0dfa84f92..bd813c804c4 100644
--- a/fastdeploy/model_executor/model_loader/default_loader.py
+++ b/fastdeploy/model_executor/model_loader/default_loader.py
@@ -95,3 +95,31 @@ def load_model(self, fd_config: FDConfig) -> nn.Layer:
         # TODO(gongshaotian): Now, only support safetensor
         self.load_weights(model, fd_config, architectures)
         return model
+
+    def load_rl_mock_model(self, fd_config: FDConfig) -> nn.Layer:
+        """use for rl model load"""
+        # (TODO:gaoziyuan) optimze
+        original_architectures = fd_config.model_config.architectures[0]
+        logger.info(f"Starting to load model {original_architectures}.")
+
+        import fastdeploy.rl  # noqa
+
+        if fd_config.speculative_config.model_type != "mtp":
+            model_architectures = original_architectures.replace("Ernie5ForCausalLM", "Ernie5MoeForCausalLM")
+        else:
+            model_architectures = original_architectures.replace("Ernie5ForCausalLM", "Ernie5MTPForCausalLM")
+
+        model_architectures += "RL"
+        context = paddle.LazyGuard()
+
+        with context:
+            model_cls = ModelRegistry.get_class(model_architectures)
+            model = model_cls(fd_config)
+
+        model.eval()
+
+        if fd_config.load_config.load_strategy == "normal":
+            # normal strategy need load weight and architectures need without "RL"
+            self.load_weights(model, fd_config, original_architectures)
+        # RL model not need set_state_dict
+        return model
diff --git a/fastdeploy/model_executor/model_loader/default_loader_v1.py b/fastdeploy/model_executor/model_loader/default_loader_v1.py
index 8fb0ebf3881..ce53f0136fa 100644
--- a/fastdeploy/model_executor/model_loader/default_loader_v1.py
+++ b/fastdeploy/model_executor/model_loader/default_loader_v1.py
@@ -98,3 +98,30 @@ def load_model(self, fd_config: FDConfig) -> nn.Layer:
             return model
         self.load_weights(model, fd_config, enable_cache)
         return model
+
+    def load_rl_mock_model(self, fd_config: FDConfig) -> nn.Layer:
+        """use for rl model load"""
+        # (TODO:gaoziyuan) optimze
+        original_architectures = fd_config.model_config.architectures[0]
+
+        import fastdeploy.rl  # noqa
+
+        if fd_config.speculative_config.model_type != "mtp":
+            model_architectures = original_architectures.replace("Ernie5ForCausalLM", "Ernie5MoeForCausalLM")
+        else:
+            model_architectures = original_architectures.replace("Ernie5ForCausalLM", "Ernie5MTPForCausalLM")
+
+        model_architectures += "RL"
+        context = paddle.LazyGuard()
+
+        with context:
+            model_cls = ModelRegistry.get_class(model_architectures)
+            model = model_cls(fd_config)
+
+        model.eval()
+
+        if fd_config.load_config.load_strategy == "normal":
+            # normal strategy need load weight and architectures need without "RL"
+            self.load_weights(model, fd_config, original_architectures)
+        # RL model not need set_state_dict
+        return model
diff --git a/fastdeploy/rl/dynamic_weight_manager.py b/fastdeploy/rl/dynamic_weight_manager.py
index 4f45413ff32..385d10ffaf3 100644
--- a/fastdeploy/rl/dynamic_weight_manager.py
+++ b/fastdeploy/rl/dynamic_weight_manager.py
@@ -86,6 +86,7 @@ def update_parameters(self, pid: int = 0) -> None:
         strategy_handlers = {
             "ipc_snapshot": self._update_ipc_snapshot,
             "ipc": self._update_ipc,
+            "normal": self._normal_load_weight,
         }
 
         if handler := strategy_handlers.get(self.load_config.load_strategy):
@@ -100,6 +101,14 @@ def update_parameters(self, pid: int = 0) -> None:
         # step5: recapture cuda_graph
         # step6: update weight status signal
 
+    def _normal_load_weight(self):
+        """use for RL mock."""
+        from fastdeploy.model_executor.model_loader import get_model_loader
+
+        model_loader = get_model_loader(load_config=self.fd_config.load_config)
+        state_dict = model_loader.load_rl_mock_model(fd_config=self.fd_config).state_dict()
+        self._update_model_from_state(state_dict, "raw")
+
     def _update_ipc_snapshot(self):
         """Update using IPC snapshot strategy for elastic recovery."""
         model_path = os.path.join(

From b491dcd23cda8a3bd5bda0e97176b7922e308b35 Mon Sep 17 00:00:00 2001
From: chen <103103266+ckl117@users.noreply.github.com>
Date: Tue, 9 Dec 2025 16:48:06 +0800
Subject: [PATCH 009/161] [Optimization] compulte real max_logprobs in batch
 (#5430) (#5448)

---
 fastdeploy/engine/request.py                  |  7 +++-
 .../model_executor/layers/sample/meta_data.py |  2 +
 .../model_executor/layers/sample/sampler.py   |  8 +++-
 fastdeploy/worker/gpu_model_runner.py         | 38 +++++++++++++++++--
 4 files changed, 48 insertions(+), 7 deletions(-)

diff --git a/fastdeploy/engine/request.py b/fastdeploy/engine/request.py
index 9f281c3e68c..06ff8fe1b88 100644
--- a/fastdeploy/engine/request.py
+++ b/fastdeploy/engine/request.py
@@ -187,7 +187,12 @@ def from_dict(cls, d: dict):
             pooling_params = PoolingParams.from_dict(d["pooling_params"])
         else:
             sampling_params = SamplingParams.from_dict(d)
-
+        logprobs = d.get("logprobs", None)
+        if logprobs is not None:
+            if logprobs is True:
+                sampling_params.logprobs = d.get("top_logprobs", None)
+            elif logprobs is False:
+                sampling_params.logprobs = None
         if (
             isinstance(d.get("multimodal_inputs"), dict)
             and isinstance(d["multimodal_inputs"].get("mm_positions"), list)
diff --git a/fastdeploy/model_executor/layers/sample/meta_data.py b/fastdeploy/model_executor/layers/sample/meta_data.py
index 9418ae506e3..f629bfc17d9 100644
--- a/fastdeploy/model_executor/layers/sample/meta_data.py
+++ b/fastdeploy/model_executor/layers/sample/meta_data.py
@@ -53,6 +53,8 @@ class SamplingMetadata:
     stop_flags: Optional[paddle.Tensor] = None
     prompt_ids: Optional[paddle.Tensor] = None
     prompt_lens: Optional[paddle.Tensor] = None
+    temp_scaled_logprobs_flag: Optional[bool] = None
+    top_p_normalized_logprobs_flag: Optional[bool] = None
     temp_scaled_logprobs: Optional[paddle.Tensor] = None
     top_p_normalized_logprobs: Optional[paddle.Tensor] = None
     share_inputs: Optional[Dict[str, paddle.Tensor]] = None
diff --git a/fastdeploy/model_executor/layers/sample/sampler.py b/fastdeploy/model_executor/layers/sample/sampler.py
index f65d314d8d8..52bb358bf7f 100644
--- a/fastdeploy/model_executor/layers/sample/sampler.py
+++ b/fastdeploy/model_executor/layers/sample/sampler.py
@@ -375,7 +375,7 @@ def compute_logprobs(
         temp_scaled_logprobs = sampling_metadata.temp_scaled_logprobs
         top_p_normalized_logprobs = sampling_metadata.top_p_normalized_logprobs
         share_inputs = sampling_metadata.share_inputs
-        if temp_scaled_logprobs is not None:
+        if temp_scaled_logprobs is not None and sampling_metadata.temp_scaled_logprobs_flag:
             real_bsz_temp_scaled = temp_scaled_logprobs[:real_bsz]
             temperature = sampling_metadata.temperature[:real_bsz]
             temp_temperature = paddle.where(real_bsz_temp_scaled, temperature, paddle.ones_like(temperature))
@@ -385,7 +385,11 @@ def compute_logprobs(
         top_p_logprob = None
         top_p_req_mask = None
 
-        if top_p_normalized_logprobs is not None and share_inputs is not None:
+        if (
+            top_p_normalized_logprobs is not None
+            and share_inputs is not None
+            and sampling_metadata.top_p_normalized_logprobs_flag
+        ):
             seq_lens_this_time = share_inputs["seq_lens_this_time"].reshape([-1, 1])[:real_bsz]
             seq_lens_encoder = share_inputs["seq_lens_encoder"].reshape([-1, 1])[:real_bsz]
             seq_lens_decoder = share_inputs["seq_lens_decoder"].reshape([-1, 1])[:real_bsz]
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 2a0248894e9..a21a709a285 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -126,11 +126,18 @@ def __init__(
         self.enable_early_stop = self.fd_config.early_stop_config.enable_early_stop
         self.is_pooling_model = self.fd_config.model_config.runner_type == "pooling"
         self.ori_vocab_size = self.fd_config.model_config.ori_vocab_size
-        self.max_logprobs = (
-            self.ori_vocab_size if fd_config.model_config.max_logprobs == -1 else fd_config.model_config.max_logprobs
-        )
+        self.max_logprobs = None
+        if self.enable_logprob:
+            self.max_logprobs = (
+                self.ori_vocab_size
+                if fd_config.model_config.max_logprobs == -1
+                else fd_config.model_config.max_logprobs
+            )
+        self.temp_scaled_logprobs = True
+        self.top_p_normalized_logprobs = True
         self.prompt_logprobs_reqs: dict[str, Request] = {}
         self.in_progress_prompt_logprobs: dict[str, LogprobsTensors] = {}
+        self.forward_batch_reqs_list: list[Request] = [None for _ in range(self.scheduler_config.max_num_seqs)]
 
         # VL model config:
         if self.enable_mm:
@@ -664,6 +671,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                 # pooling model request.sampling_params is None
                 if request.sampling_params is not None and request.sampling_params.prompt_logprobs is not None:
                     self.prompt_logprobs_reqs[request.request_id] = request
+                self.forward_batch_reqs_list[idx] = request
                 has_prefill_task = True
 
                 # Routing Replay
@@ -696,6 +704,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                 self.share_inputs["is_block_step"][idx : idx + 1] = False
                 self.prompt_logprobs_reqs.pop(request.request_id, None)
                 self.in_progress_prompt_logprobs.pop(request.request_id, None)
+                self.forward_batch_reqs_list[idx] = None
                 continue
 
             assert len(request.eos_token_ids) == self.model_config.eos_tokens_lens
@@ -1341,6 +1350,24 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
                 self.cache_config.block_size,
                 self.speculative_config.num_speculative_tokens if self.speculative_decoding else 0,
             )
+            logprobs_reqs = [
+                req
+                for req in self.forward_batch_reqs_list
+                if req is not None and req.sampling_params is not None and req.sampling_params.logprobs is not None
+            ]
+            if len(logprobs_reqs):
+                self.max_logprobs = max(
+                    [
+                        self.ori_vocab_size if req.sampling_params.logprobs < 0 else req.sampling_params.logprobs
+                        for req in logprobs_reqs
+                    ]
+                )
+                self.temp_scaled_logprobs = any(req.sampling_params.temp_scaled_logprobs for req in logprobs_reqs)
+                self.top_p_normalized_logprobs = any(
+                    req.sampling_params.top_p_normalized_logprobs for req in logprobs_reqs
+                )
+            else:
+                self.max_logprobs = None
 
         # Remove padding
         (
@@ -1396,9 +1423,11 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
             min_dec_lens=self.share_inputs["min_dec_len"],
             bad_words_token_ids=self.share_inputs["bad_tokens"][:, :max_bad_tokens_len],
             eos_token_ids=self.share_inputs["eos_token_id"],
-            max_num_logprobs=self.max_logprobs if self.enable_logprob else None,
+            max_num_logprobs=self.max_logprobs,
             enable_early_stop=self.enable_early_stop,
             stop_flags=self.share_inputs["stop_flags"],
+            temp_scaled_logprobs_flag=self.temp_scaled_logprobs,
+            top_p_normalized_logprobs_flag=self.top_p_normalized_logprobs,
             temp_scaled_logprobs=self.share_inputs["temp_scaled_logprobs"],
             top_p_normalized_logprobs=self.share_inputs["top_p_normalized_logprobs"],
             logits_processors=self.share_inputs["logits_processors"],
@@ -2652,6 +2681,7 @@ def clear_requests(self):
         # prompt_logprobs
         self.prompt_logprobs_reqs.clear()
         self.in_progress_prompt_logprobs.clear()
+        self.forward_batch_reqs_list = [None for _ in range(self.scheduler_config.max_num_seqs)]
 
     def update_parameters(self, pid):
         """Dynamic model loader use to update parameters use for RL"""

From e9174f25e8b62aece6083f0dbeb736147f2fa4d7 Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E5=91=A8=E5=91=A8=E5=91=A8?=
 <39978853+zhoutianzi666@users.noreply.github.com>
Date: Tue, 9 Dec 2025 19:36:58 +0800
Subject: [PATCH 010/161] commit (#5452)

---
 fastdeploy/distributed/communication.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/fastdeploy/distributed/communication.py b/fastdeploy/distributed/communication.py
index a8581595670..922fbb3df8e 100644
--- a/fastdeploy/distributed/communication.py
+++ b/fastdeploy/distributed/communication.py
@@ -56,6 +56,8 @@ def tensor_model_parallel_all_reduce(
         group_: paddle.distributed.communication.group.Group = None,
     ) -> paddle.Tensor:
         """All-reduce the input tensor across model parallel group."""
+        if input_.shape[0] == 0:
+            return input_
         global _TP_AR
         if _TP_AR is not None and _TP_AR.should_custom_ar(input_):
             # TODO: supports different_group custom allreduce
@@ -90,6 +92,8 @@ def all_reduce(
     @paddle.jit.marker.unified
     def tensor_model_parallel_all_reduce_custom(input_: paddle.Tensor) -> paddle.Tensor:
         """All-reduce the input tensor across model parallel group on calc stream."""
+        if input_.shape[0] == 0:
+            return input_
         if paddle.in_dynamic_mode():
             hcg = dist.fleet.get_hybrid_communicate_group()
             mp_group = hcg.get_model_parallel_group()

From 1776d410d0ad6f46d30de2a0128e768fec70d450 Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Wed, 10 Dec 2025 11:56:35 +0800
Subject: [PATCH 011/161] fix limit_thinking bug (#5469)

---
 custom_ops/gpu_ops/limit_thinking_content_length_v1.cu          | 2 +-
 custom_ops/gpu_ops/limit_thinking_content_length_v2.cu          | 2 +-
 .../speculate_limit_thinking_content_length_v1.cu               | 2 +-
 .../speculate_limit_thinking_content_length_v2.cu               | 2 +-
 4 files changed, 4 insertions(+), 4 deletions(-)

diff --git a/custom_ops/gpu_ops/limit_thinking_content_length_v1.cu b/custom_ops/gpu_ops/limit_thinking_content_length_v1.cu
index 45bf8f7041d..9bfb31beef2 100644
--- a/custom_ops/gpu_ops/limit_thinking_content_length_v1.cu
+++ b/custom_ops/gpu_ops/limit_thinking_content_length_v1.cu
@@ -33,7 +33,7 @@ __global__ void limit_thinking_content_length_kernel_v1(
   if (max_think_len < 0) return;
   int current_limit_think_status = limit_think_status[bid];
   // 如果在回复阶段, 且已经触发停止标志, 则直接返回, 无需多余执行
-  if (current_limit_think_status == 2 && stop_flags[bid]) {
+  if (current_limit_think_status == 2 || stop_flags[bid]) {
     return;
   }
 
diff --git a/custom_ops/gpu_ops/limit_thinking_content_length_v2.cu b/custom_ops/gpu_ops/limit_thinking_content_length_v2.cu
index ea5f8c9c402..b261e01b2f5 100644
--- a/custom_ops/gpu_ops/limit_thinking_content_length_v2.cu
+++ b/custom_ops/gpu_ops/limit_thinking_content_length_v2.cu
@@ -35,7 +35,7 @@ __global__ void limit_thinking_content_length_kernel_v2(
   if (max_think_len < 0) return;
   int current_limit_think_status = limit_think_status[bid];
   // 如果在回复阶段, 且已经触发停止标志, 则直接返回, 无需多余执行
-  if (current_limit_think_status == 3 && stop_flags[bid]) {
+  if (current_limit_think_status == 3 || stop_flags[bid]) {
     return;
   }
 
diff --git a/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v1.cu b/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v1.cu
index 0a703639c71..097d3429a16 100644
--- a/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v1.cu
+++ b/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v1.cu
@@ -39,7 +39,7 @@ __global__ void speculate_limit_thinking_content_length_kernel_v1(
   if (max_think_len < 0) return;
   int current_limit_think_status = limit_think_status[bid];
   // 如果在回复阶段, 且已经触发停止标志, 则直接返回, 无需多余执行
-  if (current_limit_think_status == 2 && stop_flags[bid]) {
+  if (current_limit_think_status == 2 || stop_flags[bid]) {
     return;
   }
 
diff --git a/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v2.cu b/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v2.cu
index 709911d2ba0..8d963eb0c36 100644
--- a/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v2.cu
+++ b/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v2.cu
@@ -42,7 +42,7 @@ __global__ void speculate_limit_thinking_content_length_kernel_v2(
   if (max_think_len < 0) return;
   int current_limit_think_status = limit_think_status[bid];
   // 如果在回复阶段, 且已经触发停止标志, 则直接返回, 无需多余执行.
-  if (current_limit_think_status == 3 && stop_flags[bid]) {
+  if (current_limit_think_status == 3 || stop_flags[bid]) {
     return;
   }
 

From c5c43e3b3dec5bdf63c4945d77c074afc74cca6e Mon Sep 17 00:00:00 2001
From: freeliuzc <lzc842650834@gmail.com>
Date: Wed, 10 Dec 2025 12:55:13 +0800
Subject: [PATCH 012/161] fix attention bug in spec decoding (#5481)

---
 fastdeploy/engine/engine.py                                    | 3 ---
 .../model_executor/layers/attention/append_attn_backend.py     | 3 +++
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/fastdeploy/engine/engine.py b/fastdeploy/engine/engine.py
index fadf954679b..a753775c6a4 100644
--- a/fastdeploy/engine/engine.py
+++ b/fastdeploy/engine/engine.py
@@ -483,9 +483,6 @@ def _setting_environ_variables(self):
             if self.cfg.scheduler_config.splitwise_role == "prefill":
                 variables["FLAGS_fmt_write_cache_completed_signal"] = 1
 
-        if self.cfg.model_config.enable_mm:
-            variables["FLAGS_max_partition_size"] = 1024
-
         command_prefix = ""
         for k, v in variables.items():
             command_prefix += f"{k}={v} "
diff --git a/fastdeploy/model_executor/layers/attention/append_attn_backend.py b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
index 346251a3040..14562c3f7bc 100644
--- a/fastdeploy/model_executor/layers/attention/append_attn_backend.py
+++ b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
@@ -148,6 +148,9 @@ def __init__(
         self.head_dim: int = fd_config.model_config.head_dim
         self.num_layers: int = fd_config.model_config.num_hidden_layers
         self.max_partition_size: int = int(os.getenv("FLAGS_max_partition_size", 1024))
+        # split kv still has bug in speculative decoding
+        if self.speculative_method is not None:
+            self.max_partition_size = self.max_seq_len
         self.encoder_block_shape_q: int = encoder_block_shape_q
         self.decoder_block_shape_q: int = decoder_block_shape_q
 

From bcde7980985e2baf801b92314db928da284dc654 Mon Sep 17 00:00:00 2001
From: zccjjj <62829461+zccjjj@users.noreply.github.com>
Date: Wed, 10 Dec 2025 19:40:38 +0800
Subject: [PATCH 013/161] [CI][XPU] ep+prefix cache+chunk prefill (#5490)

---
 tests/xpu_ci/test_ep4tp1_online.py  | 1 +
 tests/xpu_ci/test_ep4tp4_all2all.py | 1 +
 tests/xpu_ci/test_ep4tp4_online.py  | 1 +
 3 files changed, 3 insertions(+)

diff --git a/tests/xpu_ci/test_ep4tp1_online.py b/tests/xpu_ci/test_ep4tp1_online.py
index 8acb5da3a98..c248b24e263 100644
--- a/tests/xpu_ci/test_ep4tp1_online.py
+++ b/tests/xpu_ci/test_ep4tp1_online.py
@@ -63,6 +63,7 @@ def test_ep4tp1_online(xpu_env):
             "--tensor-parallel-size",
             "1",
             "--enable-expert-parallel",
+            "--enable-prefix-caching",
             "--data-parallel-size",
             "4",
             "--max-model-len",
diff --git a/tests/xpu_ci/test_ep4tp4_all2all.py b/tests/xpu_ci/test_ep4tp4_all2all.py
index e2fbbf227d7..8c5a81e0be1 100644
--- a/tests/xpu_ci/test_ep4tp4_all2all.py
+++ b/tests/xpu_ci/test_ep4tp4_all2all.py
@@ -65,6 +65,7 @@ def test_ep4tp4_all2all(xpu_env):
             "--tensor-parallel-size",
             "4",
             "--enable-expert-parallel",
+            "--enable-prefix-caching",
             "--data-parallel-size",
             "1",
             "--max-model-len",
diff --git a/tests/xpu_ci/test_ep4tp4_online.py b/tests/xpu_ci/test_ep4tp4_online.py
index 3850b4efb2a..6f64016be49 100644
--- a/tests/xpu_ci/test_ep4tp4_online.py
+++ b/tests/xpu_ci/test_ep4tp4_online.py
@@ -64,6 +64,7 @@ def test_ep4tp4_online(xpu_env):
             "--tensor-parallel-size",
             "4",
             "--enable-expert-parallel",
+            "--enable-prefix-caching",
             "--data-parallel-size",
             "1",
             "--max-model-len",

From 7019afbb86931f9ad279bb4ea2e48baa3314d1f9 Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Thu, 11 Dec 2025 09:58:18 +0800
Subject: [PATCH 014/161] [BugFix] fix instability after clearing weight
 (#5487)

* [BugFix] fix instability after clearing weight

* [chore] add todo
---
 fastdeploy/rl/dynamic_weight_manager.py | 29 +++++++++++++++----------
 fastdeploy/worker/worker_process.py     |  9 +++++---
 2 files changed, 23 insertions(+), 15 deletions(-)

diff --git a/fastdeploy/rl/dynamic_weight_manager.py b/fastdeploy/rl/dynamic_weight_manager.py
index 385d10ffaf3..69bbeb2e3fa 100644
--- a/fastdeploy/rl/dynamic_weight_manager.py
+++ b/fastdeploy/rl/dynamic_weight_manager.py
@@ -62,17 +62,18 @@ def _capture_model_state(self):
                 logger.info(f"Model param: {name}, shape={param.shape}, dtype={param.dtype}")
                 self.state_dict[name] = param
 
-    def update_parameters(self, pid: int = 0) -> None:
+    def update_parameters(self, pid: int = 0, restart_process_group=False) -> None:
         """Core method to update model parameters based on strategy."""
         start_time = time.perf_counter()
         paddle.device.cuda.empty_cache()
 
         # step1 : restart paddle process group
-        # if not self.first_load:
-        #     paddle.distributed.restart_process_group()
-        #     paddle.distributed.restart_process_group(self.parallel_config.tp_group)
-        #     if self.parallel_config.enable_expert_parallel:
-        #         paddle.distributed.restart_process_group(self.parallel_config.ep_group)
+        if not self.first_load:
+            if restart_process_group:
+                paddle.distributed.restart_process_group()
+                paddle.distributed.restart_process_group(self.parallel_config.tp_group)
+                if self.parallel_config.enable_expert_parallel:
+                    paddle.distributed.restart_process_group(self.parallel_config.ep_group)
 
         # step2 : recreat deepep buffer when enable expert parallel
         if self.parallel_config.enable_expert_parallel and not self.first_load:
@@ -132,7 +133,7 @@ def _update_ipc(self):
         self._update_model_from_state(state_dict, "raw")
         logger.info(f"IPC update parameters completed from file: {self.ipc_path}")
 
-    def clear_parameters(self, pid: int = 0) -> None:
+    def clear_parameters(self, pid: int = 0, shutdown_process_group=False) -> None:
         """Clear all model parameters and free memory."""
 
         logger.info("start clear paramaters")
@@ -144,8 +145,9 @@ def clear_parameters(self, pid: int = 0) -> None:
             DeepEPBufferManager.clear_buffer()
             # ep barrier
             paddle.distributed.barrier(self.parallel_config.ep_group)
-            # shutdown ep group
-            # paddle.distributed.shutdown_process_group(self.parallel_config.ep_group)
+            if shutdown_process_group:
+                # shutdown ep group
+                paddle.distributed.shutdown_process_group(self.parallel_config.ep_group)
 
         paddle.device.cuda.empty_cache()
         # step2: release model weight
@@ -158,11 +160,14 @@ def clear_parameters(self, pid: int = 0) -> None:
         if self.parallel_config.tensor_parallel_size > 1:
             # tp barrier
             paddle.distributed.barrier(self.parallel_config.tp_group)
-            # paddle.distributed.shutdown_process_group(self.parallel_config.tp_group)
+            if shutdown_process_group:
+                paddle.distributed.shutdown_process_group(self.parallel_config.tp_group)
         if self.parallel_config.enable_expert_parallel:
             paddle.distributed.barrier(self.parallel_config.ep_group)
-            # paddle.distributed.shutdown_process_group(self.parallel_config.ep_group)
-        # paddle.distributed.shutdown_process_group()
+            if shutdown_process_group:
+                paddle.distributed.shutdown_process_group(self.parallel_config.ep_group)
+        if shutdown_process_group:
+            paddle.distributed.shutdown_process_group()
         self._update_shared_status(pid, ModelWeightsStatus.CLEARED)
 
     def _update_model_from_state(self, state_dict: Dict[str, paddle.Tensor], src_type: str):
diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 4d87f3c1f1e..980f0c1b346 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -418,6 +418,7 @@ def event_loop_normal(self) -> None:
         num_running_requests = 0
         tp_rank = self.local_rank % tp_size
 
+        # TODO: Unify status variables model_weights_status (shared memory) and model_weights_signal (numpy array) to one
         self.model_weights_signal = np.zeros([1], dtype=np.int32)
         while True:
             # run eplb
@@ -459,7 +460,7 @@ def event_loop_normal(self) -> None:
                 else:
                     paddle.distributed.barrier(self.parallel_config.tp_group)
                 if self.model_weights_signal[0] != ModelWeightsStatus.NORMAL:
-                    logger.debug(
+                    logger.info(
                         f"Rank: {self.local_rank} to update or clear parameters, signal is {self.model_weights_signal[0]}, [-1:clear, 1:update]"
                     )
                     from fastdeploy.rl.dynamic_weight_manager import (
@@ -473,10 +474,12 @@ def event_loop_normal(self) -> None:
                         self.worker.model_runner,
                         self.parallel_config.engine_worker_queue_port,
                     )
-                    logger.debug(f"current task queue data: {self.task_queue.num_tasks()}")
+                    logger.info(f"current task queue data: {self.task_queue.num_tasks()}")
                     self.task_queue.clear_data()
                     self.model_weights_signal[0] = ModelWeightsStatus.NORMAL
-                    logger.debug(f"Rank: {self.local_rank} has updated or cleared parameters.")
+                    logger.info(f"Rank: {self.local_rank} has updated or cleared parameters.")
+                    while self.model_weights_status.value[0] == ModelWeightsStatus.CLEARED:
+                        time.sleep(0.01)
 
             if self.exist_task_signal.value[0] == ExistTaskStatus.EXIST or self.task_queue.read_finish_flag.get() == 1:
                 logger.info(f"Rank: {self.local_rank} Detected new requests.")

From b43563977d19bdf84119aeb05ed03e855888b1ea Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Thu, 11 Dec 2025 14:14:30 +0800
Subject: [PATCH 015/161] [CI] disable test_cuda_graph_dynamic_subgraph.py in
 unit_test

---
 tests/cov_pytest.ini | 1 +
 1 file changed, 1 insertion(+)

diff --git a/tests/cov_pytest.ini b/tests/cov_pytest.ini
index e066138a395..a747d79d408 100644
--- a/tests/cov_pytest.ini
+++ b/tests/cov_pytest.ini
@@ -9,3 +9,4 @@ addopts =
     --ignore=tests/entrypoints/test_engine_client.py
     --ignore=tests/xpu_ci
     --ignore=tests/v1/test_schedule_output.py
+    --ignore=tests/graph_optimization/test_cuda_graph_dynamic_subgraph.py

From 71781b56e1d72a62eb149dee51e547bc851d64d0 Mon Sep 17 00:00:00 2001
From: bukejiyu <52310069+bukejiyu@users.noreply.github.com>
Date: Thu, 11 Dec 2025 19:25:24 +0800
Subject: [PATCH 016/161] RL fix (#5505)

---
 .../layers/moe/fused_moe_backend_base.py      | 27 +++----------------
 1 file changed, 3 insertions(+), 24 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py b/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
index a8bd70465ea..729295d9244 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_backend_base.py
@@ -23,9 +23,8 @@
 from fastdeploy.model_executor.utils import (
     TensorTracker,
     default_weight_loader,
-    free_tensor,
+    process_weight_transpose,
     set_weight_attrs,
-    weight_fully_copied,
 )
 from fastdeploy.platforms import current_platform
 
@@ -312,25 +311,5 @@ def create_weights(self, layer: nn.Layer, **extra_weight_attrs):
     def process_weights_after_loading(self, layer):
         if self.model_format != "torch":
             return
-        if not weight_fully_copied(layer.up_gate_proj_weight) or not weight_fully_copied(layer.down_proj_weight):
-            return
-        up_gate_proj_weight_transpose = layer.up_gate_proj_weight.transpose([0, 2, 1])
-        down_proj_weight_transpose = layer.down_proj_weight.transpose([0, 2, 1])
-        up_gate_proj = layer.create_parameter(
-            shape=up_gate_proj_weight_transpose.shape,
-            dtype=up_gate_proj_weight_transpose.dtype,
-            default_initializer=paddle.nn.initializer.Normal(mean=0.0, std=0.02),
-            is_bias=False,
-        )
-        up_gate_proj.copy_(up_gate_proj_weight_transpose, False)
-        free_tensor(layer.up_gate_proj_weight)
-        layer.up_gate_proj_weight = up_gate_proj
-        down_proj = layer.create_parameter(
-            shape=down_proj_weight_transpose.shape,
-            dtype=down_proj_weight_transpose.dtype,
-            default_initializer=paddle.nn.initializer.Normal(mean=0.0, std=0.02),
-            is_bias=False,
-        )
-        down_proj.copy_(down_proj_weight_transpose, False)
-        free_tensor(layer.down_proj_weight)
-        layer.down_proj_weight = down_proj
+        process_weight_transpose(layer, "up_gate_proj_weight")
+        process_weight_transpose(layer, "down_proj_weight")

From 4e5e36ec9c8d15a7c505b93f77c7a1d48f16e87a Mon Sep 17 00:00:00 2001
From: chen <103103266+ckl117@users.noreply.github.com>
Date: Thu, 11 Dec 2025 20:03:22 +0800
Subject: [PATCH 017/161] [[Cherry-Pick][BugFix] fix hung when n>1 and
 --enable-logprob (#5492)(#5499) (#5498)

* [BugFix] fix hung when n>1 and --enable-logprob (#5492)

* check

* check

* check
---
 fastdeploy/worker/gpu_model_runner.py | 17 +++++++++++++++--
 1 file changed, 15 insertions(+), 2 deletions(-)

diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index a21a709a285..363d4cae714 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -1366,8 +1366,8 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
                 self.top_p_normalized_logprobs = any(
                     req.sampling_params.top_p_normalized_logprobs for req in logprobs_reqs
                 )
-            else:
-                self.max_logprobs = None
+            elif self.enable_logprob:
+                self.max_logprobs = None if not self.speculative_decoding else 0
 
         # Remove padding
         (
@@ -2355,6 +2355,19 @@ class at the server level, which is too granular for ModelRunner.
                     self.sampling_metadata,
                     p_done_idxs,
                 )
+
+                if (
+                    self.enable_logprob
+                    and not envs.FD_USE_GET_SAVE_OUTPUT_V1
+                    and sampler_output.logprobs_tensors is None
+                ):
+                    sampler_output.logprobs_tensors = LogprobsTensors(
+                        logprob_token_ids=sampler_output.sampled_token_ids,
+                        logprobs=paddle.empty_like(sampler_output.sampled_token_ids, device="cpu", dtype="float32"),
+                        selected_token_ranks=paddle.empty(
+                            [sampler_output.sampled_token_ids.shape[0]], device="cpu", dtype="int64"
+                        ),
+                    )
                 if self.parallel_config.tensor_parallel_size > 1:
                     paddle.distributed.broadcast(
                         sampler_output.sampled_token_ids,

From 12e0206d4dd1cfb9ab927a28855e1c690981a71a Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Fri, 12 Dec 2025 14:56:09 +0800
Subject: [PATCH 018/161] [Cherry-Pick] [BugFix] [RL] skip model executing
 after clearing/updating is done (#5527) (#5523)

* [fix] fix ep loop

* [fix] another try

* [fix] again
---
 fastdeploy/worker/worker_process.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 980f0c1b346..6975a08848e 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -480,6 +480,7 @@ def event_loop_normal(self) -> None:
                     logger.info(f"Rank: {self.local_rank} has updated or cleared parameters.")
                     while self.model_weights_status.value[0] == ModelWeightsStatus.CLEARED:
                         time.sleep(0.01)
+                    continue
 
             if self.exist_task_signal.value[0] == ExistTaskStatus.EXIST or self.task_queue.read_finish_flag.get() == 1:
                 logger.info(f"Rank: {self.local_rank} Detected new requests.")

From 5bdef760a20763aa5df7b8f36aa488d3fc9f76ab Mon Sep 17 00:00:00 2001
From: chen <103103266+ckl117@users.noreply.github.com>
Date: Mon, 15 Dec 2025 15:53:34 +0800
Subject: [PATCH 019/161] [Feature][Optimization] Qwen Support Dynamic
 block_wise_fp8 cache (#5486) (#5536)

---
 .../decoder_write_cache_with_rope_impl.cuh    | 309 ++++++++++++++++++
 .../decoder_write_cache_with_rope_kernel.cu   | 109 ++++--
 2 files changed, 382 insertions(+), 36 deletions(-)

diff --git a/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_impl.cuh b/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_impl.cuh
index 5c141d7e334..5d1daed91e6 100644
--- a/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_impl.cuh
+++ b/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_impl.cuh
@@ -849,6 +849,315 @@ __global__ void append_decode_cache_T_quant_neox_rope_kernel(
 #endif
 }
 
+template <typename T,
+          int VecSize = 4,
+          int RoundType = 0,
+          int HeadDim = 128,
+          bool is_scale_channel_wise = false,
+          bool IsFP8 = true,
+          bool IsDynamic = true>
+__global__ void append_decode_cache_T_int8_neox_rope_kernel(
+    const T* __restrict__ quant_qkv,    // [bsz, num_heads + 2 * kv_num_heads,
+                                        // head_size]
+    uint8_t* __restrict__ key_cache,    // [num_blocks, kv_num_heads,
+                                        // block_size, head_size // 2]
+    uint8_t* __restrict__ value_cache,  // [num_blocks, kv_num_heads,
+                                        // block_size, head_size // 2]
+    T* __restrict__ qkv_out,
+    const int* __restrict__ block_tables,  // [bsz, max_blocks_per_seq]
+    const int* __restrict__ cu_seqlens_q,
+    const int* __restrict__ seq_lens,          // [bsz]
+    const int* __restrict__ seq_lens_encoder,  // [bsz]
+    const float* __restrict__ cos_emb,
+    const float* __restrict__ sin_emb,
+    T* __restrict__ cache_k_scale,
+    T* __restrict__ cache_v_scale,
+    const int max_seq_len,
+    const int max_blocks_per_seq,
+    const int num_heads,
+    const int block_size,
+    const float max_bound,
+    const float min_bound,
+    const int kv_num_heads,
+    const bool rope_3d,
+    const float rms_norm_eps) {
+  static_assert(HeadDim == 128, "just support HeadDim be 128 now!");
+  static_assert(VecSize == 4, "just support VecSize be 4 now, 32 * 4!");
+  constexpr int NUM_WARPS = 4;
+  const int tid = threadIdx.x;
+  const int wid = tid / 32;
+  const int lane_id = tid % 32;
+  const int bid = blockIdx.x, head_idx = blockIdx.y * NUM_WARPS + wid;
+  int q_head_idx, k_head_idx, v_idx;
+  const int64_t hidden_size = (num_heads + 2 * kv_num_heads) * HeadDim;
+  constexpr int half_head_size = HeadDim / 2;
+  const int start_token_idx = cu_seqlens_q[bid];
+  if (seq_lens_encoder[bid] > 0) return;
+  const int write_seq_id = seq_lens[bid];
+  if (write_seq_id == 0) return;
+  const int* block_table_now = nullptr;
+
+  block_table_now = block_tables + bid * max_blocks_per_seq;
+  const int block_idx = __ldg(&block_table_now[write_seq_id / block_size]);
+  const int block_offset = write_seq_id % block_size;
+
+  float thread_m2 = 0.0f;
+  float warp_m2 = 0.0f;
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+  cudaGridDependencySynchronize();
+#endif
+  if (head_idx < num_heads) {
+    // q
+    using LoadT = AlignedVector<T, VecSize>;
+    using LoadBiasT = AlignedVector<T, VecSize>;
+    constexpr int HalfVecSize = VecSize / 2;
+    using LoadEmbT = AlignedVector<float, VecSize>;
+
+    LoadT src_vec;
+    LoadT src_vec_right;
+    LoadBiasT out_vec;
+    LoadBiasT out_vec_right;
+    LoadEmbT cos_emb_vec;
+    LoadEmbT sin_emb_vec;
+    const T* qkv_now = quant_qkv + start_token_idx * hidden_size;
+    T* qkv_out_now = qkv_out + start_token_idx * hidden_size;
+#pragma unroll
+    for (uint32_t head_bias = lane_id * VecSize; head_bias < half_head_size;
+         head_bias += 32 * VecSize) {
+      const int bias_idx = head_idx * HeadDim + head_bias;
+      Load<T, VecSize>(&qkv_now[bias_idx], &src_vec);
+      Load<T, VecSize>(&qkv_now[bias_idx + half_head_size], &src_vec_right);
+      // q rope
+      const uint32_t emb_idx = write_seq_id * HeadDim + head_bias;
+      const uint32_t new_emb_idx =
+          rope_3d ? emb_idx + bid * max_seq_len * HeadDim : emb_idx;
+      Load<float, VecSize>(&cos_emb[new_emb_idx], &cos_emb_vec);
+      Load<float, VecSize>(&sin_emb[new_emb_idx], &sin_emb_vec);
+#pragma unroll
+      for (int i = 0; i < VecSize; i++) {
+        // dequant + add_bias + rope
+        float input_left = static_cast<float>(src_vec[i]);
+        float input_right = static_cast<float>(src_vec_right[i]);
+
+        const float cos_tmp = cos_emb_vec[i];
+        const float sin_tmp = sin_emb_vec[i];
+        float tmp1 = input_left * cos_tmp - input_right * sin_tmp;
+        float tmp2 = input_right * cos_tmp + input_left * sin_tmp;
+        thread_m2 += tmp1 * tmp1 + tmp2 * tmp2;
+        out_vec[i] = static_cast<T>(tmp1);
+        out_vec_right[i] = static_cast<T>(tmp2);
+      }
+      Store<T, VecSize>(out_vec, &qkv_out_now[bias_idx]);
+      Store<T, VecSize>(out_vec_right, &qkv_out_now[bias_idx + half_head_size]);
+    }
+  } else if (head_idx < num_heads + 2 * kv_num_heads) {
+    // k
+    constexpr int KV_VEC_SIZE = 16 / sizeof(uint8_t);  // 16
+    using LoadPadKVT = AlignedVector<uint8_t, KV_VEC_SIZE>;
+    const uint32_t kv_head_idx = (head_idx - num_heads) % kv_num_heads;
+    if (block_offset == 0) {
+      // pad zero for this kv_head_idx for this block
+      LoadPadKVT pad_cache_vec;
+      *(reinterpret_cast<uint4*>(pad_cache_vec.val)) = make_uint4(0, 0, 0, 0);
+      if (head_idx < num_heads + kv_num_heads) {
+        constexpr int num_vecs_per_head_dim = HeadDim / KV_VEC_SIZE;
+        constexpr int num_token_each_time = 32 / num_vecs_per_head_dim;
+        const uint32_t tgt_idx =
+            (block_idx * kv_num_heads + kv_head_idx) * block_size * HeadDim +
+            lane_id % num_vecs_per_head_dim * KV_VEC_SIZE;
+        for (int block_i = lane_id / num_vecs_per_head_dim;
+             block_i < block_size;
+             block_i += num_token_each_time) {
+          Store<uint8_t, KV_VEC_SIZE>(pad_cache_vec,
+                                      &key_cache[tgt_idx + block_i * HeadDim]);
+        }
+      } else {
+        const int num_vecs_per_head_dim = block_size / KV_VEC_SIZE;
+        const int num_token_each_time = 32 / num_vecs_per_head_dim;
+        const uint32_t tgt_idx =
+            (block_idx * kv_num_heads + kv_head_idx) * HeadDim * block_size +
+            lane_id % num_vecs_per_head_dim * KV_VEC_SIZE;
+        for (int block_i = lane_id / num_vecs_per_head_dim; block_i < HeadDim;
+             block_i += num_token_each_time) {
+          Store<uint8_t, KV_VEC_SIZE>(
+              pad_cache_vec, &value_cache[tgt_idx + block_i * block_size]);
+        }
+      }
+      __syncwarp();
+    }
+
+    constexpr int K_VEC_SIZE = 4;
+    constexpr int HALF_K_VEC_SIZE = 2;
+    using LoadKVResT = AlignedVector<uint8_t, K_VEC_SIZE>;
+    using LoadKVT = AlignedVector<uint8_t, HALF_K_VEC_SIZE>;
+    using LoadT = AlignedVector<T, HALF_K_VEC_SIZE>;
+    using LoadBiasT = AlignedVector<T, HALF_K_VEC_SIZE>;
+    using LoadEmbT = AlignedVector<float, HALF_K_VEC_SIZE>;
+    LoadKVResT cache_vec;
+    LoadT src_vec1, src_vec1_right, src_vec2, src_vec2_right;
+    LoadBiasT out_vec1, out_vec2;
+    LoadEmbT cos_emb_vec1, cos_emb_vec2;
+    LoadEmbT sin_emb_vec1, sin_emb_vec2;
+
+    const T* qkv_now = quant_qkv + start_token_idx * hidden_size;
+    const int head_bias = lane_id / 4 * 16 + lane_id % 4 * 2;
+    const int bias_idx = head_idx * HeadDim + head_bias;
+    Load<T, HALF_K_VEC_SIZE>(&qkv_now[bias_idx], &src_vec1);
+    Load<T, HALF_K_VEC_SIZE>(&qkv_now[bias_idx + 8], &src_vec2);
+    T scale = T(1.0f);
+    const int k_head_idx = head_idx - num_heads;
+    const int v_head_idx = head_idx - num_heads - kv_num_heads;
+    if (head_idx < num_heads + kv_num_heads) {
+      Load<T, HALF_K_VEC_SIZE>(
+          &qkv_now[head_idx * HeadDim + (head_bias + half_head_size) % HeadDim],
+          &src_vec1_right);
+      Load<T, HALF_K_VEC_SIZE>(
+          &qkv_now[head_idx * HeadDim +
+                   (head_bias + 8 + half_head_size) % HeadDim],
+          &src_vec2_right);
+
+      const uint32_t emb_idx = write_seq_id * HeadDim + head_bias;
+      const uint32_t new_emb_idx =
+          rope_3d ? emb_idx + bid * max_seq_len * HeadDim : emb_idx;
+      Load<float, HALF_K_VEC_SIZE>(&cos_emb[new_emb_idx], &cos_emb_vec1);
+      Load<float, HALF_K_VEC_SIZE>(&cos_emb[new_emb_idx + 8], &cos_emb_vec2);
+      Load<float, HALF_K_VEC_SIZE>(&sin_emb[new_emb_idx], &sin_emb_vec1);
+      Load<float, HALF_K_VEC_SIZE>(&sin_emb[new_emb_idx + 8], &sin_emb_vec2);
+    }
+
+    if (head_idx < num_heads + kv_num_heads) {
+      float input_left = static_cast<float>(src_vec1[0]);
+      float input_right = static_cast<float>(src_vec1_right[0]);
+      float cos_tmp = cos_emb_vec1[0];
+      float sin_tmp = sin_emb_vec1[0];
+      float tmp1 = 0;
+      if (head_bias < half_head_size) {
+        tmp1 = input_left * cos_tmp - input_right * sin_tmp;
+      } else {
+        tmp1 = input_left * cos_tmp + input_right * sin_tmp;
+      }
+      out_vec1[0] = static_cast<T>(tmp1);
+      input_left = static_cast<float>(src_vec1[1]);
+      input_right = static_cast<float>(src_vec1_right[1]);
+      cos_tmp = cos_emb_vec1[1];
+      sin_tmp = sin_emb_vec1[1];
+      if (head_bias < half_head_size) {
+        tmp1 = input_left * cos_tmp - input_right * sin_tmp;
+      } else {
+        tmp1 = input_left * cos_tmp + input_right * sin_tmp;
+      }
+      out_vec1[1] = static_cast<T>(tmp1);
+    } else {
+      out_vec1[0] = src_vec1[0];
+      out_vec1[1] = src_vec1[1];
+    }
+
+    // rope
+    if (head_idx < num_heads + kv_num_heads) {
+      float input_left = static_cast<float>(src_vec2[0]);
+      float input_right = static_cast<float>(src_vec2_right[0]);
+      float cos_tmp = cos_emb_vec2[0];
+      float sin_tmp = sin_emb_vec2[0];
+      float tmp1 = 0;
+      if (head_bias < half_head_size) {
+        tmp1 = input_left * cos_tmp - input_right * sin_tmp;
+      } else {
+        tmp1 = input_left * cos_tmp + input_right * sin_tmp;
+      }
+      out_vec2[0] = static_cast<T>(tmp1);
+      input_left = static_cast<float>(src_vec2[1]);
+      input_right = static_cast<float>(src_vec2_right[1]);
+      cos_tmp = cos_emb_vec2[1];
+      sin_tmp = sin_emb_vec2[1];
+      if (head_bias < half_head_size) {
+        tmp1 = input_left * cos_tmp - input_right * sin_tmp;
+      } else {
+        tmp1 = input_left * cos_tmp + input_right * sin_tmp;
+      }
+      out_vec2[1] = static_cast<T>(tmp1);
+    } else {
+      out_vec2[0] = src_vec2[0];
+      out_vec2[1] = src_vec2[1];
+    }
+    if constexpr (IsDynamic) {
+      // reduce max, 1 head per warp
+      T local_max = -INFINITY;
+#pragma unroll
+      for (int i = 0; i < HALF_K_VEC_SIZE; i++) {
+        local_max = __hmax(local_max, __habs(out_vec1[i]));
+        local_max = __hmax(local_max, __habs(out_vec2[i]));
+      }
+#pragma unroll
+      for (int m_offset = 16; m_offset > 0; m_offset /= 2) {
+        local_max =
+            __hmax(local_max, __shfl_xor_sync(0xffffffff, local_max, m_offset));
+      }
+      scale = __hdiv(448, local_max);
+
+      int cache_offset;
+      if (head_idx < num_heads) {
+        cache_offset = 0;
+      } else if (head_idx < num_heads + 2 * kv_num_heads) {
+        cache_offset = block_idx * kv_num_heads * block_size +
+                       (head_idx - num_heads) % kv_num_heads * block_size +
+                       block_offset;
+      }
+      T* cache_k_scale_now = cache_k_scale + cache_offset;
+      T* cache_v_scale_now = cache_v_scale + cache_offset;
+      if (lane_id == 0) {
+        if (head_idx < num_heads + kv_num_heads) {
+          cache_k_scale_now[0] = __hdiv(1, scale);
+        } else {
+          cache_v_scale_now[0] = __hdiv(1, scale);
+        }
+      }
+    } else {
+      if (head_idx < num_heads + kv_num_heads) {
+        scale = __ldg(&cache_k_scale[kv_head_idx]);
+      } else {
+        scale = __ldg(&cache_v_scale[kv_head_idx]);
+      }
+    }
+
+#pragma unroll
+    for (uint32_t i = 0; i < HALF_K_VEC_SIZE; i++) {
+      cache_vec[i] = QuantToC8<T, true, IsFP8, RoundType>(
+          scale, out_vec1[i], max_bound, min_bound);
+      cache_vec[i + HALF_K_VEC_SIZE] = QuantToC8<T, true, IsFP8, RoundType>(
+          scale, out_vec2[i], max_bound, min_bound);
+    }
+    if (head_idx < num_heads + kv_num_heads) {
+      const int start_block_16 =
+          block_offset / 16 * 16 + block_offset % 8 + lane_id / 4 % 2 * 8;
+      const uint32_t tgt_cache_idx =
+          block_idx * kv_num_heads * block_size * HeadDim +
+          kv_head_idx * block_size * HeadDim + start_block_16 * HeadDim +
+          lane_id / 4 / 2 * 32 + (block_offset % 16) / 8 * 16 + lane_id % 4 * 4;
+      Store<uint8_t, K_VEC_SIZE>(cache_vec, &key_cache[tgt_cache_idx]);
+    } else {
+      const uint32_t base_tgt_cache_idx =
+          block_idx * kv_num_heads * HeadDim * block_size +
+          kv_head_idx * HeadDim * block_size +
+          (lane_id / 4 * 16 + lane_id % 4 * 2) * block_size +
+          block_offset / 16 % 2 * 8 * block_size + block_offset / 16 / 2 * 32;
+      const uint32_t tgt_cache_idx1 = base_tgt_cache_idx +
+                                      block_offset % 8 / 2 * 4     // per 4
+                                      + block_offset % 16 / 8 * 2  // per 2
+                                      + block_offset % 2;          // per 1
+      const uint32_t tgt_cache_idx2 = tgt_cache_idx1 + block_size;
+      const uint32_t tgt_cache_idx3 = tgt_cache_idx1 + 16;
+      const uint32_t tgt_cache_idx4 = tgt_cache_idx3 + block_size;
+      value_cache[tgt_cache_idx1] = cache_vec[0];
+      value_cache[tgt_cache_idx2] = cache_vec[1];
+      value_cache[tgt_cache_idx3] = cache_vec[2];
+      value_cache[tgt_cache_idx4] = cache_vec[3];
+    }
+  }
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+  cudaTriggerProgrammaticLaunchCompletion();
+#endif
+}
+
 template <typename T,
           int VecSize = 4,
           int RoundType = 0,
diff --git a/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_kernel.cu b/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_kernel.cu
index d19c2ef384b..264299e0a66 100644
--- a/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_kernel.cu
+++ b/custom_ops/gpu_ops/append_attn/decoder_write_cache_with_rope_kernel.cu
@@ -885,42 +885,79 @@ void DecoderWriteCacheWithRoPEKernel(
       const int all_warps = ((num_heads + 2 * kv_num_heads) + num_warps - 1) /
                             num_warps * num_warps;
       dim3 grids(bsz, all_warps / num_warps);
-      launchWithPdlWhenEnabled(
-          append_decode_cache_int8_rope_qk_norm_kernel<DataType_,
-                                                       4,
-                                                       0,
-                                                       128,
-                                                       false,
-                                                       true>,
-          grids,
-          num_warps * 32,
-          0,
-          stream,
-          reinterpret_cast<const DataType_*>(qkv_ptr),
-          key_cache_out->data<uint8_t>(),
-          value_cache_out->data<uint8_t>(),
-          reinterpret_cast<DataType_*>(qkv_out->data<T>()),
-          block_tables.data<int>(),
-          cu_seqlens_q.data<int>(),
-          seq_lens.data<int>(),
-          seq_lens_encoder.data<int>(),
-          cos_emb,
-          sin_emb,
-          const_cast<DataType_*>(reinterpret_cast<const DataType_*>(
-              cache_k_scale.get().data<T>())),
-          const_cast<DataType_*>(reinterpret_cast<const DataType_*>(
-              (cache_v_scale.get().data<T>()))),
-          nullptr,
-          nullptr,
-          max_seq_len,
-          max_blocks_per_seq,
-          num_heads,
-          block_size,
-          127.0f,
-          -127.0f,
-          kv_num_heads,
-          rope_3d,
-          rms_norm_eps);
+      if (use_neox_rotary_style) {
+        launchWithPdlWhenEnabled(
+            append_decode_cache_T_int8_neox_rope_kernel<DataType_,
+                                                        4,
+                                                        0,
+                                                        128,
+                                                        false,
+                                                        true>,
+            grids,
+            num_warps * 32,
+            0,
+            stream,
+            reinterpret_cast<const DataType_*>(qkv_ptr),
+            key_cache_out->data<uint8_t>(),
+            value_cache_out->data<uint8_t>(),
+            reinterpret_cast<DataType_*>(qkv_out->data<T>()),
+            block_tables.data<int>(),
+            cu_seqlens_q.data<int>(),
+            seq_lens.data<int>(),
+            seq_lens_encoder.data<int>(),
+            cos_emb,
+            sin_emb,
+            const_cast<DataType_*>(reinterpret_cast<const DataType_*>(
+                cache_k_scale.get().data<T>())),
+            const_cast<DataType_*>(reinterpret_cast<const DataType_*>(
+                (cache_v_scale.get().data<T>()))),
+            max_seq_len,
+            max_blocks_per_seq,
+            num_heads,
+            block_size,
+            127.0f,
+            -127.0f,
+            kv_num_heads,
+            rope_3d,
+            rms_norm_eps);
+      } else {
+        launchWithPdlWhenEnabled(
+            append_decode_cache_int8_rope_qk_norm_kernel<DataType_,
+                                                         4,
+                                                         0,
+                                                         128,
+                                                         false,
+                                                         true>,
+            grids,
+            num_warps * 32,
+            0,
+            stream,
+            reinterpret_cast<const DataType_*>(qkv_ptr),
+            key_cache_out->data<uint8_t>(),
+            value_cache_out->data<uint8_t>(),
+            reinterpret_cast<DataType_*>(qkv_out->data<T>()),
+            block_tables.data<int>(),
+            cu_seqlens_q.data<int>(),
+            seq_lens.data<int>(),
+            seq_lens_encoder.data<int>(),
+            cos_emb,
+            sin_emb,
+            const_cast<DataType_*>(reinterpret_cast<const DataType_*>(
+                cache_k_scale.get().data<T>())),
+            const_cast<DataType_*>(reinterpret_cast<const DataType_*>(
+                (cache_v_scale.get().data<T>()))),
+            nullptr,
+            nullptr,
+            max_seq_len,
+            max_blocks_per_seq,
+            num_heads,
+            block_size,
+            127.0f,
+            -127.0f,
+            kv_num_heads,
+            rope_3d,
+            rms_norm_eps);
+      }
     } else if (cache_quant_type_str == "cache_int4_zp") {
       append_decode_cache_int4_rope(
           reinterpret_cast<const QKV_TYPE*>(qkv_ptr),

From 0fa40f5f0c56773d50224651338e9cc0551d4b84 Mon Sep 17 00:00:00 2001
From: chenjian <1435317881@qq.com>
Date: Mon, 15 Dec 2025 17:25:55 +0800
Subject: [PATCH 020/161] Fix bug for caching output when preempted (#5510)

---
 fastdeploy/output/token_processor.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
index 764028419d3..406252fd445 100644
--- a/fastdeploy/output/token_processor.py
+++ b/fastdeploy/output/token_processor.py
@@ -750,7 +750,9 @@ def _process_batch_output(self):
                         and self.cfg.cache_config.enable_prefix_caching
                         and self.cfg.cache_config.enable_output_caching
                     ):
-                        if (task.num_total_tokens - 1) % self.cfg.cache_config.block_size == 0:
+                        if (task.num_total_tokens - 1) % self.cfg.cache_config.block_size == 0 and (
+                            task_id not in self.resource_manager.to_be_rescheduled_request_id_set
+                        ):
                             self.resource_manager.cache_output_tokens(
                                 task
                             )  # when enable prefix caching, cache kv cache for output tokens

From 99b40247ea7579bca2b318d7294f79d7ce69a242 Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Mon, 15 Dec 2025 20:08:07 +0800
Subject: [PATCH 021/161] [Cherry-Pick][BugFix] fix dynamic c8 in v1
 loader(#5562)  (#5519)

* fix dyname load bug

* update

* update
---
 .../model_executor/layers/quantization/kv_cache.py       | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/fastdeploy/model_executor/layers/quantization/kv_cache.py b/fastdeploy/model_executor/layers/quantization/kv_cache.py
index cd461fde799..2ccc06f0e45 100644
--- a/fastdeploy/model_executor/layers/quantization/kv_cache.py
+++ b/fastdeploy/model_executor/layers/quantization/kv_cache.py
@@ -263,10 +263,11 @@ def process_weights_after_loading(self, layer: nn.Layer):
         """
         use for loader v1
         """
-        if layer.cache_k_scale._is_initialized():
-            layer.cache_k_out_scale.set_value(1 / layer.cache_k_scale)
-        if layer.cache_v_scale._is_initialized():
-            layer.cache_v_out_scale.set_value(1 / layer.cache_v_scale)
+        if "block_wise" not in layer.cache_quant_type_str:
+            if layer.cache_k_scale._is_initialized():
+                layer.cache_k_out_scale.set_value(1 / layer.cache_k_scale)
+            if layer.cache_v_scale._is_initialized():
+                layer.cache_v_out_scale.set_value(1 / layer.cache_v_scale)
 
     def apply(self, layer):
         """

From 9f742339664bc8b9db4c1a72c6dc4a834f9f2529 Mon Sep 17 00:00:00 2001
From: gaoziyuan <88373061+gzy19990617@users.noreply.github.com>
Date: Tue, 16 Dec 2025 11:24:17 +0800
Subject: [PATCH 022/161] =?UTF-8?q?=E3=80=90NewFeature=E3=80=91support=20l?=
 =?UTF-8?q?oad=20fp8=20weight=20(#5566)?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

-
---
 fastdeploy/rl/dynamic_weight_manager.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/rl/dynamic_weight_manager.py b/fastdeploy/rl/dynamic_weight_manager.py
index 69bbeb2e3fa..a865b9c62ba 100644
--- a/fastdeploy/rl/dynamic_weight_manager.py
+++ b/fastdeploy/rl/dynamic_weight_manager.py
@@ -118,7 +118,7 @@ def _update_ipc_snapshot(self):
         )
 
         try:
-            ipc_state_dict = paddle.load(model_path)
+            ipc_state_dict = paddle.load(model_path, safetensors=True)
         except FileNotFoundError:
             fallback_path = f"/shared_ipc_meta/model_state.tp0{self.meta_src_id}.pdparams"
             ipc_state_dict = paddle.load(fallback_path)

From 53158b7f8dfcac4d281420b1eea7f9074c22fef1 Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Tue, 16 Dec 2025 15:45:49 +0800
Subject: [PATCH 023/161] [Cherry-Pick][CI] Adape unit_test due to
 incompatibility change(#5578) (#5583)

* [CI] Remove test_metrics.py due to incompatible forced merge (#5578)
* [CI] Adapt vl_model baseline changes due to Paddle update (#5576)
---
 .../EB_VL_Lite/test_EB_VL_Lite_serving.py     |   4 +-
 .../Qwen2_5_VL/test_Qwen2_5_VL_serving.py     | 476 ------------------
 .../{test_metrics.py => _test_metrics.py}     |   0
 tests/e2e/test_EB_VL_Lite_serving.py          |   4 +-
 tests/e2e/test_Qwen2_5_VL_serving.py          |   2 +-
 tests/e2e/test_ernie_21b_mtp.py               |   2 +-
 6 files changed, 6 insertions(+), 482 deletions(-)
 delete mode 100644 tests/ci_use/Qwen2_5_VL/test_Qwen2_5_VL_serving.py
 rename tests/ci_use/metrics/{test_metrics.py => _test_metrics.py} (100%)

diff --git a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
index e51018f201e..e4f2e2c9923 100644
--- a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
+++ b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
@@ -205,9 +205,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev-1215")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-dev"
+        base_file = "ernie-4_5-vl-base-tp2-dev-1215"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/ci_use/Qwen2_5_VL/test_Qwen2_5_VL_serving.py b/tests/ci_use/Qwen2_5_VL/test_Qwen2_5_VL_serving.py
deleted file mode 100644
index 98ed5567833..00000000000
--- a/tests/ci_use/Qwen2_5_VL/test_Qwen2_5_VL_serving.py
+++ /dev/null
@@ -1,476 +0,0 @@
-# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import json
-import os
-import re
-import signal
-import subprocess
-import sys
-import time
-
-import openai
-import pytest
-import requests
-
-tests_dir = os.path.abspath(os.path.join(os.path.dirname(__file__), "..", ".."))
-sys.path.insert(0, tests_dir)
-
-from e2e.utils.serving_utils import (
-    FD_API_PORT,
-    FD_CACHE_QUEUE_PORT,
-    FD_ENGINE_QUEUE_PORT,
-    FD_METRICS_PORT,
-    clean_ports,
-    is_port_open,
-)
-
-
-@pytest.fixture(scope="session", autouse=True)
-def setup_and_run_server():
-    """
-    Pytest fixture that runs once per test session:
-    - Cleans ports before tests
-    - Starts the API server as a subprocess
-    - Waits for server port to open (up to 30 seconds)
-    - Tears down server after all tests finish
-    """
-    print("Pre-test port cleanup...")
-    clean_ports()
-
-    model_path = "/ModelData/Qwen2.5-VL-7B-Instruct"
-
-    log_path = "server.log"
-    limit_mm_str = json.dumps({"image": 100, "video": 100})
-
-    cmd = [
-        sys.executable,
-        "-m",
-        "fastdeploy.entrypoints.openai.api_server",
-        "--model",
-        model_path,
-        "--port",
-        str(FD_API_PORT),
-        # "--tensor-parallel-size",
-        # "2",
-        "--engine-worker-queue-port",
-        str(FD_ENGINE_QUEUE_PORT),
-        "--metrics-port",
-        str(FD_METRICS_PORT),
-        "--cache-queue-port",
-        str(FD_CACHE_QUEUE_PORT),
-        "--enable-mm",
-        "--max-model-len",
-        "32768",
-        "--max-num-batched-tokens",
-        "384",
-        "--max-num-seqs",
-        "128",
-        "--limit-mm-per-prompt",
-        limit_mm_str,
-    ]
-
-    print(cmd)
-    # Start subprocess in new process group
-    with open(log_path, "w") as logfile:
-        process = subprocess.Popen(
-            cmd,
-            stdout=logfile,
-            stderr=subprocess.STDOUT,
-            start_new_session=True,  # Enables killing full group via os.killpg
-        )
-
-    print(f"Started API server with pid {process.pid}")
-    # Wait up to 10 minutes for API server to be ready
-    for _ in range(10 * 60):
-        if is_port_open("127.0.0.1", FD_API_PORT):
-            print(f"API server is up on port {FD_API_PORT}")
-            break
-        time.sleep(1)
-    else:
-        print("[TIMEOUT] API server failed to start in 10 minutes. Cleaning up...")
-        try:
-            os.killpg(process.pid, signal.SIGTERM)
-        except Exception as e:
-            print(f"Failed to kill process group: {e}")
-        raise RuntimeError(f"API server did not start on port {FD_API_PORT}")
-
-    yield  # Run tests
-
-    print("\n===== Post-test server cleanup... =====")
-    try:
-        os.killpg(process.pid, signal.SIGTERM)
-        print(f"API server (pid={process.pid}) terminated")
-    except Exception as e:
-        print(f"Failed to terminate API server: {e}")
-
-
-@pytest.fixture(scope="session")
-def api_url(request):
-    """
-    Returns the API endpoint URL for chat completions.
-    """
-    return f"http://0.0.0.0:{FD_API_PORT}/v1/chat/completions"
-
-
-@pytest.fixture(scope="session")
-def metrics_url(request):
-    """
-    Returns the metrics endpoint URL.
-    """
-    return f"http://0.0.0.0:{FD_METRICS_PORT}/metrics"
-
-
-@pytest.fixture
-def headers():
-    """
-    Returns common HTTP request headers.
-    """
-    return {"Content-Type": "application/json"}
-
-
-@pytest.fixture
-def consistent_payload():
-    """
-    Returns a fixed payload for consistency testing,
-    including a fixed random seed and temperature.
-    """
-    return {
-        "messages": [
-            {
-                "role": "user",
-                "content": [
-                    {
-                        "type": "image_url",
-                        "image_url": {
-                            "url": "https://ku.baidu-int.com/vk-assets-ltd/space/2024/09/13/933d1e0a0760498e94ec0f2ccee865e0",
-                            "detail": "high",
-                        },
-                    },
-                    {"type": "text", "text": "请描述图片内容"},
-                ],
-            }
-        ],
-        "temperature": 0.8,
-        "top_p": 0,  # fix top_p to reduce randomness
-        "seed": 13,  # fixed random seed
-    }
-
-
-# ==========================
-# Consistency test for repeated runs with fixed payload
-# ==========================
-def test_consistency_between_runs(api_url, headers, consistent_payload):
-    """
-    Test that result is same as the base result.
-    """
-    # request
-    resp1 = requests.post(api_url, headers=headers, json=consistent_payload)
-    assert resp1.status_code == 200
-    result1 = resp1.json()
-    content1 = result1["choices"][0]["message"]["content"]
-    file_res_temp = "Qwen2.5-VL-7B-Instruct-temp"
-    f_o = open(file_res_temp, "a")
-    f_o.writelines(content1)
-    f_o.close()
-
-    # base result
-    content2 = """这张图片展示了一群人在进行手工艺活动。前景中有两个孩子和一个成年人，他们似乎在制作或展示某种手工艺品。成年人手里拿着一个扇子，上面有彩色的图案，可能是通过某种方式绘制或涂鸦而成。孩子们看起来很专注，可能是在观察或参与这个过程。
-
-背景中还有其他几个人，其中一个人穿着粉色的衣服，背对着镜头。整个场景看起来像是在一个室内环境中，光线充足，氛围轻松愉快。"""
-
-    # Verify that result is same as the base result
-    assert content1 == content2
-
-
-# ==========================
-# OpenAI Client Chat Completion Test
-# ==========================
-
-
-@pytest.fixture
-def openai_client():
-    ip = "0.0.0.0"
-    service_http_port = str(FD_API_PORT)
-    client = openai.Client(
-        base_url=f"http://{ip}:{service_http_port}/v1",
-        api_key="EMPTY_API_KEY",
-    )
-    return client
-
-
-# Non-streaming test
-def test_non_streaming_chat(openai_client):
-    """Test non-streaming chat functionality with the local service"""
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {
-                "role": "system",
-                "content": "You are a helpful AI assistant.",
-            },  # system不是必需，可选
-            {
-                "role": "user",
-                "content": [
-                    {
-                        "type": "image_url",
-                        "image_url": {
-                            "url": "https://ku.baidu-int.com/vk-assets-ltd/space/2024/09/13/933d1e0a0760498e94ec0f2ccee865e0",
-                            "detail": "high",
-                        },
-                    },
-                    {"type": "text", "text": "请描述图片内容"},
-                ],
-            },
-        ],
-        temperature=1,
-        max_tokens=53,
-        stream=False,
-    )
-
-    assert hasattr(response, "choices")
-    assert len(response.choices) > 0
-    assert hasattr(response.choices[0], "message")
-    assert hasattr(response.choices[0].message, "content")
-
-
-# Streaming test
-def test_streaming_chat(openai_client, capsys):
-    """Test streaming chat functionality with the local service"""
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {
-                "role": "system",
-                "content": "You are a helpful AI assistant.",
-            },  # system不是必需，可选
-            {"role": "user", "content": "List 3 countries and their capitals."},
-            {
-                "role": "assistant",
-                "content": "China(Beijing), France(Paris), Australia(Canberra).",
-            },
-            {
-                "role": "user",
-                "content": [
-                    {
-                        "type": "image_url",
-                        "image_url": {
-                            "url": "https://ku.baidu-int.com/vk-assets-ltd/space/2024/09/13/933d1e0a0760498e94ec0f2ccee865e0",
-                            "detail": "high",
-                        },
-                    },
-                    {"type": "text", "text": "请描述图片内容"},
-                ],
-            },
-        ],
-        temperature=1,
-        max_tokens=512,
-        stream=True,
-    )
-
-    output = []
-    for chunk in response:
-        if hasattr(chunk.choices[0], "delta") and hasattr(chunk.choices[0].delta, "content"):
-            output.append(chunk.choices[0].delta.content)
-    assert len(output) > 2
-
-
-# ==========================
-# OpenAI Client additional chat/completions test
-# ==========================
-
-
-def test_non_streaming_chat_with_return_token_ids(openai_client, capsys):
-    """
-    Test return_token_ids option in non-streaming chat functionality with the local service
-    """
-    # 设定 return_token_ids
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {"role": "system", "content": "You are a helpful AI assistant."},  # system不是必需，可选
-            {
-                "role": "user",
-                "content": [
-                    {
-                        "type": "image_url",
-                        "image_url": {
-                            "url": "https://paddlenlp.bj.bcebos.com/datasets/paddlemix/demo_images/example2.jpg",
-                            "detail": "high",
-                        },
-                    },
-                    {"type": "text", "text": "请描述图片内容"},
-                ],
-            },
-        ],
-        temperature=1,
-        max_tokens=53,
-        extra_body={"return_token_ids": True},
-        stream=False,
-    )
-    assert hasattr(response, "choices")
-    assert len(response.choices) > 0
-    assert hasattr(response.choices[0], "message")
-    assert hasattr(response.choices[0].message, "prompt_token_ids")
-    assert isinstance(response.choices[0].message.prompt_token_ids, list)
-    assert hasattr(response.choices[0].message, "completion_token_ids")
-    assert isinstance(response.choices[0].message.completion_token_ids, list)
-
-    # 不设定 return_token_ids
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {"role": "system", "content": "You are a helpful AI assistant."},  # system不是必需，可选
-            {
-                "role": "user",
-                "content": [
-                    {
-                        "type": "image_url",
-                        "image_url": {
-                            "url": "https://paddlenlp.bj.bcebos.com/datasets/paddlemix/demo_images/example2.jpg",
-                            "detail": "high",
-                        },
-                    },
-                    {"type": "text", "text": "请描述图片内容"},
-                ],
-            },
-        ],
-        temperature=1,
-        max_tokens=53,
-        extra_body={"return_token_ids": False},
-        stream=False,
-    )
-    assert hasattr(response, "choices")
-    assert len(response.choices) > 0
-    assert hasattr(response.choices[0], "message")
-    assert hasattr(response.choices[0].message, "prompt_token_ids")
-    assert response.choices[0].message.prompt_token_ids is None
-    assert hasattr(response.choices[0].message, "completion_token_ids")
-    assert response.choices[0].message.completion_token_ids is None
-
-
-def test_streaming_chat_with_return_token_ids(openai_client, capsys):
-    """
-    Test return_token_ids option in streaming chat functionality with the local service
-    """
-    # enable return_token_ids
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {"role": "system", "content": "You are a helpful AI assistant."},  # system不是必需，可选
-            {
-                "role": "user",
-                "content": [
-                    {
-                        "type": "image_url",
-                        "image_url": {
-                            "url": "https://paddlenlp.bj.bcebos.com/datasets/paddlemix/demo_images/example2.jpg",
-                            "detail": "high",
-                        },
-                    },
-                    {"type": "text", "text": "请描述图片内容"},
-                ],
-            },
-        ],
-        temperature=1,
-        max_tokens=53,
-        extra_body={"return_token_ids": True},
-        stream=True,
-    )
-    is_first_chunk = True
-    for chunk in response:
-        assert hasattr(chunk, "choices")
-        assert len(chunk.choices) > 0
-        assert hasattr(chunk.choices[0], "delta")
-        assert hasattr(chunk.choices[0].delta, "prompt_token_ids")
-        assert hasattr(chunk.choices[0].delta, "completion_token_ids")
-        if is_first_chunk:
-            is_first_chunk = False
-            assert isinstance(chunk.choices[0].delta.prompt_token_ids, list)
-            assert chunk.choices[0].delta.completion_token_ids is None
-        else:
-            assert chunk.choices[0].delta.prompt_token_ids is None
-            assert isinstance(chunk.choices[0].delta.completion_token_ids, list)
-
-    # disable return_token_ids
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {"role": "system", "content": "You are a helpful AI assistant."},  # system不是必需，可选
-            {
-                "role": "user",
-                "content": [
-                    {
-                        "type": "image_url",
-                        "image_url": {
-                            "url": "https://paddlenlp.bj.bcebos.com/datasets/paddlemix/demo_images/example2.jpg",
-                            "detail": "high",
-                        },
-                    },
-                    {"type": "text", "text": "请描述图片内容"},
-                ],
-            },
-        ],
-        temperature=1,
-        max_tokens=53,
-        extra_body={"return_token_ids": False},
-        stream=True,
-    )
-    for chunk in response:
-        assert hasattr(chunk, "choices")
-        assert len(chunk.choices) > 0
-        assert hasattr(chunk.choices[0], "delta")
-        assert hasattr(chunk.choices[0].delta, "prompt_token_ids")
-        assert chunk.choices[0].delta.prompt_token_ids is None
-        assert hasattr(chunk.choices[0].delta, "completion_token_ids")
-        assert chunk.choices[0].delta.completion_token_ids is None
-
-
-def test_profile_reset_block_num():
-    """测试profile reset_block_num功能，与baseline diff不能超过15%"""
-    log_file = "./log/config.log"
-    baseline = 30000
-
-    if not os.path.exists(log_file):
-        pytest.fail(f"Log file not found: {log_file}")
-
-    with open(log_file, "r") as f:
-        log_lines = f.readlines()
-
-    target_line = None
-    for line in log_lines:
-        if "Reset block num" in line:
-            target_line = line.strip()
-            break
-
-    if target_line is None:
-        pytest.fail("日志中没有Reset block num信息")
-
-    match = re.search(r"total_block_num:(\d+)", target_line)
-    if not match:
-        pytest.fail(f"Failed to extract total_block_num from line: {target_line}")
-
-    try:
-        actual_value = int(match.group(1))
-    except ValueError:
-        pytest.fail(f"Invalid number format: {match.group(1)}")
-
-    lower_bound = baseline * (1 - 0.15)
-    upper_bound = baseline * (1 + 0.15)
-    print(f"Reset total_block_num: {actual_value}. baseline: {baseline}")
-
-    assert lower_bound <= actual_value <= upper_bound, (
-        f"Reset total_block_num {actual_value} 与 baseline {baseline} diff需要在5%以内"
-        f"Allowed range: [{lower_bound:.1f}, {upper_bound:.1f}]"
-    )
diff --git a/tests/ci_use/metrics/test_metrics.py b/tests/ci_use/metrics/_test_metrics.py
similarity index 100%
rename from tests/ci_use/metrics/test_metrics.py
rename to tests/ci_use/metrics/_test_metrics.py
diff --git a/tests/e2e/test_EB_VL_Lite_serving.py b/tests/e2e/test_EB_VL_Lite_serving.py
index f93f355a754..9d4bba731c5 100644
--- a/tests/e2e/test_EB_VL_Lite_serving.py
+++ b/tests/e2e/test_EB_VL_Lite_serving.py
@@ -204,9 +204,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev-1215")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-dev"
+        base_file = "ernie-4_5-vl-base-tp2-dev-1215"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/e2e/test_Qwen2_5_VL_serving.py b/tests/e2e/test_Qwen2_5_VL_serving.py
index ff2ae24e201..92064f6a236 100644
--- a/tests/e2e/test_Qwen2_5_VL_serving.py
+++ b/tests/e2e/test_Qwen2_5_VL_serving.py
@@ -179,7 +179,7 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     f_o.close()
 
     # base result
-    content2 = "这张图片展示了一群人在进行手工艺活动。前景中有两个孩子和一个成年人，他们似乎在制作或展示某种手工艺品。成年人手里拿着一个扇子，上面有彩色的图案，可能是通过某种方式绘制或涂鸦而成。孩子们看起来很专注，可能是在观察或参与这个过程。\n\n背景中还有其他几个人，其中一个人穿着粉色的衣服，背对着镜头。整个场景看起来像是在一个室内环境中，光线充足，氛围轻松愉快。"
+    content2 = "这张图片展示了一群人在进行手工艺活动。前景中有两个孩子和一个成年人，他们似乎在制作或展示一件艺术品。成年人手里拿着一个扇子，上面有各种颜色的颜料混合在一起，看起来像是通过某种方式创作的艺术品。孩子们也参与其中，一个孩子正在仔细观察，另一个孩子则在旁边观看。\n\n背景中还有其他人在进行类似的活动，环境看起来像是在一个室内空间，可能是教室或工作室。整体氛围显得非常温馨和愉快，大家似乎都在享受这个创作过程。"
 
     # Verify that result is same as the base result
     assert content1 == content2
diff --git a/tests/e2e/test_ernie_21b_mtp.py b/tests/e2e/test_ernie_21b_mtp.py
index dd05cdd6a36..a26f4060cea 100644
--- a/tests/e2e/test_ernie_21b_mtp.py
+++ b/tests/e2e/test_ernie_21b_mtp.py
@@ -147,7 +147,7 @@ def headers():
     return {"Content-Type": "application/json"}
 
 
-def send_request(url, payload, timeout=600):
+def send_request(url, payload, timeout=60):
     """
     发送请求到指定的URL，并返回响应结果。
     """

From c19af496cb13ef3f3bc8d2407317e0952a2316b1 Mon Sep 17 00:00:00 2001
From: RAM <gstian5555@outlook.com>
Date: Wed, 17 Dec 2025 09:50:40 +0800
Subject: [PATCH 024/161] [Cherry-Pick][RL] R3 Support RDMA Store(#5467)
 (#5468)

* [RL] R3 support rdma store

* refine code

* refine notes

* disable prefix cache

* fix ci bug

* support preempted task and put cpu tensor
---
 fastdeploy/config.py                          |  9 ++-
 .../layers/moe/routing_indices_cache.py       | 59 ++++++++++++++++++-
 fastdeploy/worker/gpu_model_runner.py         |  5 ++
 3 files changed, 69 insertions(+), 4 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index f1eb23852f8..a6e74403957 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1488,14 +1488,17 @@ class RoutingReplayConfig:
     """Configuration for Routing Replay used in RL training"""
 
     def __init__(self, args) -> None:
+
         self.enable_routing_replay: bool = False
+
+        # Routing store type: local/rdma
         self.routing_store_type: str = "local"
 
         # Local routing store
         self.local_store_dir: str = "./routing_replay_output"
 
         # RDMA routing store
-        # TODO: Add RDMA routing store configuration attributes here when the feature is implemented.
+        self.rdma_store_server: str = ""
 
         if args is not None:
             for key, value in args.items():
@@ -1688,7 +1691,9 @@ def postprocess(self):
         self.cache_config.postprocess(self.scheduler_config.max_num_batched_tokens, self.scheduler_config.max_num_seqs)
         if self.model_config is not None and self.model_config.enable_mm and not envs.ENABLE_V1_KVCACHE_SCHEDULER:
             self.cache_config.enable_prefix_caching = False
-
+        if self.routing_replay_config is not None and self.routing_replay_config.enable_routing_replay:
+            # TODO(gongshaotian): R3 support prefix caching
+            self.cache_config.enable_prefix_caching = False
         if (
             self.structured_outputs_config is not None
             and self.structured_outputs_config.guided_decoding_backend != "off"
diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index e95a3d8569f..00e8ebc2495 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -14,9 +14,11 @@
 # limitations under the License.
 """
 
+import asyncio
 import copy
 import os
 import shutil
+import time
 from abc import ABC, abstractmethod
 from typing import Dict, List, Optional
 
@@ -247,6 +249,11 @@ def split_request_id(self, request_id: str):
         rollout_id = reversed_tmp_str[-1][::-1]
         return rollout_id
 
+    def clear_request(self, batch_id: int):
+        """Clear the routing indices of the request"""
+        self._clear_table_slot(batch_id)
+        self.routing_batch_to_request.pop(batch_id, None)
+
 
 class RoutingStoreBase(ABC):
     """Base class for routing store"""
@@ -283,6 +290,7 @@ class RoutingStoreLocal(RoutingStoreBase):
     def __init__(self, fd_config) -> None:
         super().__init__(fd_config=fd_config)
         self.local_store_dir = fd_config.routing_replay_config.local_store_dir
+        self.clear_store()
 
     def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
         """Put the routing indices into store"""
@@ -330,8 +338,55 @@ def clear_store(self):
 class RoutingStoreRDMA(RoutingStoreBase):
     """Routing Store using RDMA"""
 
-    def __init__(self) -> None:
-        super().__init__()
+    def __init__(self, fd_config) -> None:
+        super().__init__(fd_config=fd_config)
+        try:
+            # Only used in RLHF
+            from p2pstore import P2PClient, P2PConfig
+        except ModuleNotFoundError:
+            raise ModuleNotFoundError(" RoutingStoreRDMA and p2pstore only support in RLHF. ")
+
+        rdma_store_server = fd_config.routing_replay_config.rdma_store_server
+        p2pConfig = P2PConfig(metadata_server=rdma_store_server)
+        self.p2p_client = P2PClient(p2pConfig)
+        self.clear_store()
+
+    def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+        """Put the routing indices into store"""
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
+
+        # async put
+        time_before_put = time.perf_counter()
+        routing_indices_pin = routing_indices.pin_memory()
+        routing_indices_np = routing_indices_pin.numpy()
+        asyncio.run(self.p2p_client.put(rdma_rollout_key, routing_indices_np))
+        print(f"Success put with key {rdma_rollout_key}, time cost is {time.perf_counter()-time_before_put} s")
+
+    def get(
+        self,
+        rollout_id: str,
+        layer_idx: int = None,
+    ) -> paddle.Tensor:
+        """Get the routing indices from store"""
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
+        # sync get
+        tmp_routing = asyncio.run(self.p2p_client.get(rdma_rollout_key))
+        return tmp_routing
+
+    def clear(
+        self,
+        rollout_id: str,
+        layer_idx: int = None,
+    ) -> None:
+        """Clear the routing indices of the request"""
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
+        # sync delete
+        asyncio.run(self.p2p_client.delete(rdma_rollout_key))
+
+    def clear_store(self):
+        """Clear the routing indices store"""
+        # sync clear routing store
+        asyncio.run(self.p2p_client.clear())
 
 
 def get_routing_store(fd_config: FDConfig) -> RoutingStoreBase:
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 363d4cae714..b3fcdab44b6 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -705,6 +705,11 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                 self.prompt_logprobs_reqs.pop(request.request_id, None)
                 self.in_progress_prompt_logprobs.pop(request.request_id, None)
                 self.forward_batch_reqs_list[idx] = None
+
+                # Routing Replay
+                if self.fd_config.routing_replay_config.enable_routing_replay:
+                    self.routing_replay_manager.clear_request(batch_id=idx)
+
                 continue
 
             assert len(request.eos_token_ids) == self.model_config.eos_tokens_lens

From a7359d1c1d3bea9fd56fce0804f982eeac4dbd84 Mon Sep 17 00:00:00 2001
From: freeliuzc <lzc842650834@gmail.com>
Date: Wed, 17 Dec 2025 16:53:47 +0800
Subject: [PATCH 025/161] [Cherry-Pick][CI]Support different inferseed in
 speculate decoding(#5568) (#5597)

* fix mtp entropy drop in RL

* optimize usage and fix unit test

* optimize padding_sampling_params speed(vectorized)
---
 .../model_executor/layers/sample/sampler.py   | 47 +++++++++++----
 fastdeploy/worker/gpu_model_runner.py         |  6 +-
 tests/layers/test_speculative_sampler.py      | 60 ++++++++++++++++++-
 3 files changed, 99 insertions(+), 14 deletions(-)

diff --git a/fastdeploy/model_executor/layers/sample/sampler.py b/fastdeploy/model_executor/layers/sample/sampler.py
index 52bb358bf7f..28687ea53ce 100644
--- a/fastdeploy/model_executor/layers/sample/sampler.py
+++ b/fastdeploy/model_executor/layers/sample/sampler.py
@@ -56,12 +56,40 @@ def top_p_normalize_probs_paddle(
     return paddle.zeros_like(probs_sort).put_along_axis_(indices=probs_idx, values=probs_sort, axis=-1)
 
 
-def padding_sampling_params(top_p, top_k, seq_lens_this_time, seq_lens_encoder):
+def padding_sampling_params(top_p, top_k, infer_seed, seq_lens_this_time, seq_lens_encoder):
     real_bsz = seq_lens_this_time.shape[0]
     repeats = paddle.where(seq_lens_encoder[:real_bsz] == 0, seq_lens_this_time, paddle.ones_like(seq_lens_this_time))
     top_p_padding = paddle.repeat_interleave(top_p[:real_bsz], repeats).unsqueeze(1)
     top_k_padding = paddle.repeat_interleave(top_k[:real_bsz], repeats).unsqueeze(1)
-    return top_p_padding, top_k_padding
+    topp_seed = paddle.repeat_interleave(infer_seed[:real_bsz], repeats).unsqueeze(1)
+
+    MAX_INFER_SEED = 9223372036854775806
+
+    token_lens = paddle.where(
+        seq_lens_encoder[:real_bsz] == 0,
+        seq_lens_this_time,
+        paddle.ones_like(seq_lens_this_time),
+    )
+
+    batch_start = (paddle.cumsum(token_lens, axis=0) - token_lens.astype("int64")).reshape(-1)  # [B]
+    token_batch_ids = paddle.repeat_interleave(
+        paddle.arange(token_lens.shape[0], dtype="int64"),
+        token_lens,
+    )
+    token_pos = paddle.arange(topp_seed.shape[0], dtype="int64")
+    local_pos = token_pos - paddle.gather(batch_start, token_batch_ids)
+
+    is_decoder = paddle.gather(seq_lens_encoder[:real_bsz] == 0, token_batch_ids).reshape(-1)
+
+    offsets = paddle.where(
+        is_decoder,
+        local_pos * 4,
+        paddle.zeros_like(local_pos),
+    )
+
+    topp_seed[:, 0] = (topp_seed[:, 0] + offsets) % MAX_INFER_SEED
+
+    return top_p_padding, top_k_padding, topp_seed
 
 
 class GuidedDecoding:
@@ -501,7 +529,7 @@ def forward_cuda(
             sampling_metadata.top_p,
             sampling_metadata.top_k,
             sampling_metadata.top_k_list,
-            seed=sampling_metadata.seed[0, 0],
+            topp_seed=sampling_metadata.seed,
         )
 
         logprobs_tensors = (
@@ -725,13 +753,14 @@ def forward_cuda(
 
         probs = F.softmax(logits)
 
-        top_p, top_k = padding_sampling_params(
+        top_p, top_k, topp_seed = padding_sampling_params(
             sampling_metadata.top_p,
             sampling_metadata.top_k,
+            sampling_metadata.seed,
             share_inputs["seq_lens_this_time"],
             share_inputs["seq_lens_encoder"],
         )
-        _, sampled_token_ids = top_k_top_p_sampling(probs, top_p=top_p, top_k=top_k, seed=sampling_metadata.seed[0, 0])
+        _, sampled_token_ids = top_k_top_p_sampling(probs, top_p=top_p, top_k=top_k, topp_seed=topp_seed)
 
         verify_scores, verify_tokens, actual_candidate_len = top_p_candidates(
             probs,
@@ -1064,13 +1093,7 @@ def forward_cuda(
         )
         probs = F.softmax(logits)
 
-        top_p, top_k = padding_sampling_params(
-            sampling_metadata.top_p,
-            sampling_metadata.top_k,
-            share_inputs["seq_lens_this_time"],
-            share_inputs["seq_lens_encoder"],
-        )
-        _, next_tokens = top_k_top_p_sampling(probs, top_p=top_p, top_k=top_k, seed=sampling_metadata.seed[0, 0])
+        next_tokens = paddle.argmax(probs, axis=-1)
 
         token_ids = None
         logprobs_tensors = None
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index b3fcdab44b6..418fef9093f 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -190,9 +190,13 @@ def __init__(
 
         # Initialize share inputs
         self._init_share_inputs(self.scheduler_config.max_num_seqs)
+        increment_value = (
+            4 if not self.speculative_decoding else (self.speculative_config.num_speculative_tokens + 1) * 4
+        )
+
         self.infer_seed_increment = paddle.full(
             shape=[self.scheduler_config.max_num_seqs, 1],
-            fill_value=4,
+            fill_value=increment_value,
             dtype="int64",
         ).cpu()
 
diff --git a/tests/layers/test_speculative_sampler.py b/tests/layers/test_speculative_sampler.py
index 32f95bfd91b..e1450307104 100644
--- a/tests/layers/test_speculative_sampler.py
+++ b/tests/layers/test_speculative_sampler.py
@@ -30,6 +30,7 @@
 from fastdeploy.model_executor.layers.sample.sampler import (
     MTPSampler,
     SpeculativeSampler,
+    padding_sampling_params,
 )
 
 
@@ -72,7 +73,7 @@ def _create_default_sampling_metadata(
         bad_words_token_ids=paddle.full(shape=[batch_size], fill_value=-1, dtype="int64"),
         eos_token_ids=paddle.full(shape=[batch_size], fill_value=-2, dtype="int64"),
         min_p=paddle.randn([batch_size]),
-        seed=paddle.to_tensor([[2025]]),
+        seed=paddle.full(shape=[batch_size], fill_value=0, dtype="int64"),
     )
     if max_num_logprobs is not None:
         fake_sampling_metadata.max_num_logprobs = max_num_logprobs
@@ -143,6 +144,19 @@ def _create_share_inputs(max_num_seqs, max_draft_token_num, max_model_len, vocab
     return share_inputs
 
 
+def _create_padding_inputs():
+    # batch_size = 3
+    top_p = paddle.to_tensor([[0.9], [0.8], [0.7], [1.0]], dtype="float32")
+    top_k = paddle.to_tensor([[10], [20], [30], [40]], dtype="int32")
+    infer_seed = paddle.to_tensor([[100], [200], [300], [400]], dtype="int64")
+
+    # decoder, encoder, decoder
+    seq_lens_encoder = paddle.to_tensor([[0], [5], [0], [0]], dtype="int32")
+    seq_lens_this_time = paddle.to_tensor([[3], [2], [0], [2]], dtype="int32")
+
+    return top_p, top_k, infer_seed, seq_lens_this_time, seq_lens_encoder
+
+
 def test_speculative_sampler():
     batch_size = 32
     vocab_size = 1024
@@ -220,8 +234,52 @@ def test_mtp_sampler_logprobs():
         sampler(logits, sampling_metadata, max_model_len, share_inputs)
 
 
+def test_padding_sampling_params_basic():
+    top_p, top_k, infer_seed, seq_lens_this_time, seq_lens_encoder = _create_padding_inputs()
+
+    top_p_pad, top_k_pad, seed_pad = padding_sampling_params(
+        top_p, top_k, infer_seed, seq_lens_this_time, seq_lens_encoder
+    )
+
+    # decoder(3) + encoder(1) + decoder(2) = 6
+    assert top_p_pad.shape == [6, 1]
+    assert top_k_pad.shape == [6, 1]
+    assert seed_pad.shape == [6, 1]
+
+    # top_p padding check
+    expected_top_p = [0.9, 0.9, 0.9, 0.8, 1.0, 1.0]
+    assert paddle.allclose(top_p_pad.squeeze(), paddle.to_tensor(expected_top_p, dtype="float32"))
+
+    # top_k padding check
+    expected_top_k = [10, 10, 10, 20, 40, 40]
+    assert paddle.equal_all(top_k_pad.squeeze(), paddle.to_tensor(expected_top_k, dtype="int32"))
+
+
+def test_padding_sampling_params_seed_offset():
+    top_p, top_k, infer_seed, seq_lens_this_time, seq_lens_encoder = _create_padding_inputs()
+
+    _, _, seed_pad = padding_sampling_params(top_p, top_k, infer_seed, seq_lens_this_time, seq_lens_encoder)
+
+    # decoder(0): 100 + 4*k
+    # encoder(1): 200 (no offset)
+    # null
+    # decoder(3): 400 + 4*k
+    expected_seed = [
+        100,
+        104,
+        108,  # first decoder seq (len=3)
+        200,  # encoder
+        400,
+        404,  # second decoder seq (len=2)
+    ]
+
+    assert paddle.equal_all(seed_pad.squeeze(), paddle.to_tensor(expected_seed, dtype="int64"))
+
+
 if __name__ == "__main__":
     test_speculative_sampler()
     test_speculative_sampler_logprobs()
     test_mtp_sampler()
     test_mtp_sampler_logprobs()
+    test_padding_sampling_params_basic()
+    test_padding_sampling_params_seed_offset()

From d67b64d5e12ab5f79b3bb7cef38a21d4dd7254df Mon Sep 17 00:00:00 2001
From: qwes5s5 <45442318+qwes5s5@users.noreply.github.com>
Date: Wed, 17 Dec 2025 17:04:45 +0800
Subject: [PATCH 026/161] add detoken switch (#5463) (#5572)

---
 docs/online_serving/README.md                 |  6 ++
 docs/zh/online_serving/README.md              |  6 ++
 fastdeploy/entrypoints/openai/protocol.py     |  2 +
 fastdeploy/entrypoints/openai/serving_chat.py | 57 +++++++++++++------
 .../entrypoints/openai/serving_completion.py  | 18 ++++--
 tests/entrypoints/openai/test_serving_chat.py | 10 ++--
 .../openai/test_serving_completion.py         | 10 ++--
 7 files changed, 77 insertions(+), 32 deletions(-)

diff --git a/docs/online_serving/README.md b/docs/online_serving/README.md
index bbf88fd1d26..2e0afdafe53 100644
--- a/docs/online_serving/README.md
+++ b/docs/online_serving/README.md
@@ -223,6 +223,9 @@ include_draft_logprobs: Optional[bool] = False
 # Whether to return log probabilities during draft stages (e.g., pre-generation or intermediate steps)
 # for debugging or analysis of the generation process (default False means not returned).
 
+include_logprobs_decode_token: Optional[bool] = True
+# Whether to include decoded token in the logprobs/prompt_logprobs results, (default True means the decoded token is always include in results).
+
 logits_processors_args: Optional[Dict] = None
 # Additional arguments for logits processors, enabling customization of generation logic
 # (e.g., dynamically adjusting probability distributions).
@@ -479,6 +482,9 @@ include_draft_logprobs: Optional[bool] = False
 # Whether to return log probabilities during draft stages (e.g., pre-generation or intermediate steps)
 # for debugging or analysis of the generation process (default False means not returned).
 
+include_logprobs_decode_token: Optional[bool] = True
+# Whether to include decoded token in the prompt_logprobs results, (default True means the decoded token is always include in results).
+
 logits_processors_args: Optional[Dict] = None
 # Additional arguments for logits processors, enabling customization of generation logic
 # (e.g., dynamically adjusting probability distributions).
diff --git a/docs/zh/online_serving/README.md b/docs/zh/online_serving/README.md
index 59debbdbf4d..6c2f94de26c 100644
--- a/docs/zh/online_serving/README.md
+++ b/docs/zh/online_serving/README.md
@@ -218,6 +218,9 @@ top_p_normalized_logprobs: Optional[bool] = False
 include_draft_logprobs: Optional[bool] = False
 # 是否在预生成或中间步骤返回对数概率（log probabilities），用于调试或分析生成过程（默认 False 表示不返回）。
 
+include_logprobs_decode_token: Optional[bool] = True
+# 是否在logprobs/prompt_logprobs结果中返回解码后的token，（默认的True表示总是在结果中返回）
+
 logits_processors_args: Optional[Dict] = None
 # 传递给 logits 处理器（logits processors）的额外参数，用于自定义生成过程中的逻辑（如动态调整概率分布）。
 
@@ -467,6 +470,9 @@ top_p_normalized_logprobs: Optional[bool] = False
 include_draft_logprobs: Optional[bool] = False
 # 是否在预生成或中间步骤返回对数概率（log probabilities），用于调试或分析生成过程（默认 False 表示不返回）。
 
+include_logprobs_decode_token: Optional[bool] = True
+# 是否在prompt_logprobs结果中返回解码后的token，（默认的True表示总是在结果中返回）
+
 logits_processors_args: Optional[Dict] = None
 # 传递给 logits 处理器（logits processors）的额外参数，用于自定义生成过程中的逻辑（如动态调整概率分布）。
 
diff --git a/fastdeploy/entrypoints/openai/protocol.py b/fastdeploy/entrypoints/openai/protocol.py
index 000861470dd..33d12a1234c 100644
--- a/fastdeploy/entrypoints/openai/protocol.py
+++ b/fastdeploy/entrypoints/openai/protocol.py
@@ -455,6 +455,7 @@ class CompletionRequest(BaseModel):
     frequency_penalty: Optional[float] = Field(default=None, ge=-2, le=2)
     logprobs: Optional[int] = None
     include_draft_logprobs: Optional[bool] = False
+    include_logprobs_decode_token: Optional[bool] = True
     prompt_logprobs: Optional[int] = None
     # For logits and logprobs post processing
     temp_scaled_logprobs: bool = False
@@ -616,6 +617,7 @@ class ChatCompletionRequest(BaseModel):
     top_logprobs: Optional[int] = None
     prompt_logprobs: Optional[int] = None
     include_draft_logprobs: Optional[bool] = False
+    include_logprobs_decode_token: Optional[bool] = True
 
     # For logits and logprobs post processing
     temp_scaled_logprobs: bool = False
diff --git a/fastdeploy/entrypoints/openai/serving_chat.py b/fastdeploy/entrypoints/openai/serving_chat.py
index aa8cf8dd7b0..0f1cfb00073 100644
--- a/fastdeploy/entrypoints/openai/serving_chat.py
+++ b/fastdeploy/entrypoints/openai/serving_chat.py
@@ -306,7 +306,7 @@ async def chat_completion_stream_generator(
                                     else self.engine_client.ori_vocab_size
                                 )
                                 prompt_logprobs_res = self._build_prompt_logprobs(
-                                    prompt_logprobs_tensors, num_prompt_logprobs
+                                    prompt_logprobs_tensors, num_prompt_logprobs, request.include_logprobs_decode_token
                                 )
                             choice = ChatCompletionResponseStreamChoice(
                                 index=i,
@@ -373,12 +373,18 @@ async def chat_completion_stream_generator(
                             request.top_logprobs if request.top_logprobs != -1 else self.engine_client.ori_vocab_size
                         )
                         logprobs_res = self._create_chat_logprobs(
-                            output_top_logprobs, request.logprobs, num_top_logprobs
+                            output_top_logprobs,
+                            request.logprobs,
+                            num_top_logprobs,
+                            request.include_logprobs_decode_token,
                         )
 
                         if request.include_draft_logprobs and output_draft_top_logprobs is not None:
                             draft_logprobs_res = self._create_chat_logprobs(
-                                output_draft_top_logprobs, request.logprobs, num_top_logprobs
+                                output_draft_top_logprobs,
+                                request.logprobs,
+                                num_top_logprobs,
+                                request.include_logprobs_decode_token,
                             )
 
                     delta_message = DeltaMessage(
@@ -577,7 +583,10 @@ async def chat_completion_full_generator(
                         )
                         # logprobs
                         logprobs_res = self._create_chat_logprobs(
-                            output_top_logprobs, request.logprobs, num_top_logprobs
+                            output_top_logprobs,
+                            request.logprobs,
+                            num_top_logprobs,
+                            request.include_logprobs_decode_token,
                         )
                         if logprobs_res and logprobs_res.content is not None:
                             logprob_contents[idx].extend(logprobs_res.content)
@@ -585,7 +594,10 @@ async def chat_completion_full_generator(
                         # draft_logprobs
                         if request.include_draft_logprobs and output_draft_top_logprobs is not None:
                             draft_logprobs_res = self._create_chat_logprobs(
-                                output_draft_top_logprobs, request.logprobs, num_top_logprobs
+                                output_draft_top_logprobs,
+                                request.logprobs,
+                                num_top_logprobs,
+                                request.include_logprobs_decode_token,
                             )
                             if draft_logprobs_res and draft_logprobs_res.content is not None:
                                 draft_logprob_contents[idx].extend(draft_logprobs_res.content)
@@ -596,7 +608,9 @@ async def chat_completion_full_generator(
                             if request.prompt_logprobs != -1
                             else self.engine_client.ori_vocab_size
                         )
-                        prompt_logprobs_res = self._build_prompt_logprobs(prompt_logprobs_tensors, num_prompt_logprobs)
+                        prompt_logprobs_res = self._build_prompt_logprobs(
+                            prompt_logprobs_tensors, num_prompt_logprobs, request.include_logprobs_decode_token
+                        )
                         if prompt_logprobs_res:
                             prompt_logprobs_res_list[idx].extend(clamp_prompt_logprobs(prompt_logprobs_res))
                     if data["finished"]:
@@ -738,6 +752,7 @@ def _create_chat_logprobs(
         output_top_logprobs,
         request_logprobs: Optional[bool] = None,
         request_top_logprobs: Optional[int] = None,
+        request_decode_flag: Optional[bool] = True,
     ) -> Optional[LogProbs]:
         """Create OpenAI-style logprobs for chat completions."""
         if output_top_logprobs is None or len(output_top_logprobs) < 3 or any(not lst for lst in output_top_logprobs):
@@ -755,6 +770,7 @@ def _create_chat_logprobs(
                 request_logprobs=request_logprobs,
                 response_logprobs=top_logprobs,
                 request_top_logprobs=request_top_logprobs,
+                request_decode_flag=request_decode_flag,
             )
             if logprobs_res is None:
                 logprobs_res = step_logprobs_res
@@ -767,6 +783,7 @@ def _build_logprobs_response(
         request_logprobs: bool,
         response_logprobs: Optional[LogprobsLists],
         request_top_logprobs: int,
+        request_decode_flag: bool,
     ) -> Optional[LogProbs]:
         """
         Construct a logprobs response object in line with the OpenAI style.
@@ -796,12 +813,16 @@ def _build_logprobs_response(
             # Construct the candidate token structure (LogProbEntry) of topk
             top_logprob_entries: List[LogProbEntry] = []
             for tid, lp in zip(topk_token_ids, topk_logprobs):
-                token_str = self.engine_client.data_processor.process_logprob_response(
-                    [tid], clean_up_tokenization_spaces=False
-                )
-                token_bytes = token_str.encode("utf-8", errors="replace")
-                if "\ufffd" in token_str:
-                    token_str = "bytes:" + "".join(f"\\x{byte:02x}" for byte in token_bytes)
+                if request_decode_flag:
+                    token_str = self.engine_client.data_processor.process_logprob_response(
+                        [tid], clean_up_tokenization_spaces=False
+                    )
+                    token_bytes = token_str.encode("utf-8", errors="replace")
+                    if "\ufffd" in token_str:
+                        token_str = "bytes:" + "".join(f"\\x{byte:02x}" for byte in token_bytes)
+                else:
+                    token_str = ""
+                    token_bytes = []
                 entry = LogProbEntry(token=token_str, logprob=lp, bytes=list(token_bytes))
                 top_logprob_entries.append(entry)
             # Construct the sampled token object (avoid sharing references with top_logprob_entries)
@@ -840,6 +861,7 @@ def _build_prompt_logprobs(
         self,
         prompt_logprobs_tensors: LogprobsTensors,
         num_prompt_logprobs: int,
+        include_logprobs_decode_token: bool,
     ):
         """Update with prompt logprobs from worker.
         Args:
@@ -851,10 +873,13 @@ def _build_prompt_logprobs(
 
         # Detokenize non-incrementally.
         # Output is flat: [num_tok, num_lps] -> [num_tok * num_lps]
-        decoded_tokens = [
-            self.engine_client.data_processor.process_logprob_response(token_id)
-            for token_id in token_ids.flatten().tolist()
-        ]
+        if include_logprobs_decode_token:
+            decoded_tokens = [
+                self.engine_client.data_processor.process_logprob_response(token_id)
+                for token_id in token_ids.flatten().tolist()
+            ]
+        else:
+            decoded_tokens = None
 
         # Recover shapes.
         num_prompt_tokens, num_logprobs = logprobs.shape
diff --git a/fastdeploy/entrypoints/openai/serving_completion.py b/fastdeploy/entrypoints/openai/serving_completion.py
index 93013531759..ac9d390cf3f 100644
--- a/fastdeploy/entrypoints/openai/serving_completion.py
+++ b/fastdeploy/entrypoints/openai/serving_completion.py
@@ -452,7 +452,7 @@ async def completion_stream_generator(
                                 else self.engine_client.ori_vocab_size
                             )
                             prompt_logprobs_res = self._build_prompt_logprobs(
-                                prompt_logprobs_tensors, num_prompt_logprobs
+                                prompt_logprobs_tensors, num_prompt_logprobs, request.include_logprobs_decode_token
                             )
                         if request.return_token_ids:
                             chunk = CompletionStreamResponse(
@@ -648,7 +648,9 @@ def request_output_to_completion_response(
                 num_prompt_logprobs = (
                     request.prompt_logprobs if request.prompt_logprobs != -1 else self.engine_client.ori_vocab_size
                 )
-                prompt_logprobs_res = self._build_prompt_logprobs(prompt_logprobs_tensors, num_prompt_logprobs)
+                prompt_logprobs_res = self._build_prompt_logprobs(
+                    prompt_logprobs_tensors, num_prompt_logprobs, request.include_logprobs_decode_token
+                )
             if request.echo:
                 prompt_text = self._echo_back_prompt(request, idx // (1 if request.n is None else request.n))
                 token_ids = [*prompt_token_ids, *output["token_ids"]]
@@ -814,6 +816,7 @@ def _build_prompt_logprobs(
         self,
         prompt_logprobs_tensors: LogprobsTensors,
         num_prompt_logprobs: int,
+        include_logprobs_decode_token: bool,
     ):
         """Update with prompt logprobs from worker.
         Args:
@@ -825,10 +828,13 @@ def _build_prompt_logprobs(
 
         # Detokenize non-incrementally.
         # Output is flat: [num_tok, num_lps] -> [num_tok * num_lps]
-        decoded_tokens = [
-            self.engine_client.data_processor.process_logprob_response(token_id)
-            for token_id in token_ids.flatten().tolist()
-        ]
+        if include_logprobs_decode_token:
+            decoded_tokens = [
+                self.engine_client.data_processor.process_logprob_response(token_id)
+                for token_id in token_ids.flatten().tolist()
+            ]
+        else:
+            decoded_tokens = None
 
         # Recover shapes.
         num_prompt_tokens, num_logprobs = logprobs.shape
diff --git a/tests/entrypoints/openai/test_serving_chat.py b/tests/entrypoints/openai/test_serving_chat.py
index 940e569e186..58dc18db512 100644
--- a/tests/entrypoints/openai/test_serving_chat.py
+++ b/tests/entrypoints/openai/test_serving_chat.py
@@ -89,7 +89,7 @@ def test_build_prompt_logprobs_basic(self):
         ) as mock_decode:
             mock_decode.side_effect = ["token1", "token2", "token3", "token4", "token5", "token6"]
 
-            result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs)
+            result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs, True)
 
             # Verify result structure (first element is None, then actual results)
             self.assertEqual(len(result), num_prompt_tokens + 1)
@@ -127,7 +127,7 @@ def test_build_prompt_logprobs_with_all_logprobs(self):
         ) as mock_decode:
             mock_decode.side_effect = ["hello", "world"]
 
-            result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, -1)
+            result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, -1, True)
 
             self.assertEqual(len(result), num_prompt_tokens + 1)
             self.assertIsNone(result[0])
@@ -154,7 +154,7 @@ def test_build_prompt_logprobs_single_token(self):
         ) as mock_decode:
             mock_decode.return_value = "single_token"
 
-            result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs)
+            result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs, True)
 
             self.assertEqual(len(result), num_prompt_tokens + 1)
             self.assertIsNone(result[0])
@@ -183,7 +183,7 @@ def test_build_prompt_logprobs_multiple_positions(self):
         ) as mock_decode:
             mock_decode.side_effect = ["t1", "t2", "t3", "t4", "t5", "t6"]
 
-            result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs)
+            result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs, True)
 
             self.assertEqual(len(result), num_prompt_tokens + 1)
             self.assertIsNone(result[0])
@@ -217,7 +217,7 @@ def test_build_prompt_logprobs_empty_tensors(self):
 
         prompt_logprobs_tensors = LogprobsTensors(token_ids, logprobs, ranks)
 
-        result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs)
+        result = self.chat_completion_handler._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs, True)
 
         self.assertEqual(len(result), num_prompt_tokens + 1)
         self.assertIsNone(result[0])
diff --git a/tests/entrypoints/openai/test_serving_completion.py b/tests/entrypoints/openai/test_serving_completion.py
index fdefd1cc3e4..680d775bd0b 100644
--- a/tests/entrypoints/openai/test_serving_completion.py
+++ b/tests/entrypoints/openai/test_serving_completion.py
@@ -208,7 +208,7 @@ def test_build_prompt_logprobs_basic(self):
         ) as mock_decode:
             mock_decode.side_effect = ["token1", "token2", "token3", "token4", "token5", "token6"]
 
-            result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs)
+            result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs, True)
 
             # Verify result structure (first element is None, then actual results)
             self.assertEqual(len(result), num_prompt_tokens + 1)
@@ -246,7 +246,7 @@ def test_build_prompt_logprobs_with_all_logprobs(self):
         ) as mock_decode:
             mock_decode.side_effect = ["hello", "world"]
 
-            result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, -1)
+            result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, -1, True)
 
             self.assertEqual(len(result), num_prompt_tokens + 1)
             self.assertIsNone(result[0])
@@ -273,7 +273,7 @@ def test_build_prompt_logprobs_single_token(self):
         ) as mock_decode:
             mock_decode.return_value = "single_token"
 
-            result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs)
+            result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs, True)
 
             self.assertEqual(len(result), num_prompt_tokens + 1)
             self.assertIsNone(result[0])
@@ -302,7 +302,7 @@ def test_build_prompt_logprobs_multiple_positions(self):
         ) as mock_decode:
             mock_decode.side_effect = ["t1", "t2", "t3", "t4", "t5", "t6"]
 
-            result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs)
+            result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs, True)
 
             self.assertEqual(len(result), num_prompt_tokens + 1)
             self.assertIsNone(result[0])
@@ -336,7 +336,7 @@ def test_build_prompt_logprobs_empty_tensors(self):
 
         prompt_logprobs_tensors = LogprobsTensors(token_ids, logprobs, ranks)
 
-        result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs)
+        result = self.serving_completion._build_prompt_logprobs(prompt_logprobs_tensors, num_logprobs, True)
 
         self.assertEqual(len(result), num_prompt_tokens + 1)
         self.assertIsNone(result[0])

From d7d633a2851f1b30770ff00f4ad2ac4f2000d5c1 Mon Sep 17 00:00:00 2001
From: freeliuzc <lzc842650834@gmail.com>
Date: Wed, 17 Dec 2025 20:08:51 +0800
Subject: [PATCH 027/161] [Cherry-Pick][CI]Fix write qknorm cache bug in
 speculative decoding(#5491) (#5617)

* [liuzichang spend 10 dyas]fix write qknorm cache bug

* fix 'fix cachekv bug''
---
 .../speculate_write_cache_with_rope_impl.cuh      | 15 +++++++++------
 .../speculate_write_cache_with_rope_kernel.cu     |  3 +++
 2 files changed, 12 insertions(+), 6 deletions(-)

diff --git a/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_impl.cuh b/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_impl.cuh
index bf0a22b6e2d..30d3f9196a9 100644
--- a/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_impl.cuh
+++ b/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_impl.cuh
@@ -31,6 +31,7 @@ __global__ void append_speculate_cache_T_rope_qk_norm_kernel(
     const int* __restrict__ batch_id_per_token,  // [num_tokens]
     const int* __restrict__ cu_seqlens_q,
     const int* __restrict__ seq_lens_decoder,  // [bsz]
+    const int* __restrict__ seq_lens_encoder,  // [bsz]
     const float* __restrict__ cos_emb,
     const float* __restrict__ sin_emb,
     const float*
@@ -75,7 +76,7 @@ __global__ void append_speculate_cache_T_rope_qk_norm_kernel(
 
     const int ori_bi = batch_id_per_token[token_id];
     if (ori_bi == -1) continue;  // NOTE(gongshaotian): For CUDAGraph padding
-    if (seq_lens_decoder[ori_bi] == 0) continue;
+    if (seq_lens_encoder[ori_bi] > 0) continue;
     const int bias = linear_index % hidden_size;
     const int hi = bias / head_size;  // q + k + v
     const int h_bias = bias % head_size;
@@ -87,7 +88,7 @@ __global__ void append_speculate_cache_T_rope_qk_norm_kernel(
     const int* block_table_now = block_tables + ori_bi * max_blocks_per_seq;
     const int block_idx = block_table_now[write_seq_id / block_size];
     if (block_idx < 0) {
-      return;  // NOTE(gongshaotian): For CUDAGraph padding
+      continue;  // NOTE(gongshaotian): For CUDAGraph padding
     }
     const int block_offset = write_seq_id % block_size;
 
@@ -343,6 +344,7 @@ __global__ void append_speculate_cache_rope_kernel(
     const int* __restrict__ batch_id_per_token,  // [num_tokens]
     const int* __restrict__ cu_seqlens_q,
     const int* __restrict__ seq_lens_decoder,  // [bsz]
+    const int* __restrict__ seq_lens_encoder,  // [bsz]
     const float* __restrict__ cos_emb,
     const float* __restrict__ sin_emb,
     const float*
@@ -380,7 +382,7 @@ __global__ void append_speculate_cache_rope_kernel(
     const int ori_bi = batch_id_per_token[token_id];
     if (ori_bi == -1) continue;  // NOTE(gongshaotian): For CUDAGraph padding
 
-    if (seq_lens_decoder[ori_bi] == 0) continue;
+    if (seq_lens_encoder[ori_bi] > 0) continue;
     const int bias = linear_index % hidden_size;
     const int hi = bias / head_size;  // q + k + v
     const int h_bias = bias % head_size;
@@ -392,7 +394,7 @@ __global__ void append_speculate_cache_rope_kernel(
     const int* block_table_now = block_tables + ori_bi * max_blocks_per_seq;
     const int block_idx = block_table_now[write_seq_id / block_size];
     if (block_idx < 0) {
-      return;  // NOTE(gongshaotian): For CUDAGraph padding
+      continue;  // NOTE(gongshaotian): For CUDAGraph padding
     }
     const int block_offset = write_seq_id % block_size;
 
@@ -473,6 +475,7 @@ __global__ void append_speculate_cache_neox_rope_kernel(
     const int* __restrict__ batch_id_per_token,  // [num_tokens]
     const int* __restrict__ cu_seqlens_q,
     const int* __restrict__ seq_lens_decoder,  // [bsz]
+    const int* __restrict__ seq_lens_encoder,  // [bsz]
     const float* __restrict__ cos_emb,
     const float* __restrict__ sin_emb,
     const float*
@@ -509,7 +512,7 @@ __global__ void append_speculate_cache_neox_rope_kernel(
     const int token_id = linear_index / half_hidden_size;
     const int ori_bi = batch_id_per_token[token_id];
     if (ori_bi == -1) continue;  // NOTE(gongshaotian): For CUDAGraph padding
-    if (seq_lens_decoder[ori_bi] == 0) continue;
+    if (seq_lens_encoder[ori_bi] > 0) continue;
     const int bias = linear_index % half_hidden_size;
     const int hi = bias / half_head_size;  // q + k + v
     const int h_bias = bias % half_head_size;
@@ -521,7 +524,7 @@ __global__ void append_speculate_cache_neox_rope_kernel(
     const int* block_table_now = block_tables + ori_bi * max_blocks_per_seq;
     const int block_idx = block_table_now[write_seq_id / block_size];
     if (block_idx < 0) {
-      return;  // NOTE(gongshaotian): For CUDAGraph padding
+      continue;  // NOTE(gongshaotian): For CUDAGraph padding
     }
     const int block_offset = write_seq_id % block_size;
 
diff --git a/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_kernel.cu b/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_kernel.cu
index 3a9305df2b5..513f384b210 100644
--- a/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_kernel.cu
+++ b/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_kernel.cu
@@ -67,6 +67,7 @@ void append_speculate_cache_rope_qk_norm(const QKV_TYPE* qkv,
                                               batch_id_per_token,
                                               cu_seqlens_q,
                                               seq_lens,
+                                              seq_lens_encoder,
                                               cos_emb,
                                               sin_emb,
                                               qkv_out_scales,
@@ -134,6 +135,7 @@ void append_speculate_cache_rope(const QKV_TYPE* qkv,
             batch_id_per_token,
             cu_seqlens_q,
             seq_lens,
+            seq_lens_encoder,
             cos_emb,
             sin_emb,
             qkv_out_scales,
@@ -158,6 +160,7 @@ void append_speculate_cache_rope(const QKV_TYPE* qkv,
             batch_id_per_token,
             cu_seqlens_q,
             seq_lens,
+            seq_lens_encoder,
             cos_emb,
             sin_emb,
             qkv_out_scales,

From e56c4dd0a87e87679f819bdfdc705a251e3d5eee Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Wed, 17 Dec 2025 20:53:04 +0800
Subject: [PATCH 028/161] [Cherry-Pick] Support for request-level speculative
 decoding metrics monitoring.(#5518) (#5614)

* support spec metrics monitor per request
---
 fastdeploy/engine/request.py                  |  11 +-
 fastdeploy/entrypoints/openai/protocol.py     |   6 +-
 fastdeploy/entrypoints/openai/serving_chat.py |   9 ++
 .../entrypoints/openai/serving_completion.py  |  10 ++
 fastdeploy/metrics/metrics.py                 |   8 +-
 fastdeploy/output/token_processor.py          | 107 ++++++++++++------
 fastdeploy/worker/output.py                   |  32 ++++++
 .../openai/test_completion_echo.py            |   6 +
 .../openai/test_max_streaming_tokens.py       |   3 +
 .../openai/test_serving_completion.py         |   2 +
 tests/output/test_process_batch_output.py     |   9 +-
 11 files changed, 155 insertions(+), 48 deletions(-)

diff --git a/fastdeploy/engine/request.py b/fastdeploy/engine/request.py
index 06ff8fe1b88..5eff092df36 100644
--- a/fastdeploy/engine/request.py
+++ b/fastdeploy/engine/request.py
@@ -31,7 +31,12 @@
 from fastdeploy.engine.sampling_params import SamplingParams
 from fastdeploy.entrypoints.openai.protocol import ToolCall
 from fastdeploy.utils import data_processor_logger
-from fastdeploy.worker.output import LogprobsLists, PromptLogprobs, SampleLogprobs
+from fastdeploy.worker.output import (
+    LogprobsLists,
+    PromptLogprobs,
+    SampleLogprobs,
+    SpeculateMetrics,
+)
 
 
 class RequestStatus(Enum):
@@ -402,6 +407,7 @@ class CompletionOutput:
     text: Optional[str] = None
     reasoning_content: Optional[str] = None
     tool_calls: Optional[ToolCall] = None
+    speculate_metrics: Optional[SpeculateMetrics] = None
 
     def to_dict(self):
         """
@@ -475,6 +481,7 @@ class RequestMetrics:
     llm_engine_recv_req_timestamp: Optional[float] = None
     llm_engine_send_req_to_engine_timestamp: Optional[float] = None
     llm_engine_recv_token_timestamp: Optional[float] = None
+    speculate_metrics: Optional[SpeculateMetrics] = None
 
     def to_dict(self):
         """
@@ -594,6 +601,8 @@ def add(self, next_output: RequestOutput) -> None:
             self.outputs.draft_top_logprobs.sampled_token_ranks.extend(
                 next_output.outputs.draft_top_logprobs.sampled_token_ranks
             )
+        if next_output.metrics.speculate_metrics is not None:
+            self.outputs.speculate_metrics = next_output.metrics.speculate_metrics
 
     def __repr__(self) -> str:
         return (
diff --git a/fastdeploy/entrypoints/openai/protocol.py b/fastdeploy/entrypoints/openai/protocol.py
index 33d12a1234c..02b78773f3a 100644
--- a/fastdeploy/entrypoints/openai/protocol.py
+++ b/fastdeploy/entrypoints/openai/protocol.py
@@ -31,7 +31,7 @@
 )
 
 from fastdeploy.engine.pooling_params import PoolingParams
-from fastdeploy.worker.output import PromptLogprobs
+from fastdeploy.worker.output import PromptLogprobs, SpeculateMetrics
 
 
 class InvalidParameterException(Exception):
@@ -230,6 +230,7 @@ class ChatCompletionResponseChoice(BaseModel):
     draft_logprobs: Optional[LogProbs] = None
     prompt_logprobs: Optional[PromptLogprobs] = None
     finish_reason: Optional[Literal["stop", "length", "tool_calls", "recover_stop"]]
+    speculate_metrics: Optional[SpeculateMetrics] = None
 
 
 class ChatCompletionResponse(BaseModel):
@@ -295,6 +296,7 @@ class ChatCompletionResponseStreamChoice(BaseModel):
     prompt_logprobs: Optional[PromptLogprobs] = None
     finish_reason: Optional[Literal["stop", "length", "tool_calls"]] = None
     arrival_time: Optional[float] = None
+    speculate_metrics: Optional[SpeculateMetrics] = None
 
 
 class ChatCompletionStreamResponse(BaseModel):
@@ -329,6 +331,7 @@ class CompletionResponseChoice(BaseModel):
     reasoning_content: Optional[str] = None
     finish_reason: Optional[Literal["stop", "length", "tool_calls"]]
     tool_calls: Optional[List[DeltaToolCall | ToolCall]] = None
+    speculate_metrics: Optional[SpeculateMetrics] = None
 
 
 class CompletionResponse(BaseModel):
@@ -374,6 +377,7 @@ class CompletionResponseStreamChoice(BaseModel):
     reasoning_content: Optional[str] = None
     finish_reason: Optional[Literal["stop", "length", "tool_calls"]] = None
     tool_calls: Optional[List[DeltaToolCall | ToolCall]] = None
+    speculate_metrics: Optional[SpeculateMetrics] = None
 
 
 class CompletionStreamResponse(BaseModel):
diff --git a/fastdeploy/entrypoints/openai/serving_chat.py b/fastdeploy/entrypoints/openai/serving_chat.py
index 0f1cfb00073..b9daa74fb9f 100644
--- a/fastdeploy/entrypoints/openai/serving_chat.py
+++ b/fastdeploy/entrypoints/openai/serving_chat.py
@@ -57,6 +57,7 @@
     LogprobsLists,
     LogprobsTensors,
     PromptLogprobs,
+    SpeculateMetrics,
 )
 
 NONES = itertools.repeat(None)
@@ -387,6 +388,8 @@ async def chat_completion_stream_generator(
                                 request.include_logprobs_decode_token,
                             )
 
+                    output_speculate_metrics = res["metrics"].get("speculate_metrics", None)
+
                     delta_message = DeltaMessage(
                         reasoning_content="",
                         prompt_token_ids=None,
@@ -418,6 +421,7 @@ async def chat_completion_stream_generator(
                         logprobs=logprobs_res,
                         draft_logprobs=draft_logprobs_res,
                         arrival_time=arrival_time,
+                        speculate_metrics=output_speculate_metrics,
                     )
                     if res["finished"]:
                         num_choices -= 1
@@ -536,6 +540,7 @@ async def chat_completion_full_generator(
                 decoder_base_url=self.tokenizer_base_url,
             )
             prompt_logprobs_res_list = [[] for _ in range(num_choices)]
+            speculate_metrics = [None for _ in range(num_choices)]
             choices = []
             while num_choices > 0:
                 if self.engine_client.check_model_weight_status():
@@ -613,6 +618,7 @@ async def chat_completion_full_generator(
                         )
                         if prompt_logprobs_res:
                             prompt_logprobs_res_list[idx].extend(clamp_prompt_logprobs(prompt_logprobs_res))
+                    speculate_metrics[idx] = data["metrics"].get("speculate_metrics", None)
                     if data["finished"]:
                         num_choices -= 1
                         reasoning_num_tokens[idx] = data["outputs"].get("reasoning_token_num", 0)
@@ -635,6 +641,7 @@ async def chat_completion_full_generator(
                             response_processor=response_processor,
                             prompt_logprobs_res_list=prompt_logprobs_res_list,
                             max_tokens=max_tokens,
+                            speculate_metrics=speculate_metrics[idx],
                         )
                         choices.append(choice)
         finally:
@@ -688,6 +695,7 @@ async def _create_chat_completion_choice(
         prompt_logprobs_res_list: list,
         response_processor: ChatResponseProcessor,
         max_tokens: int,
+        speculate_metrics: SpeculateMetrics | None,
     ) -> ChatCompletionResponseChoice:
         idx = int(data["request_id"].split("_")[-1])
         output = data["outputs"]
@@ -745,6 +753,7 @@ async def _create_chat_completion_choice(
             draft_logprobs=draft_logprobs_full_res,
             prompt_logprobs=prompt_logprobs_full_res,
             finish_reason=finish_reason,
+            speculate_metrics=speculate_metrics,
         )
 
     def _create_chat_logprobs(
diff --git a/fastdeploy/entrypoints/openai/serving_completion.py b/fastdeploy/entrypoints/openai/serving_completion.py
index ac9d390cf3f..fd4b9599598 100644
--- a/fastdeploy/entrypoints/openai/serving_completion.py
+++ b/fastdeploy/entrypoints/openai/serving_completion.py
@@ -261,6 +261,7 @@ async def completion_full_generator(
             aggregated_token_ids = [[] for _ in range(num_choices)]
             aggregated_prompt_logprobs_tensors = [None] * num_choices
             completion_batched_token_ids = [[] for _ in range(num_choices)]
+            aggregated_speculate_metrics = [None] * num_choices
             current_waiting_time = 0
             while num_choices > 0:
                 if self.engine_client.check_model_weight_status():
@@ -315,12 +316,18 @@ async def completion_full_generator(
                     )
                     output_tokens[rid] += len(data["outputs"]["token_ids"])
                     completion_batched_token_ids[rid].extend(data["outputs"]["token_ids"])
+
+                    output_speculate_metrics = data["metrics"].get("speculate_metrics", None)
+                    if output_speculate_metrics is not None:
+                        aggregated_speculate_metrics[rid] = output_speculate_metrics
+
                     if data.get("finished", False):
                         data["output_token_ids"] = output_tokens[rid]
                         data["outputs"]["top_logprobs"] = aggregated_top_logprobs[rid]
                         data["outputs"]["draft_top_logprobs"] = aggregated_draft_top_logprobs[rid]
                         data["outputs"]["token_ids"] = aggregated_token_ids[rid]
                         data["prompt_logprobs_tensors"] = aggregated_prompt_logprobs_tensors[rid]
+                        data["speculate_metrics"] = aggregated_speculate_metrics[rid]
                         valid_results[rid] = data
                         num_choices -= 1
                         break
@@ -512,6 +519,7 @@ async def completion_stream_generator(
                         output_tokens[idx] += output.get("num_image_tokens")
                         num_image_tokens[idx] += output.get("num_image_tokens")
                     reasoning_tokens[idx] += output.get("reasoning_token_num", 0)
+                    output_speculate_metrics = res["metrics"].get("speculate_metrics", None)
                     delta_message = CompletionResponseStreamChoice(
                         index=idx,
                         text=output["text"],
@@ -524,6 +532,7 @@ async def completion_stream_generator(
                         logprobs=logprobs_res,
                         prompt_logprobs=clamp_prompt_logprobs(prompt_logprobs_res),
                         draft_logprobs=draft_logprobs_res,
+                        speculate_metrics=output_speculate_metrics,
                     )
                     if not res["finished"] and "delta_message" in output:
                         delta_message_output = output["delta_message"]
@@ -683,6 +692,7 @@ def request_output_to_completion_response(
                 draft_logprobs=aggregated_draft_logprobs,
                 prompt_logprobs=clamp_prompt_logprobs(prompt_logprobs_res),
                 finish_reason=finish_reason,
+                speculate_metrics=final_res["metrics"].get("speculate_metrics", None),
             )
             choices.append(choice_data)
 
diff --git a/fastdeploy/metrics/metrics.py b/fastdeploy/metrics/metrics.py
index ec89e838329..4da49a9666d 100644
--- a/fastdeploy/metrics/metrics.py
+++ b/fastdeploy/metrics/metrics.py
@@ -143,9 +143,9 @@ class MetricsManager:
     request_success_total: "Counter"
     spec_decode_draft_acceptance_rate: "Gauge"
     spec_decode_efficiency: "Gauge"
-    spec_decode_num_accepted_tokens_total: "Counter"
+    spec_decode_num_accepted_tokens_total: "Gauge"
     spec_decode_num_draft_tokens_total: "Counter"
-    spec_decode_num_emitted_tokens_total: "Counter"
+    spec_decode_num_emitted_tokens_total: "Gauge"
     spec_decode_draft_single_head_acceptance_rate: "list[Gauge]"
 
     # for YIYAN Adapter
@@ -598,13 +598,13 @@ def _init_speculative_metrics(self, speculative_method, num_speculative_tokens):
                 "kwargs": {},
             },
             "spec_decode_num_accepted_tokens_total": {
-                "type": Counter,
+                "type": Gauge,
                 "name": "fastdeploy:spec_decode_num_accepted_tokens_total",
                 "description": "Total number of tokens accepted by the scoring model and verification program",
                 "kwargs": {},
             },
             "spec_decode_num_emitted_tokens_total": {
-                "type": Counter,
+                "type": Gauge,
                 "name": "fastdeploy:spec_decode_num_emitted_tokens_total",
                 "description": "Total number of tokens output by the entire system",
                 "kwargs": {},
diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
index 406252fd445..109df4d2c36 100644
--- a/fastdeploy/output/token_processor.py
+++ b/fastdeploy/output/token_processor.py
@@ -35,6 +35,7 @@
     Request,
     RequestMetrics,
     RequestOutput,
+    SpeculateMetrics,
 )
 from fastdeploy.inter_communicator import ZmqIpcServer
 from fastdeploy.metrics.metrics import main_process_metrics
@@ -112,16 +113,13 @@ def __init__(self, cfg, cached_generated_tokens, engine_worker_queue, split_conn
         self.num_accepted_tokens = 0
         self.num_emitted_tokens = 0
         self.max_num_emitted_tokens = 0
-        self.num_rest_requests_per_head = [
-            0,
-        ] * MAX_DRAFT_TOKENS
-        self.num_accept_requests_per_head = [
-            0,
-        ] * MAX_DRAFT_TOKENS
         self.executor = ThreadPoolExecutor(max_workers=1)
         self.prefill_result_status = dict()
         self._finalizer = weakref.finalize(self, self._cleanup_resources)
         self._batch_result_buffer = None
+        self.total_step_per_request = {}
+        self.accept_token_num_per_head_per_request = {}
+        self.accept_token_num_per_head = [0] * MAX_DRAFT_TOKENS
 
     def _cleanup_resources(self):
         """Cleaning up shared memory resources"""
@@ -506,7 +504,7 @@ def _recycle_resources(self, task_id, index, task, result=None, is_prefill=False
         if task_id in self.tokens_counter:
             del self.tokens_counter[task_id]
 
-    def _compute_speculative_status(self):
+    def _compute_speculative_status(self, result: RequestOutput):
         # TODO(liuzichang): Supplement more statistics
         interval = 1
         if self.speculative_stats_step % interval == 0:
@@ -519,13 +517,11 @@ def _compute_speculative_status(self):
 
             if self.cfg.speculative_config.method in ["mtp"]:
                 single_head_acceptance_rates = []
-                for head in range(self.cfg.speculative_config.num_speculative_tokens):
-                    if self.num_rest_requests_per_head[head] != 0:
+                for i in range(1, self.cfg.speculative_config.num_speculative_tokens + 1):
+                    if self.accept_token_num_per_head[i - 1] != 0:
                         single_head_acceptance_rates.append(
-                            self.num_accept_requests_per_head[head] / self.num_rest_requests_per_head[head]
+                            self.accept_token_num_per_head[i] / self.accept_token_num_per_head[i - 1]
                         )
-                    else:
-                        single_head_acceptance_rates.append(0)
                 spec_logger.info(f" Single head accept ratio: {single_head_acceptance_rates}")
 
             if self.number_of_output_tokens > 1000000:
@@ -533,6 +529,43 @@ def _compute_speculative_status(self):
                 self.total_step = 0
         self.speculative_stats_step += 1
 
+        # For result
+        req_id = result.request_id
+        accept_num_list = self.accept_token_num_per_head_per_request[req_id]
+        req_total_step = self.total_step_per_request[req_id]
+        req_total_draft_tokens = req_total_step * (self.cfg.speculative_config.num_speculative_tokens + 1)
+        req_accepted_tokens = sum(accept_num_list)
+        req_rejected_tokens = req_total_draft_tokens - req_accepted_tokens
+        req_accept_ratio = 1 - req_total_step / req_accepted_tokens
+        req_avg_accept_length = req_accepted_tokens / req_total_step
+
+        accept_ratio_per_head = []
+        for i in range(1, len(accept_num_list)):
+            if accept_num_list[i - 1] != 0:
+                accept_ratio_per_head.append(accept_num_list[i] / accept_num_list[i - 1])
+            else:
+                accept_ratio_per_head.append(0)
+
+        result.metrics.speculate_metrics = SpeculateMetrics(
+            accepted_tokens=req_accepted_tokens,
+            rejected_tokens=req_rejected_tokens,
+            accept_ratio=req_accept_ratio,
+            average_accept_length=req_avg_accept_length,
+            accept_ratio_per_head=accept_ratio_per_head[: self.cfg.speculative_config.num_speculative_tokens],
+        )
+
+        # Log
+        spec_logger.debug(
+            f"req_id: {result.request_id}, total_step: {req_total_step}, "
+            f"accept_ratio: {accept_ratio}, average_accept_lenght: {req_avg_accept_length},"
+            f"accepted_tokens: {req_accepted_tokens}, rejected_tokens: {req_rejected_tokens}"
+            f"accept_ratio_per_head: {accept_ratio_per_head}"
+        )
+
+        # Clear request record
+        self.accept_token_num_per_head_per_request.pop(req_id)
+        self.total_step_per_request.pop(req_id)
+
     def _process_batch_draft_tokens(self, mtype, batch, accept_num, tokens, scores, ranks):
         """
         Process batch draft tokens and generate corresponding request outputs
@@ -620,7 +653,7 @@ def _process_batch_output(self):
             else:
                 batch = self.output_tokens[1]
                 accept_num = tokens[2 : batch + 2]
-            self._record_speculative_decoding_mertics(accept_num)
+
         elif self.use_logprobs:
             batch = self.output_tokens[1, 0]
             tokens = tokens[2 : batch * (K + 1) + 2].reshape([batch, K + 1])[:, : (K + 1)]
@@ -642,6 +675,7 @@ def _process_batch_output(self):
 
             task_id = task.request_id
             if self.cfg.speculative_config.method:
+                self._record_speculative_decoding_accept_num_per_request(task_id, accept_num[i])
                 if accept_num[i] == -3:
                     recovery_stop = True
                     if recovery_stop:
@@ -792,7 +826,7 @@ def _process_batch_output(self):
                     )
                     llm_logger.info(f"{self.resource_manager.info()}")
                     if self.cfg.speculative_config.method:
-                        self._compute_speculative_status()
+                        self._compute_speculative_status(result)
                     if not is_prefill:
                         self._record_completion_metrics(task, current_time)
                     self._recycle_resources(task_id, i, task, result, is_prefill)
@@ -801,6 +835,8 @@ def _process_batch_output(self):
             llm_logger.debug(f"get response from infer: {result}")
             batch_result.append(result)
 
+        if self.cfg.speculative_config.method:
+            self._record_speculative_decoding_metrics(accept_num)
         self.postprocess(batch_result, mtype)
 
     def _record_metrics(self, task, current_time, token_ids):
@@ -834,7 +870,7 @@ def _record_completion_metrics(self, task, current_time):
         main_process_metrics.request_inference_time.observe(current_time - task.inference_start_time)
         main_process_metrics.request_generation_tokens.observe(self.tokens_counter[task.request_id])
 
-    def _record_speculative_decoding_mertics(self, accept_num):
+    def _record_speculative_decoding_metrics(self, accept_num):
         """Record metrics of speculative decoding"""
         if not hasattr(main_process_metrics, "spec_decode_draft_acceptance_rate"):
             main_process_metrics._init_speculative_metrics(
@@ -843,15 +879,13 @@ def _record_speculative_decoding_mertics(self, accept_num):
             )
 
         real_accept_num = [x for x in accept_num if x > 0]
-        num_accepted_tokens = sum([x - 1 for x in real_accept_num])
-        self.num_accepted_tokens += num_accepted_tokens
-        num_emitted_tokens = sum(real_accept_num)
-        if num_emitted_tokens == 0:
+        self.num_accepted_tokens = sum(self.accept_token_num_per_head[1:])
+        self.num_emitted_tokens = sum(self.accept_token_num_per_head)
+        if self.num_emitted_tokens == 0:
             return
-        self.num_emitted_tokens += num_emitted_tokens
 
-        main_process_metrics.spec_decode_num_accepted_tokens_total.inc(num_accepted_tokens)
-        main_process_metrics.spec_decode_num_emitted_tokens_total.inc(num_emitted_tokens)
+        main_process_metrics.spec_decode_num_accepted_tokens_total.set(self.num_accepted_tokens)
+        main_process_metrics.spec_decode_num_emitted_tokens_total.set(self.num_emitted_tokens)
 
         if self.cfg.speculative_config.method in ["ngram"]:
             main_process_metrics.spec_decode_draft_acceptance_rate.set(
@@ -872,25 +906,26 @@ def _record_speculative_decoding_mertics(self, accept_num):
             main_process_metrics.spec_decode_efficiency.set(self.num_emitted_tokens / self.max_num_emitted_tokens)
             main_process_metrics.spec_decode_num_draft_tokens_total.inc(num_draft_tokens)
 
-            num_rest_requests = len(real_accept_num)
-            for head in range(self.cfg.speculative_config.num_speculative_tokens):
-                num_accept_requests = len([x for x in real_accept_num if x >= head + 2])
-                # Accumulate the number of requests for each head
-                self.num_accept_requests_per_head[head] += num_accept_requests
-                self.num_rest_requests_per_head[head] += num_rest_requests
-                # Update the rest requests for each head
-                num_rest_requests = num_accept_requests
-                # Calculate the acceptance rate for each head
-                if self.num_rest_requests_per_head[head] != 0:
+            for i in range(1, self.cfg.speculative_config.num_speculative_tokens + 1):
+                if self.accept_token_num_per_head[i - 1] != 0:
                     single_head_acceptance_rate = (
-                        self.num_accept_requests_per_head[head] / self.num_rest_requests_per_head[head]
+                        self.accept_token_num_per_head[i] / self.accept_token_num_per_head[i - 1]
                     )
-                else:
-                    single_head_acceptance_rate = 0
-                main_process_metrics.spec_decode_draft_single_head_acceptance_rate[head].set(
+                main_process_metrics.spec_decode_draft_single_head_acceptance_rate[i - 1].set(
                     single_head_acceptance_rate
                 )
 
+    def _record_speculative_decoding_accept_num_per_request(self, req_id, accept_num):
+        if req_id not in self.total_step_per_request:
+            self.total_step_per_request[req_id] = 0
+        if req_id not in self.accept_token_num_per_head_per_request:
+            self.accept_token_num_per_head_per_request[req_id] = [0] * MAX_DRAFT_TOKENS
+
+        self.total_step_per_request[req_id] += 1
+        for i in range(accept_num):
+            self.accept_token_num_per_head_per_request[req_id][i] += 1
+            self.accept_token_num_per_head[i] += 1
+
     def clear_data(self):
         if envs.ENABLE_V1_KVCACHE_SCHEDULER:
             self.resource_manager.clear_data()
diff --git a/fastdeploy/worker/output.py b/fastdeploy/worker/output.py
index 2b66ce4e138..3b10962440d 100644
--- a/fastdeploy/worker/output.py
+++ b/fastdeploy/worker/output.py
@@ -128,6 +128,38 @@ def slice_rows(self, start: int, end: int):
 PromptLogprobs = LogprobsTensors | list[dict[int, Logprob] | None]
 
 
+@dataclass
+class SpeculateMetrics:
+    """
+    Speculative decoding metrics
+    """
+
+    """
+    The number of accepted tokens in the current request
+    """
+    accepted_tokens: int
+
+    """
+    The number of rejected tokens in the current request
+    """
+    rejected_tokens: int
+
+    """
+    The acceptance rate of the current request
+    """
+    accept_ratio: float
+
+    """
+    Average number of accepted tokens per step for the current request
+    """
+    average_accept_length: float
+
+    """
+    Average acceptance rate of each head in the current request
+    """
+    accept_ratio_per_head: list[float]
+
+
 @dataclass
 class SamplerOutput:
     """ """
diff --git a/tests/entrypoints/openai/test_completion_echo.py b/tests/entrypoints/openai/test_completion_echo.py
index 679f6d8ecfc..087d159d78b 100644
--- a/tests/entrypoints/openai/test_completion_echo.py
+++ b/tests/entrypoints/openai/test_completion_echo.py
@@ -46,6 +46,7 @@ def test_single_str_prompt_non_streaming(self):
                 "finished": True,
             },
             "output_token_ids": 3,
+            "metrics": {},
         }
         self.mock_engine.generate.return_value = [mock_output]
 
@@ -80,6 +81,7 @@ def test_single_int_prompt_non_streaming(self):
                 "finished": True,
             },
             "output_token_ids": 3,
+            "metrics": {},
         }
         self.mock_engine.generate.return_value = [mock_output]
 
@@ -109,10 +111,12 @@ def test_multi_str_prompt_non_streaming(self):
             {
                 "outputs": {"text": " response1", "token_ids": [1, 2], "top_logprobs": None, "finished": True},
                 "output_token_ids": 2,
+                "metrics": {},
             },
             {
                 "outputs": {"text": " response2", "token_ids": [3, 4], "top_logprobs": None, "finished": True},
                 "output_token_ids": 2,
+                "metrics": {},
             },
         ]
         self.mock_engine.generate.return_value = mock_outputs
@@ -146,10 +150,12 @@ def test_multi_int_prompt_non_streaming(self):
             {
                 "outputs": {"text": " response1", "token_ids": [1, 2], "top_logprobs": None, "finished": True},
                 "output_token_ids": 2,
+                "metrics": {},
             },
             {
                 "outputs": {"text": " response2", "token_ids": [3, 4], "top_logprobs": None, "finished": True},
                 "output_token_ids": 2,
+                "metrics": {},
             },
         ]
         self.mock_engine.generate.return_value = mock_outputs
diff --git a/tests/entrypoints/openai/test_max_streaming_tokens.py b/tests/entrypoints/openai/test_max_streaming_tokens.py
index 48935cba838..ed11226c32e 100644
--- a/tests/entrypoints/openai/test_max_streaming_tokens.py
+++ b/tests/entrypoints/openai/test_max_streaming_tokens.py
@@ -301,6 +301,7 @@ async def test_completion_full_generator(self, mock_logger):
                     ],
                 },
                 "finished": True,
+                "metrics": {},
             },
             {
                 "request_id": "test_request_id_1",
@@ -314,6 +315,7 @@ async def test_completion_full_generator(self, mock_logger):
                     ],
                 },
                 "finished": True,
+                "metrics": {},
             },
         ]
 
@@ -473,6 +475,7 @@ async def test_create_chat_completion_choice(self):
                 prompt_logprobs_res_list=prompt_logprobs_res_list,
                 response_processor=mock_response_processor,
                 max_tokens=max_tokens_list[idx],
+                speculate_metrics=None,
             )
 
             expected = case["expected"]
diff --git a/tests/entrypoints/openai/test_serving_completion.py b/tests/entrypoints/openai/test_serving_completion.py
index 680d775bd0b..761213d1d5b 100644
--- a/tests/entrypoints/openai/test_serving_completion.py
+++ b/tests/entrypoints/openai/test_serving_completion.py
@@ -129,6 +129,7 @@ def test_request_output_to_completion_response(self):
                     "reasoning_token_num": 10,
                 },
                 "output_token_ids": 3,
+                "metrics": {},
             },
             {
                 "outputs": {
@@ -141,6 +142,7 @@ def test_request_output_to_completion_response(self):
                     "reasoning_token_num": 20,
                 },
                 "output_token_ids": 3,
+                "metrics": {},
             },
         ]
 
diff --git a/tests/output/test_process_batch_output.py b/tests/output/test_process_batch_output.py
index 6dd8f51356b..ab964efb679 100644
--- a/tests/output/test_process_batch_output.py
+++ b/tests/output/test_process_batch_output.py
@@ -138,13 +138,10 @@ def setup_token_processor(self, speculative_decoding=False, use_logprobs=False):
         processor.num_accepted_tokens = 0
         processor.num_emitted_tokens = 0
         processor.max_num_emitted_tokens = 0
-        processor.num_rest_requests_per_head = [
-            0,
-        ] * MAX_DRAFT_TOKENS
-        processor.num_accept_requests_per_head = [
-            0,
-        ] * MAX_DRAFT_TOKENS
         processor.speculative_stats_step = 0
+        processor.total_step_per_request = {}
+        processor.accept_token_num_per_head_per_request = {}
+        processor.accept_token_num_per_head = [0] * MAX_DRAFT_TOKENS
 
         # processor._recycle_resources = Mock()
 

From 5300e73f8bd49d285aa436500fd31c7e70b00709 Mon Sep 17 00:00:00 2001
From: lzy <569782149@qq.com>
Date: Wed, 17 Dec 2025 22:03:25 +0800
Subject: [PATCH 029/161] [Others] Maintain the mtp branch temporarily. (#5446)
 (#5621)

---
 .../append_attn/append_attention_func.cuh     |  25 +-
 .../multiquery_attention_c16_impl.cuh         | 212 +++++++++++-----
 .../multiquery_attention_c4_impl.cuh          | 240 ++++++++++++------
 .../multiquery_attention_c8_impl.cuh          | 240 ++++++++++++------
 4 files changed, 508 insertions(+), 209 deletions(-)

diff --git a/custom_ops/gpu_ops/append_attn/append_attention_func.cuh b/custom_ops/gpu_ops/append_attn/append_attention_func.cuh
index 9f0b9eba1f3..74de2f39ec9 100644
--- a/custom_ops/gpu_ops/append_attn/append_attention_func.cuh
+++ b/custom_ops/gpu_ops/append_attn/append_attention_func.cuh
@@ -2451,6 +2451,7 @@ __global__ void merge_multi_chunks_v2_kernel(
     if (bid == -1) {
       continue;
     }
+    const uint32_t local_seq_id = qid - cu_seqlens_q[bid];
     const int seq_len_q = seq_lens_q[bid];
     if (seq_len_q == 0) continue;
     int seq_len_kv = seq_lens_kv[bid];
@@ -2494,14 +2495,32 @@ __global__ void merge_multi_chunks_v2_kernel(
     }
 #pragma unroll 2
     for (int i = ty; i < num_chunks_this_seq; i += bdy) {
-      uint32_t offset = (qid * num_chunks + i) * num_heads + hid;
+      uint32_t offset;
+      if (ENABLE_PREFILL) {
+        offset = (qid * num_chunks + i) * num_heads + hid;
+      } else {
+        offset =
+            ((bid * speculate_max_draft_token_num + local_seq_id) * num_chunks +
+             i) *
+                num_heads +
+            hid;
+      }
       float m_prev = m;
       float d_prev = d;
       const float m_now = multi_m[offset];
       const float d_now = multi_d[offset];
       m = max(m_prev, m_now);
-      offset = (qid * num_chunks * num_heads + i * num_heads + hid) * head_dim +
-               vid * vec_size;
+      if (ENABLE_PREFILL) {
+        offset =
+            (qid * num_chunks * num_heads + i * num_heads + hid) * head_dim +
+            vid * vec_size;
+      } else {
+        offset = ((bid * speculate_max_draft_token_num + local_seq_id) *
+                      num_chunks * num_heads +
+                  i * num_heads + hid) *
+                     head_dim +
+                 vid * vec_size;
+      }
       Load<T, vec_size>(&multi_out[offset], &load_vec);
       const float scale1 = __expf(m_prev - m), scale2 = __expf(m_now - m);
       const T scale1_T = static_cast<T>(scale1),
diff --git a/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh b/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh
index 8bbc7727bf2..66eb4d03204 100644
--- a/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh
+++ b/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh
@@ -134,9 +134,17 @@ __global__ void multi_query_append_attention_kernel(
   T *o_base_ptr_T = nullptr;
   OutT *o_base_ptr_int8 = nullptr;
   if constexpr (partition_kv) {
-    o_base_ptr_T = tmp_workspace + q_start_seq_id * num_chunks * q_n_stride +
-                   chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
-                   tid % 8 * num_elems_per_128b<T>();
+    if (ENABLE_PREFILL) {
+      o_base_ptr_T = tmp_workspace + q_start_seq_id * num_chunks * q_n_stride +
+                     chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
+                     tid % 8 * num_elems_per_128b<T>();
+    } else {
+      o_base_ptr_T =
+          tmp_workspace +
+          batch_id * speculate_max_draft_token_num * num_chunks * q_n_stride +
+          chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
+          tid % 8 * num_elems_per_128b<T>();
+    }
   } else {
     o_base_ptr_int8 = out + o_offset;
   }
@@ -386,8 +394,18 @@ __global__ void multi_query_append_attention_kernel(
         const uint32_t qo_head_idx = q_head_idx + qo_idx_now % GROUP_SIZE;
         const uint32_t qo_idx = q_start_seq_id + qo_idx_now / GROUP_SIZE;
         if (qo_idx - q_start_seq_id < q_len) {
-          uint32_t offset =
-              (qo_idx * num_chunks + chunk_idx) * q_num_heads + qo_head_idx;
+          uint32_t offset;
+          if (ENABLE_PREFILL) {
+            offset =
+                (qo_idx * num_chunks + chunk_idx) * q_num_heads + qo_head_idx;
+          } else {
+            offset = ((batch_id * speculate_max_draft_token_num +
+                       qo_idx_now / GROUP_SIZE) *
+                          num_chunks +
+                      chunk_idx) *
+                         q_num_heads +
+                     qo_head_idx;
+          }
           tmp_m[offset] = m_frag[fx][j];
           tmp_d[offset] = d_frag[fx][j];
         }
@@ -524,9 +542,11 @@ __global__ void multi_query_append_attention_warp1_4_kernel(
                      chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
                      tid % 8 * num_elems_per_128b<T>();
     } else {
-      o_base_ptr_T = tmp_workspace + q_start_seq_id * num_chunks * q_n_stride +
-                     chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
-                     tid % 8 * num_elems_per_128b<T>();
+      o_base_ptr_T =
+          tmp_workspace +
+          batch_id * speculate_max_draft_token_num * num_chunks * q_n_stride +
+          chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
+          tid % 8 * num_elems_per_128b<T>();
     }
   }
   const int *mask_offset_this_seq =
@@ -794,8 +814,12 @@ __global__ void multi_query_append_attention_warp1_4_kernel(
               offset = (batch_id * num_chunks + chunk_idx) * q_num_heads +
                        qo_head_idx;
             } else {
-              offset =
-                  (qo_idx * num_chunks + chunk_idx) * q_num_heads + qo_head_idx;
+              offset = ((batch_id * speculate_max_draft_token_num +
+                         qo_idx_now / GROUP_SIZE) *
+                            num_chunks +
+                        chunk_idx) *
+                           q_num_heads +
+                       qo_head_idx;
             }
             tmp_m[offset] = m_frag[fx][j];
             tmp_d[offset] = d_frag[fx][j];
@@ -1026,51 +1050,95 @@ void MultiQueryAppendAttention(
           sliding_window);
       // merge
       constexpr int vec_size = num_elems_per_128b<NV_TYPE>();
-      constexpr int blockx = HEAD_DIM / vec_size;
-      constexpr int blocky = (128 + blockx - 1) / blockx;
-      dim3 grids_merge(min(sm_count * 4, token_num),
-                       num_heads);  // 128k is too large
-      dim3 blocks_merge(blockx, blocky);
-      auto *kernelFn = merge_multi_chunks_v2_kernel<NV_TYPE,
-                                                    vec_size,
-                                                    blocky,
-                                                    HEAD_DIM,
-                                                    OUT_NV_TYPE,
-                                                    ENABLE_PREFILL>;
-      launchWithPdlWhenEnabled(
-          kernelFn,
-          grids_merge,
-          blocks_merge,
-          0,
-          stream,
-          reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
-          static_cast<float *>(tmp_m->ptr()),
-          static_cast<float *>(tmp_d->ptr()),
-          seq_lens_q.data<int>(),
-          seq_lens_kv.data<int>(),
-          seq_lens_encoder.data<int>(),
-          batch_id_per_token.data<int>(),
-          cu_seqlens_q.data<int>(),
-          shift_bias ? reinterpret_cast<NV_TYPE *>(
-                           const_cast<T *>(shift_bias.get().data<T>()))
-                     : nullptr,
-          smooth_weight ? reinterpret_cast<NV_TYPE *>(
-                              const_cast<T *>(smooth_weight.get().data<T>()))
-                        : nullptr,
-          sinks ? reinterpret_cast<NV_TYPE *>(
-                      const_cast<T *>(sinks.get().data<T>()))
-                : nullptr,
-          reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
-          quant_max_bound,
-          quant_min_bound,
-          in_scale,
-          max_seq_len,
-          num_chunks,
-          num_heads,
-          chunk_size,
-          HEAD_DIM,
-          token_num,
-          speculate_max_draft_token_num);
+      if (is_decoder) {
+        constexpr int blockx = HEAD_DIM / vec_size;
+        constexpr int blocky = (128 + blockx - 1) / blockx;
+        dim3 grids_merge(bsz, num_heads);
+        dim3 blocks_merge(blockx, blocky);
+        auto *kernelFn = merge_multi_chunks_decoder_kernel<NV_TYPE,
+                                                           vec_size,
+                                                           blocky,
+                                                           HEAD_DIM,
+                                                           OUT_NV_TYPE,
+                                                           ENABLE_PREFILL>;
+        launchWithPdlWhenEnabled(
+            kernelFn,
+            grids_merge,
+            blocks_merge,
+            0,
+            stream,
+            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
+            static_cast<float *>(tmp_m->ptr()),
+            static_cast<float *>(tmp_d->ptr()),
+            seq_lens_q.data<int>(),
+            seq_lens_kv.data<int>(),
+            seq_lens_encoder.data<int>(),
+            cu_seqlens_q.data<int>(),
+            shift_bias ? reinterpret_cast<NV_TYPE *>(
+                             const_cast<T *>(shift_bias.get().data<T>()))
+                       : nullptr,
+            smooth_weight ? reinterpret_cast<NV_TYPE *>(
+                                const_cast<T *>(smooth_weight.get().data<T>()))
+                          : nullptr,
+            sinks ? reinterpret_cast<NV_TYPE *>(
+                        const_cast<T *>(sinks.get().data<T>()))
+                  : nullptr,
+            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
+            quant_max_bound,
+            quant_min_bound,
+            in_scale,
+            max_seq_len,
+            num_chunks,
+            num_heads,
+            chunk_size,
+            HEAD_DIM);
+      } else {
+        constexpr int blockx = HEAD_DIM / vec_size;
+        constexpr int blocky = (128 + blockx - 1) / blockx;
+        dim3 grids_merge(min(sm_count * 4, token_num),
+                         num_heads);  // 128k is too large
+        dim3 blocks_merge(blockx, blocky);
+        auto *kernelFn = merge_multi_chunks_v2_kernel<NV_TYPE,
+                                                      vec_size,
+                                                      blocky,
+                                                      HEAD_DIM,
+                                                      OUT_NV_TYPE,
+                                                      ENABLE_PREFILL>;
+        launchWithPdlWhenEnabled(
+            kernelFn,
+            grids_merge,
+            blocks_merge,
+            0,
+            stream,
+            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
+            static_cast<float *>(tmp_m->ptr()),
+            static_cast<float *>(tmp_d->ptr()),
+            seq_lens_q.data<int>(),
+            seq_lens_kv.data<int>(),
+            seq_lens_encoder.data<int>(),
+            batch_id_per_token.data<int>(),
+            cu_seqlens_q.data<int>(),
+            shift_bias ? reinterpret_cast<NV_TYPE *>(
+                             const_cast<T *>(shift_bias.get().data<T>()))
+                       : nullptr,
+            smooth_weight ? reinterpret_cast<NV_TYPE *>(
+                                const_cast<T *>(smooth_weight.get().data<T>()))
+                          : nullptr,
+            sinks ? reinterpret_cast<NV_TYPE *>(
+                        const_cast<T *>(sinks.get().data<T>()))
+                  : nullptr,
+            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
+            quant_max_bound,
+            quant_min_bound,
+            in_scale,
+            max_seq_len,
+            num_chunks,
+            num_heads,
+            chunk_size,
+            HEAD_DIM,
+            token_num,
+            speculate_max_draft_token_num);
+      }
     }
   } else {
     constexpr uint32_t num_frags_z = BLOCK_SIZE / 16 / NUM_WARP_KV;
@@ -1189,15 +1257,31 @@ void MultiQueryAppendAttention(
             phi::SizeOf(paddle::DataType::FLOAT32) *
             static_cast<size_t>(bsz * num_chunks * num_heads));
       } else {
-        tmp_workspace = allocator->Allocate(
-            phi::SizeOf(qkv.dtype()) *
-            static_cast<size_t>(token_num * num_chunks * num_heads * HEAD_DIM));
-        tmp_m = allocator->Allocate(
-            phi::SizeOf(paddle::DataType::FLOAT32) *
-            static_cast<size_t>(token_num * num_chunks * num_heads));
-        tmp_d = allocator->Allocate(
-            phi::SizeOf(paddle::DataType::FLOAT32) *
-            static_cast<size_t>(token_num * num_chunks * num_heads));
+        if (ENABLE_PREFILL) {
+          tmp_workspace =
+              allocator->Allocate(phi::SizeOf(qkv.dtype()) *
+                                  static_cast<size_t>(token_num * num_chunks *
+                                                      num_heads * HEAD_DIM));
+          tmp_m = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(token_num * num_chunks * num_heads));
+          tmp_d = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(token_num * num_chunks * num_heads));
+        } else {
+          tmp_workspace = allocator->Allocate(
+              phi::SizeOf(qkv.dtype()) *
+              static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                  num_chunks * num_heads * HEAD_DIM));
+          tmp_m = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                  num_chunks * num_heads));
+          tmp_d = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                  num_chunks * num_heads));
+        }
       }
       launchWithPdlWhenEnabled(
           split_kv_kernel,
diff --git a/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh b/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh
index 9629acf5d95..4f709139515 100644
--- a/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh
+++ b/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh
@@ -169,9 +169,17 @@ __global__ void multi_query_append_attention_c4_kernel(
   T *o_base_ptr_T = nullptr;
   OutT *o_base_ptr_int8 = nullptr;
   if constexpr (partition_kv) {
-    o_base_ptr_T = tmp_workspace + q_start_seq_id * num_chunks * q_n_stride +
-                   chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
-                   tid % 8 * num_elems_per_128b<T>();
+    if (ENABLE_PREFILL) {
+      o_base_ptr_T = tmp_workspace + q_start_seq_id * num_chunks * q_n_stride +
+                     chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
+                     tid % 8 * num_elems_per_128b<T>();
+    } else {
+      o_base_ptr_T =
+          tmp_workspace +
+          batch_id * speculate_max_draft_token_num * num_chunks * q_n_stride +
+          chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
+          tid % 8 * num_elems_per_128b<T>();
+    }
   } else {
     o_base_ptr_int8 = out + o_offset;
   }
@@ -477,8 +485,18 @@ __global__ void multi_query_append_attention_c4_kernel(
         const uint32_t qo_head_idx = q_head_idx + qo_idx_now % GROUP_SIZE;
         const uint32_t qo_idx = q_start_seq_id + qo_idx_now / GROUP_SIZE;
         if (qo_idx - q_start_seq_id < q_len) {
-          uint32_t offset =
-              (qo_idx * num_chunks + chunk_idx) * q_num_heads + qo_head_idx;
+          uint32_t offset;
+          if (ENABLE_PREFILL) {
+            offset =
+                (qo_idx * num_chunks + chunk_idx) * q_num_heads + qo_head_idx;
+          } else {
+            offset = ((batch_id * speculate_max_draft_token_num +
+                       qo_idx_now / GROUP_SIZE) *
+                          num_chunks +
+                      chunk_idx) *
+                         q_num_heads +
+                     qo_head_idx;
+          }
           tmp_m[offset] = m_frag[fx][j];
           tmp_d[offset] = d_frag[fx][j];
         }
@@ -651,9 +669,11 @@ __global__ void multi_query_append_attention_c4_warp1_4_kernel(
                      chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
                      tid % 8 * num_elems_per_128b<T>();
     } else {
-      o_base_ptr_T = tmp_workspace + q_start_seq_id * num_chunks * q_n_stride +
-                     chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
-                     tid % 8 * num_elems_per_128b<T>();
+      o_base_ptr_T =
+          tmp_workspace +
+          batch_id * speculate_max_draft_token_num * num_chunks * q_n_stride +
+          chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
+          tid % 8 * num_elems_per_128b<T>();
     }
   }
   const int *mask_offset_this_seq =
@@ -969,8 +989,12 @@ __global__ void multi_query_append_attention_c4_warp1_4_kernel(
               offset = (batch_id * num_chunks + chunk_idx) * q_num_heads +
                        qo_head_idx;
             } else {
-              offset =
-                  (qo_idx * num_chunks + chunk_idx) * q_num_heads + qo_head_idx;
+              offset = ((batch_id * speculate_max_draft_token_num +
+                         qo_idx_now / GROUP_SIZE) *
+                            num_chunks +
+                        chunk_idx) *
+                           q_num_heads +
+                       qo_head_idx;
             }
             tmp_m[offset] = m_frag[fx][j];
             tmp_d[offset] = d_frag[fx][j];
@@ -1161,15 +1185,30 @@ void MultiQueryAppendC4Attention(
           sliding_window);
     } else {
       phi::Allocator::AllocationPtr tmp_workspace, tmp_m, tmp_d;
-      tmp_workspace = allocator->Allocate(
-          phi::SizeOf(qkv.dtype()) *
-          static_cast<size_t>(token_num * num_chunks * num_heads * HEAD_DIM));
-      tmp_m = allocator->Allocate(
-          phi::SizeOf(paddle::DataType::FLOAT32) *
-          static_cast<size_t>(token_num * num_chunks * num_heads));
-      tmp_d = allocator->Allocate(
-          phi::SizeOf(paddle::DataType::FLOAT32) *
-          static_cast<size_t>(token_num * num_chunks * num_heads));
+      if (ENABLE_PREFILL) {
+        tmp_workspace = allocator->Allocate(
+            phi::SizeOf(qkv.dtype()) *
+            static_cast<size_t>(token_num * num_chunks * num_heads * HEAD_DIM));
+        tmp_m = allocator->Allocate(
+            phi::SizeOf(paddle::DataType::FLOAT32) *
+            static_cast<size_t>(token_num * num_chunks * num_heads));
+        tmp_d = allocator->Allocate(
+            phi::SizeOf(paddle::DataType::FLOAT32) *
+            static_cast<size_t>(token_num * num_chunks * num_heads));
+      } else {
+        tmp_workspace = allocator->Allocate(
+            phi::SizeOf(qkv.dtype()) *
+            static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                num_chunks * num_heads * HEAD_DIM));
+        tmp_m = allocator->Allocate(
+            phi::SizeOf(paddle::DataType::FLOAT32) *
+            static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                num_chunks * num_heads));
+        tmp_d = allocator->Allocate(
+            phi::SizeOf(paddle::DataType::FLOAT32) *
+            static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                num_chunks * num_heads));
+      }
       launchWithPdlWhenEnabled(
           split_kv_kernel,
           grids,
@@ -1220,49 +1259,92 @@ void MultiQueryAppendC4Attention(
           sliding_window);
       // merge
       constexpr int vec_size = num_elems_per_128b<NV_TYPE>();
-      constexpr int blockx = HEAD_DIM / vec_size;
-      constexpr int blocky = (128 + blockx - 1) / blockx;
-      dim3 grids_merge(min(sm_count * 4, token_num), num_heads);
-      dim3 blocks_merge(blockx, blocky);
-      launchWithPdlWhenEnabled(
-          merge_multi_chunks_v2_kernel<NV_TYPE,
-                                       vec_size,
-                                       blocky,
-                                       HEAD_DIM,
-                                       OUT_NV_TYPE,
-                                       ENABLE_PREFILL>,
-          grids_merge,
-          blocks_merge,
-          0,
-          stream,
-          reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
-          static_cast<float *>(tmp_m->ptr()),
-          static_cast<float *>(tmp_d->ptr()),
-          seq_lens_q.data<int>(),
-          seq_lens_kv.data<int>(),
-          seq_lens_encoder.data<int>(),
-          batch_id_per_token.data<int>(),
-          cu_seqlens_q.data<int>(),
-          shift_bias ? reinterpret_cast<NV_TYPE *>(
-                           const_cast<T *>(shift_bias.get().data<T>()))
-                     : nullptr,
-          smooth_weight ? reinterpret_cast<NV_TYPE *>(
-                              const_cast<T *>(smooth_weight.get().data<T>()))
-                        : nullptr,
-          sinks ? reinterpret_cast<NV_TYPE *>(
-                      const_cast<T *>(sinks.get().data<T>()))
-                : nullptr,
-          reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
-          quant_max_bound,
-          quant_min_bound,
-          in_scale,
-          max_seq_len,
-          num_chunks,
-          num_heads,
-          chunk_size,
-          HEAD_DIM,
-          token_num,
-          speculate_max_draft_token_num);
+      if (is_decoder) {
+        constexpr int blockx = HEAD_DIM / vec_size;
+        constexpr int blocky = (128 + blockx - 1) / blockx;
+        dim3 grids_merge(bsz, num_heads);
+        dim3 blocks_merge(blockx, blocky);
+        launchWithPdlWhenEnabled(
+            merge_multi_chunks_decoder_kernel<NV_TYPE,
+                                              vec_size,
+                                              blocky,
+                                              HEAD_DIM,
+                                              OUT_NV_TYPE,
+                                              ENABLE_PREFILL>,
+            grids_merge,
+            blocks_merge,
+            0,
+            stream,
+            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
+            static_cast<float *>(tmp_m->ptr()),
+            static_cast<float *>(tmp_d->ptr()),
+            seq_lens_q.data<int>(),
+            seq_lens_kv.data<int>(),
+            seq_lens_encoder.data<int>(),
+            cu_seqlens_q.data<int>(),
+            shift_bias ? reinterpret_cast<NV_TYPE *>(
+                             const_cast<T *>(shift_bias.get().data<T>()))
+                       : nullptr,
+            smooth_weight ? reinterpret_cast<NV_TYPE *>(
+                                const_cast<T *>(smooth_weight.get().data<T>()))
+                          : nullptr,
+            sinks ? reinterpret_cast<NV_TYPE *>(
+                        const_cast<T *>(sinks.get().data<T>()))
+                  : nullptr,
+            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
+            quant_max_bound,
+            quant_min_bound,
+            in_scale,
+            max_seq_len,
+            num_chunks,
+            num_heads,
+            chunk_size,
+            HEAD_DIM);
+      } else {
+        constexpr int blockx = HEAD_DIM / vec_size;
+        constexpr int blocky = (128 + blockx - 1) / blockx;
+        dim3 grids_merge(min(sm_count * 4, token_num), num_heads);
+        dim3 blocks_merge(blockx, blocky);
+        launchWithPdlWhenEnabled(
+            merge_multi_chunks_v2_kernel<NV_TYPE,
+                                         vec_size,
+                                         blocky,
+                                         HEAD_DIM,
+                                         OUT_NV_TYPE,
+                                         ENABLE_PREFILL>,
+            grids_merge,
+            blocks_merge,
+            0,
+            stream,
+            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
+            static_cast<float *>(tmp_m->ptr()),
+            static_cast<float *>(tmp_d->ptr()),
+            seq_lens_q.data<int>(),
+            seq_lens_kv.data<int>(),
+            seq_lens_encoder.data<int>(),
+            batch_id_per_token.data<int>(),
+            cu_seqlens_q.data<int>(),
+            shift_bias ? reinterpret_cast<NV_TYPE *>(
+                             const_cast<T *>(shift_bias.get().data<T>()))
+                       : nullptr,
+            smooth_weight ? reinterpret_cast<NV_TYPE *>(
+                                const_cast<T *>(smooth_weight.get().data<T>()))
+                          : nullptr,
+            sinks ? reinterpret_cast<NV_TYPE *>(
+                        const_cast<T *>(sinks.get().data<T>()))
+                  : nullptr,
+            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
+            quant_max_bound,
+            quant_min_bound,
+            in_scale,
+            max_seq_len,
+            num_chunks,
+            num_heads,
+            chunk_size,
+            HEAD_DIM,
+            token_num,
+            speculate_max_draft_token_num);
+      }
     }
   } else {
     constexpr uint32_t num_frags_z = BLOCK_SIZE / 16 / NUM_WARP_KV * 4;
@@ -1402,15 +1484,31 @@ void MultiQueryAppendC4Attention(
             phi::SizeOf(paddle::DataType::FLOAT32) *
             static_cast<size_t>(bsz * num_chunks * num_heads));
       } else {
-        tmp_workspace = allocator->Allocate(
-            phi::SizeOf(qkv.dtype()) *
-            static_cast<size_t>(token_num * num_chunks * num_heads * HEAD_DIM));
-        tmp_m = allocator->Allocate(
-            phi::SizeOf(paddle::DataType::FLOAT32) *
-            static_cast<size_t>(token_num * num_chunks * num_heads));
-        tmp_d = allocator->Allocate(
-            phi::SizeOf(paddle::DataType::FLOAT32) *
-            static_cast<size_t>(token_num * num_chunks * num_heads));
+        if (ENABLE_PREFILL) {
+          tmp_workspace =
+              allocator->Allocate(phi::SizeOf(qkv.dtype()) *
+                                  static_cast<size_t>(token_num * num_chunks *
+                                                      num_heads * HEAD_DIM));
+          tmp_m = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(token_num * num_chunks * num_heads));
+          tmp_d = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(token_num * num_chunks * num_heads));
+        } else {
+          tmp_workspace = allocator->Allocate(
+              phi::SizeOf(qkv.dtype()) *
+              static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                  num_chunks * num_heads * HEAD_DIM));
+          tmp_m = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                  num_chunks * num_heads));
+          tmp_d = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                  num_chunks * num_heads));
+        }
       }
       launchWithPdlWhenEnabled(
           split_kv_kernel,
diff --git a/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh b/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh
index dc8e3b5cdfb..28df1b40506 100644
--- a/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh
+++ b/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh
@@ -178,9 +178,17 @@ __global__ void multi_query_append_attention_c8_kernel(
   T *o_base_ptr_T = nullptr;
   OutT *o_base_ptr_int8 = nullptr;
   if constexpr (partition_kv) {
-    o_base_ptr_T = tmp_workspace + q_start_seq_id * num_chunks * q_n_stride +
-                   chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
-                   tid % 8 * num_elems_per_128b<T>();
+    if (ENABLE_PREFILL) {
+      o_base_ptr_T = tmp_workspace + q_start_seq_id * num_chunks * q_n_stride +
+                     chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
+                     tid % 8 * num_elems_per_128b<T>();
+    } else {
+      o_base_ptr_T =
+          tmp_workspace +
+          batch_id * speculate_max_draft_token_num * num_chunks * q_n_stride +
+          chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
+          tid % 8 * num_elems_per_128b<T>();
+    }
   } else {
     o_base_ptr_int8 = out + o_offset;
   }
@@ -524,8 +532,18 @@ __global__ void multi_query_append_attention_c8_kernel(
         const uint32_t qo_head_idx = q_head_idx + qo_idx_now % GROUP_SIZE;
         const uint32_t qo_idx = q_start_seq_id + qo_idx_now / GROUP_SIZE;
         if (qo_idx - q_start_seq_id < q_len) {
-          uint32_t offset =
-              (qo_idx * num_chunks + chunk_idx) * q_num_heads + qo_head_idx;
+          uint32_t offset;
+          if (ENABLE_PREFILL) {
+            offset =
+                (qo_idx * num_chunks + chunk_idx) * q_num_heads + qo_head_idx;
+          } else {
+            offset = ((batch_id * speculate_max_draft_token_num +
+                       qo_idx_now / GROUP_SIZE) *
+                          num_chunks +
+                      chunk_idx) *
+                         q_num_heads +
+                     qo_head_idx;
+          }
           tmp_m[offset] = m_frag[fx][j];
           tmp_d[offset] = d_frag[fx][j];
         }
@@ -702,9 +720,11 @@ __global__ void multi_query_append_attention_c8_warp1_4_kernel(
                      chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
                      tid % 8 * num_elems_per_128b<T>();
     } else {
-      o_base_ptr_T = tmp_workspace + q_start_seq_id * num_chunks * q_n_stride +
-                     chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
-                     tid % 8 * num_elems_per_128b<T>();
+      o_base_ptr_T =
+          tmp_workspace +
+          batch_id * speculate_max_draft_token_num * num_chunks * q_n_stride +
+          chunk_idx * q_n_stride + q_head_idx * HEAD_DIM +
+          tid % 8 * num_elems_per_128b<T>();
     }
   }
   const int *mask_offset_this_seq =
@@ -1063,8 +1083,12 @@ __global__ void multi_query_append_attention_c8_warp1_4_kernel(
               offset = (batch_id * num_chunks + chunk_idx) * q_num_heads +
                        qo_head_idx;
             } else {
-              offset =
-                  (qo_idx * num_chunks + chunk_idx) * q_num_heads + qo_head_idx;
+              offset = ((batch_id * speculate_max_draft_token_num +
+                         qo_idx_now / GROUP_SIZE) *
+                            num_chunks +
+                        chunk_idx) *
+                           q_num_heads +
+                       qo_head_idx;
             }
             tmp_m[offset] = m_frag[fx][j];
             tmp_d[offset] = d_frag[fx][j];
@@ -1288,15 +1312,30 @@ void MultiQueryAppendC8Attention(
           sliding_window);
     } else {
       phi::Allocator::AllocationPtr tmp_workspace, tmp_m, tmp_d;
-      tmp_workspace = allocator->Allocate(
-          phi::SizeOf(qkv.dtype()) *
-          static_cast<size_t>(token_num * num_chunks * num_heads * HEAD_DIM));
-      tmp_m = allocator->Allocate(
-          phi::SizeOf(paddle::DataType::FLOAT32) *
-          static_cast<size_t>(token_num * num_chunks * num_heads));
-      tmp_d = allocator->Allocate(
-          phi::SizeOf(paddle::DataType::FLOAT32) *
-          static_cast<size_t>(token_num * num_chunks * num_heads));
+      if (ENABLE_PREFILL) {
+        tmp_workspace = allocator->Allocate(
+            phi::SizeOf(qkv.dtype()) *
+            static_cast<size_t>(token_num * num_chunks * num_heads * HEAD_DIM));
+        tmp_m = allocator->Allocate(
+            phi::SizeOf(paddle::DataType::FLOAT32) *
+            static_cast<size_t>(token_num * num_chunks * num_heads));
+        tmp_d = allocator->Allocate(
+            phi::SizeOf(paddle::DataType::FLOAT32) *
+            static_cast<size_t>(token_num * num_chunks * num_heads));
+      } else {
+        tmp_workspace = allocator->Allocate(
+            phi::SizeOf(qkv.dtype()) *
+            static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                num_chunks * num_heads * HEAD_DIM));
+        tmp_m = allocator->Allocate(
+            phi::SizeOf(paddle::DataType::FLOAT32) *
+            static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                num_chunks * num_heads));
+        tmp_d = allocator->Allocate(
+            phi::SizeOf(paddle::DataType::FLOAT32) *
+            static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                num_chunks * num_heads));
+      }
       launchWithPdlWhenEnabled(
           split_kv_kernel,
           grids,
@@ -1341,49 +1380,92 @@ void MultiQueryAppendC8Attention(
           sliding_window);
       // merge
       constexpr int vec_size = num_elems_per_128b<NV_TYPE>();
-      constexpr int blockx = HEAD_DIM / vec_size;
-      constexpr int blocky = (128 + blockx - 1) / blockx;
-      dim3 grids_merge(min(sm_count * 4, token_num), num_heads);
-      dim3 blocks_merge(blockx, blocky);
-      launchWithPdlWhenEnabled(
-          merge_multi_chunks_v2_kernel<NV_TYPE,
-                                       vec_size,
-                                       blocky,
-                                       HEAD_DIM,
-                                       OUT_NV_TYPE,
-                                       ENABLE_PREFILL>,
-          grids_merge,
-          blocks_merge,
-          0,
-          stream,
-          reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
-          static_cast<float *>(tmp_m->ptr()),
-          static_cast<float *>(tmp_d->ptr()),
-          seq_lens_q.data<int>(),
-          seq_lens_kv.data<int>(),
-          seq_lens_encoder.data<int>(),
-          batch_id_per_token.data<int>(),
-          cu_seqlens_q.data<int>(),
-          shift_bias ? reinterpret_cast<NV_TYPE *>(
-                           const_cast<T *>(shift_bias.get().data<T>()))
-                     : nullptr,
-          smooth_weight ? reinterpret_cast<NV_TYPE *>(
-                              const_cast<T *>(smooth_weight.get().data<T>()))
-                        : nullptr,
-          sinks ? reinterpret_cast<NV_TYPE *>(
-                      const_cast<T *>(sinks.get().data<T>()))
-                : nullptr,
-          reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
-          quant_max_bound,
-          quant_min_bound,
-          in_scale,
-          max_seq_len,
-          num_chunks,
-          num_heads,
-          chunk_size,
-          HEAD_DIM,
-          token_num,
-          speculate_max_draft_token_num);
+      if (is_decoder) {
+        constexpr int blockx = HEAD_DIM / vec_size;
+        constexpr int blocky = (128 + blockx - 1) / blockx;
+        dim3 grids_merge(bsz, num_heads);
+        dim3 blocks_merge(blockx, blocky);
+        launchWithPdlWhenEnabled(
+            merge_multi_chunks_decoder_kernel<NV_TYPE,
+                                              vec_size,
+                                              blocky,
+                                              HEAD_DIM,
+                                              OUT_NV_TYPE,
+                                              ENABLE_PREFILL>,
+            grids_merge,
+            blocks_merge,
+            0,
+            stream,
+            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
+            static_cast<float *>(tmp_m->ptr()),
+            static_cast<float *>(tmp_d->ptr()),
+            seq_lens_q.data<int>(),
+            seq_lens_kv.data<int>(),
+            seq_lens_encoder.data<int>(),
+            cu_seqlens_q.data<int>(),
+            shift_bias ? reinterpret_cast<NV_TYPE *>(
+                             const_cast<T *>(shift_bias.get().data<T>()))
+                       : nullptr,
+            smooth_weight ? reinterpret_cast<NV_TYPE *>(
+                                const_cast<T *>(smooth_weight.get().data<T>()))
+                          : nullptr,
+            sinks ? reinterpret_cast<NV_TYPE *>(
+                        const_cast<T *>(sinks.get().data<T>()))
+                  : nullptr,
+            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
+            quant_max_bound,
+            quant_min_bound,
+            in_scale,
+            max_seq_len,
+            num_chunks,
+            num_heads,
+            chunk_size,
+            HEAD_DIM);
+      } else {
+        constexpr int blockx = HEAD_DIM / vec_size;
+        constexpr int blocky = (128 + blockx - 1) / blockx;
+        dim3 grids_merge(min(sm_count * 4, token_num), num_heads);
+        dim3 blocks_merge(blockx, blocky);
+        launchWithPdlWhenEnabled(
+            merge_multi_chunks_v2_kernel<NV_TYPE,
+                                         vec_size,
+                                         blocky,
+                                         HEAD_DIM,
+                                         OUT_NV_TYPE,
+                                         ENABLE_PREFILL>,
+            grids_merge,
+            blocks_merge,
+            0,
+            stream,
+            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
+            static_cast<float *>(tmp_m->ptr()),
+            static_cast<float *>(tmp_d->ptr()),
+            seq_lens_q.data<int>(),
+            seq_lens_kv.data<int>(),
+            seq_lens_encoder.data<int>(),
+            batch_id_per_token.data<int>(),
+            cu_seqlens_q.data<int>(),
+            shift_bias ? reinterpret_cast<NV_TYPE *>(
+                             const_cast<T *>(shift_bias.get().data<T>()))
+                       : nullptr,
+            smooth_weight ? reinterpret_cast<NV_TYPE *>(
+                                const_cast<T *>(smooth_weight.get().data<T>()))
+                          : nullptr,
+            sinks ? reinterpret_cast<NV_TYPE *>(
+                        const_cast<T *>(sinks.get().data<T>()))
+                  : nullptr,
+            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
+            quant_max_bound,
+            quant_min_bound,
+            in_scale,
+            max_seq_len,
+            num_chunks,
+            num_heads,
+            chunk_size,
+            HEAD_DIM,
+            token_num,
+            speculate_max_draft_token_num);
+      }
     }
   } else {
     constexpr uint32_t num_frags_z = BLOCK_SIZE / 16 / NUM_WARP_KV * 2;
@@ -1555,15 +1637,31 @@ void MultiQueryAppendC8Attention(
             phi::SizeOf(paddle::DataType::FLOAT32) *
             static_cast<size_t>(bsz * num_chunks * num_heads));
       } else {
-        tmp_workspace = allocator->Allocate(
-            phi::SizeOf(qkv.dtype()) *
-            static_cast<size_t>(token_num * num_chunks * num_heads * HEAD_DIM));
-        tmp_m = allocator->Allocate(
-            phi::SizeOf(paddle::DataType::FLOAT32) *
-            static_cast<size_t>(token_num * num_chunks * num_heads));
-        tmp_d = allocator->Allocate(
-            phi::SizeOf(paddle::DataType::FLOAT32) *
-            static_cast<size_t>(token_num * num_chunks * num_heads));
+        if (ENABLE_PREFILL) {
+          tmp_workspace =
+              allocator->Allocate(phi::SizeOf(qkv.dtype()) *
+                                  static_cast<size_t>(token_num * num_chunks *
+                                                      num_heads * HEAD_DIM));
+          tmp_m = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(token_num * num_chunks * num_heads));
+          tmp_d = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(token_num * num_chunks * num_heads));
+        } else {
+          tmp_workspace = allocator->Allocate(
+              phi::SizeOf(qkv.dtype()) *
+              static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                  num_chunks * num_heads * HEAD_DIM));
+          tmp_m = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                  num_chunks * num_heads));
+          tmp_d = allocator->Allocate(
+              phi::SizeOf(paddle::DataType::FLOAT32) *
+              static_cast<size_t>(speculate_max_draft_token_num * bsz *
+                                  num_chunks * num_heads));
+        }
       }
       launchWithPdlWhenEnabled(
           split_kv_kernel,

From a30a5b4216afd24b28a8744ebe29c0d37653ed8f Mon Sep 17 00:00:00 2001
From: Longzhi Wang <583087864@qq.com>
Date: Thu, 18 Dec 2025 15:27:12 +0800
Subject: [PATCH 030/161] [Model] tp+ep support v1_loader (#5600)

* [Model] tp+ep support v1_loader

* fix

* fix mtp_linear

* fix mtp_linear

* fix

* fix

* fix v0 loader

* fix

* Add get_tensor for EP

* fix linear weight_loader

* fix typo

* fix
---
 .../layers/attention/attention.py             |  5 +++
 .../model_executor/layers/embeddings.py       |  6 ++--
 fastdeploy/model_executor/layers/linear.py    | 36 +++++++++++--------
 fastdeploy/model_executor/layers/lm_head.py   |  4 +++
 fastdeploy/model_executor/layers/moe/moe.py   |  6 ++--
 .../model_executor/layers/mtp_linear.py       |  3 ++
 .../model_executor/layers/normalization.py    |  4 +++
 .../layers/quantization/block_wise_fp8.py     |  4 ++-
 8 files changed, 48 insertions(+), 20 deletions(-)

diff --git a/fastdeploy/model_executor/layers/attention/attention.py b/fastdeploy/model_executor/layers/attention/attention.py
index 79804aa2d5c..a5ac1876e34 100644
--- a/fastdeploy/model_executor/layers/attention/attention.py
+++ b/fastdeploy/model_executor/layers/attention/attention.py
@@ -229,6 +229,11 @@ def load_state_dict(self, state_dict: Dict[str, paddle.Tensor | np.ndarray]):
             self.sinks.set_value(sinks_tensor)
 
     def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = None):
+        if self.use_qk_norm and ("q_norm" in param.name or "k_norm" in param.name):
+            loaded_weight = get_tensor(loaded_weight).astype("float32")
+            param.copy_(loaded_weight, False)
+            return
+
         loaded_weight = get_tensor(loaded_weight).cast(paddle.get_default_dtype())
         if self.quant_method.cache_quant_config.has_zero_point:  # cache_int4_zp
             loaded_weight = 1.0 / loaded_weight
diff --git a/fastdeploy/model_executor/layers/embeddings.py b/fastdeploy/model_executor/layers/embeddings.py
index 52d7dadeebc..5ae82efe4ca 100644
--- a/fastdeploy/model_executor/layers/embeddings.py
+++ b/fastdeploy/model_executor/layers/embeddings.py
@@ -283,10 +283,12 @@ def weight_loader(self, param, loaded_weight, shard_id=None):
         if output_dim == 0:
             h2d_copy(param[: shard_weight.shape[0]], shard_weight)
             if not current_platform.is_maca():
-                param[shard_weight.shape[0] :].fill_(0)
+                if param.shape[0] != shard_weight.shape[0]:
+                    param[shard_weight.shape[0] :].fill_(0)
         else:
             h2d_copy(param[:, : shard_weight.shape[1]], shard_weight)
-            param[:, shard_weight.shape[1] :].fill_(0)
+            if param.shape[1] != shard_weight.shape[1]:
+                param[:, shard_weight.shape[1] :].fill_(0)
 
     def forward(self, ids_remove_padding=None) -> paddle.Tensor:
         """
diff --git a/fastdeploy/model_executor/layers/linear.py b/fastdeploy/model_executor/layers/linear.py
index 14d1e0dcc0c..49b25dc3d0c 100644
--- a/fastdeploy/model_executor/layers/linear.py
+++ b/fastdeploy/model_executor/layers/linear.py
@@ -356,25 +356,31 @@ def __init__(
         self.output_sizes = output_sizes
 
     def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = None):
-        assert loaded_shard_id in ["q_a", "kv_a"]
         if not param._is_initialized():
             param.initialize()
+        if loaded_shard_id is None:
+            axis = -1 if (self.fd_config.model_config.model_format == "torch") ^ True else 0
+            if hasattr(param, "tensor_track"):
+                param.tensor_track.mark(start=0, end=loaded_weight.shape[axis])
 
-        if loaded_shard_id == "q_a":
-            param_shard_offset = 0
-            param_shard_size = self.output_sizes[0]
         else:
-            # loaded_shard_id == "kv_a"
-            param_shard_offset = self.output_sizes[0]
-            param_shard_size = self.output_sizes[1]
-        if hasattr(param, "tensor_track"):
-            param.tensor_track.mark(start=param_shard_offset, end=param_shard_offset + param_shard_size)
-        param = slice_fn(
-            param,
-            (self.fd_config.model_config.model_format == "torch") ^ True,
-            start=param_shard_offset,
-            end=param_shard_offset + param_shard_size,
-        )
+            assert loaded_shard_id in ["q_a", "kv_a", "gate", "up"]
+
+            if loaded_shard_id in ["q_a", "gate"]:
+                param_shard_offset = 0
+                param_shard_size = self.output_sizes[0]
+            elif loaded_shard_id in ["kv_a", "up"]:
+                param_shard_offset = self.output_sizes[0]
+                param_shard_size = self.output_sizes[1]
+
+            if hasattr(param, "tensor_track"):
+                param.tensor_track.mark(start=param_shard_offset, end=param_shard_offset + param_shard_size)
+            param = slice_fn(
+                param,
+                (self.fd_config.model_config.model_format == "torch") ^ True,
+                start=param_shard_offset,
+                end=param_shard_offset + param_shard_size,
+            )
         assert param.shape == loaded_weight.shape, (
             f" Attempted to load weight ({loaded_weight.shape}) " f"into parameter ({param.shape})"
         )
diff --git a/fastdeploy/model_executor/layers/lm_head.py b/fastdeploy/model_executor/layers/lm_head.py
index ff2797a0415..a7bff3905b0 100644
--- a/fastdeploy/model_executor/layers/lm_head.py
+++ b/fastdeploy/model_executor/layers/lm_head.py
@@ -102,6 +102,10 @@ def __init__(
                     },
                 )
                 set_weight_attrs(self.linear.weight, {"output_dim": True})
+                if self.tp_size > 1:
+                    if with_bias:
+                        set_weight_attrs(self.linear.bias, {"output_dim": True})
+
             else:
                 self.linear = RowParallelLinear(
                     embedding_dim,
diff --git a/fastdeploy/model_executor/layers/moe/moe.py b/fastdeploy/model_executor/layers/moe/moe.py
index 5b1be52d183..11725729a9b 100644
--- a/fastdeploy/model_executor/layers/moe/moe.py
+++ b/fastdeploy/model_executor/layers/moe/moe.py
@@ -274,10 +274,13 @@ def weight_loader(
         if not param._is_initialized():
             param.initialize()
         weight_need_transpose = getattr(param, "weight_need_transpose", False)
+
+        if self.ep_size > 1 or weight_need_transpose:
+            loaded_weight = get_tensor(loaded_weight)
+
         if shard_id is None:
             # 1.gate up fused in disk
             if weight_need_transpose:
-                loaded_weight = get_tensor(loaded_weight)
                 loaded_weight = loaded_weight.transpose([1, 0])
             output_size = param[expert_id - self.expert_id_offset].shape[SHARD_ID_TO_SHARDED_DIM["gate"]]
             shard_offsets = [
@@ -293,7 +296,6 @@ def weight_loader(
                 self.weight_loader(param, loaded_weight_shard, expert_id, shard_id, "fused")
         else:
             if weight_need_transpose and source != "fused":
-                loaded_weight = get_tensor(loaded_weight)
                 loaded_weight = loaded_weight.transpose([1, 0])
             # 2.gate up splited in disk
             assert shard_id in ["gate", "down", "up"]
diff --git a/fastdeploy/model_executor/layers/mtp_linear.py b/fastdeploy/model_executor/layers/mtp_linear.py
index b1699720bdd..e1f52d73899 100644
--- a/fastdeploy/model_executor/layers/mtp_linear.py
+++ b/fastdeploy/model_executor/layers/mtp_linear.py
@@ -86,6 +86,9 @@ def __init__(
                 )
             if self.tp_size > 1:
                 set_weight_attrs(self.linear.weight, {"output_dim": True})
+                if self.bias_key is not None:
+                    set_weight_attrs(self.linear.bias, {"output_dim": True})
+
         else:
             self.linear = RowParallelLinear(
                 embedding_dim,
diff --git a/fastdeploy/model_executor/layers/normalization.py b/fastdeploy/model_executor/layers/normalization.py
index ec1f0e65891..1e37d73bd09 100644
--- a/fastdeploy/model_executor/layers/normalization.py
+++ b/fastdeploy/model_executor/layers/normalization.py
@@ -130,6 +130,10 @@ def init_weight(self):
                 dtype=self._norm_weight_dtype,
             )
 
+    def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = None):
+        loaded_weight = get_tensor(loaded_weight).astype(self._norm_weight_dtype)
+        param.copy_(loaded_weight, False)
+
     def load_state_dict(self, state_dict: Dict[str, paddle.Tensor | np.ndarray]):
         """
         Load the checkpoint state dictionary into the layer.
diff --git a/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py b/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
index a7b61fc0ef8..59daa238480 100644
--- a/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
+++ b/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
@@ -138,7 +138,9 @@ def create_weights(self, layer, **extra_weight_attrs):
                 weight_shape = layer.weight_shape
                 weight_scale_inv_shape = weight_scale_inv_shape
                 extra_weight_attrs["output_dim"] = (
-                    not extra_weight_attrs["output_dim"] if extra_weight_attrs["output_dim"] is not None else None
+                    not extra_weight_attrs["output_dim"]
+                    if extra_weight_attrs.get("output_dim", None) is not None
+                    else None
                 )
 
             layer.weight_dtype = "float8_e4m3fn"

From 0cb9ad186e89bf0fc5e1ae1ac82583f133bad128 Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Thu, 18 Dec 2025 17:50:18 +0800
Subject: [PATCH 031/161]  [Cherry-Pick][BugFix] fix
 speculate_limit_thinking_content_length #5590 (#5615)

---
 custom_ops/gpu_ops/cpp_extensions.cc          |  2 -
 ...culate_limit_thinking_content_length_v1.cu |  5 ---
 ...culate_limit_thinking_content_length_v2.cu |  5 ---
 .../model_executor/pre_and_post_process.py    |  4 --
 ...speculate_limit_thinking_content_length.py | 42 +------------------
 5 files changed, 1 insertion(+), 57 deletions(-)

diff --git a/custom_ops/gpu_ops/cpp_extensions.cc b/custom_ops/gpu_ops/cpp_extensions.cc
index abf16db95c9..4d7cc90eeee 100644
--- a/custom_ops/gpu_ops/cpp_extensions.cc
+++ b/custom_ops/gpu_ops/cpp_extensions.cc
@@ -1022,7 +1022,6 @@ void SpeculateLimitThinkingContentLengthV1(
     const paddle::Tensor& step_idx,
     const paddle::Tensor& limit_think_status,
     const paddle::Tensor& accept_num,
-    const paddle::Tensor& seq_lens_decoder,
     const paddle::Tensor& stop_flags,
     const paddle::Tensor& eos_token_ids,
     const int64_t think_end_id);
@@ -1033,7 +1032,6 @@ void SpeculateLimitThinkingContentLengthV2(
     const paddle::Tensor& step_idx,
     const paddle::Tensor& limit_think_status,
     const paddle::Tensor& accept_num,
-    const paddle::Tensor& seq_lens_decoder,
     const paddle::Tensor& stop_flags,
     const int64_t think_end_id,
     const int64_t line_break_id);
diff --git a/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v1.cu b/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v1.cu
index 097d3429a16..7d681b0454c 100644
--- a/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v1.cu
+++ b/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v1.cu
@@ -22,7 +22,6 @@ __global__ void speculate_limit_thinking_content_length_kernel_v1(
     const int64_t* eos_token_ids,
     int* limit_think_status,
     int* accept_num,
-    int* seq_lens_decoder,
     bool* stop_flags,
     const int64_t think_end_id,
     const int tokens_per_step,
@@ -106,7 +105,6 @@ __global__ void speculate_limit_thinking_content_length_kernel_v1(
   int discarded_tokens = original_accept_num - new_accept_num;
   if (discarded_tokens > 0) {
     step_idx[bid] -= discarded_tokens;
-    seq_lens_decoder[bid] -= discarded_tokens;
   }
 
   accept_num[bid] = new_accept_num;
@@ -119,7 +117,6 @@ void SpeculateLimitThinkingContentLengthV1(
     const paddle::Tensor& step_idx,
     const paddle::Tensor& limit_think_status,
     const paddle::Tensor& accept_num,
-    const paddle::Tensor& seq_lens_decoder,
     const paddle::Tensor& stop_flags,
     const paddle::Tensor& eos_token_ids,
     const int64_t think_end_id) {
@@ -134,7 +131,6 @@ void SpeculateLimitThinkingContentLengthV1(
       eos_token_ids.data<int64_t>(),
       const_cast<int*>(limit_think_status.data<int>()),
       const_cast<int*>(accept_num.data<int>()),
-      const_cast<int*>(seq_lens_decoder.data<int>()),
       const_cast<bool*>(stop_flags.data<bool>()),
       think_end_id,
       tokens_per_step,
@@ -148,7 +144,6 @@ PD_BUILD_STATIC_OP(speculate_limit_thinking_content_length_v1)
              "step_idx",
              "limit_think_status",
              "accept_num",
-             "seq_lens_decoder",
              "stop_flags",
              "eos_token_ids"})
     .Attrs({"think_end_id: int64_t"})
diff --git a/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v2.cu b/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v2.cu
index 8d963eb0c36..177892aa755 100644
--- a/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v2.cu
+++ b/custom_ops/gpu_ops/speculate_decoding/speculate_limit_thinking_content_length_v2.cu
@@ -25,7 +25,6 @@ __global__ void speculate_limit_thinking_content_length_kernel_v2(
     int64_t* step_idx,
     int* limit_think_status,
     int* accept_num,
-    int* seq_lens_decoder,
     const bool* stop_flags,
     const int64_t think_end_id,
     const int64_t line_break_id,
@@ -115,7 +114,6 @@ __global__ void speculate_limit_thinking_content_length_kernel_v2(
   int discarded_tokens = original_accept_num - new_accept_num;
   if (discarded_tokens > 0) {
     step_idx[bid] -= discarded_tokens;
-    seq_lens_decoder[bid] -= discarded_tokens;
   }
 
   accept_num[bid] = new_accept_num;
@@ -128,7 +126,6 @@ void SpeculateLimitThinkingContentLengthV2(
     const paddle::Tensor& step_idx,
     const paddle::Tensor& limit_think_status,
     const paddle::Tensor& accept_num,
-    const paddle::Tensor& seq_lens_decoder,
     const paddle::Tensor& stop_flags,
     const int64_t think_end_id,
     const int64_t line_break_id) {
@@ -141,7 +138,6 @@ void SpeculateLimitThinkingContentLengthV2(
       const_cast<int64_t*>(step_idx.data<int64_t>()),
       const_cast<int*>(limit_think_status.data<int>()),
       const_cast<int*>(accept_num.data<int>()),
-      const_cast<int*>(seq_lens_decoder.data<int>()),
       stop_flags.data<bool>(),
       think_end_id,
       line_break_id,
@@ -155,7 +151,6 @@ PD_BUILD_STATIC_OP(speculate_limit_thinking_content_length_v2)
              "step_idx",
              "limit_think_status",
              "accept_num",
-             "seq_lens_decoder",
              "stop_flags"})
     .Attrs({"think_end_id: int64_t", "line_break_id: int64_t"})
     .Outputs({"next_tokens_out"})
diff --git a/fastdeploy/model_executor/pre_and_post_process.py b/fastdeploy/model_executor/pre_and_post_process.py
index 4a4132597f0..b5d065ec647 100644
--- a/fastdeploy/model_executor/pre_and_post_process.py
+++ b/fastdeploy/model_executor/pre_and_post_process.py
@@ -144,7 +144,6 @@ def speculate_limit_thinking_content_length(
     step_idx: paddle.Tensor,
     limit_think_status: paddle.Tensor,
     accept_num: paddle.Tensor,
-    seq_lens_decoder: paddle.Tensor,
     stop_flags: paddle.Tensor,
     eos_token_ids: paddle.Tensor,
     think_end_id: int,
@@ -158,7 +157,6 @@ def speculate_limit_thinking_content_length(
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             eos_token_ids,  # 处理由于模型效果问题导致思考过程中输出eos token的问题
             think_end_id,
@@ -172,7 +170,6 @@ def speculate_limit_thinking_content_length(
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -465,7 +462,6 @@ def post_process_specualate(
             step_idx=share_inputs["step_idx"],
             limit_think_status=share_inputs["limit_think_status"],
             accept_num=share_inputs["accept_num"],
-            seq_lens_decoder=share_inputs["seq_lens_decoder"],
             think_end_id=think_end_id,
             line_break_id=line_break_id,
         )
diff --git a/tests/operators/test_speculate_limit_thinking_content_length.py b/tests/operators/test_speculate_limit_thinking_content_length.py
index aa36793f6c5..2f88c1572b6 100644
--- a/tests/operators/test_speculate_limit_thinking_content_length.py
+++ b/tests/operators/test_speculate_limit_thinking_content_length.py
@@ -36,7 +36,6 @@ def test_normal_thinking_phase_no_truncation(self):
         step_idx = paddle.to_tensor([5, 8], dtype="int64")
         limit_think_status = paddle.to_tensor([0, 0], dtype="int32")
         accept_num = paddle.to_tensor([3, 2], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([5, 8], dtype="int32")
         stop_flags = paddle.to_tensor([False, False], dtype="bool")
         eos_token_ids = paddle.to_tensor([[2], [2]], dtype="int64")
         think_end_id = 999
@@ -48,7 +47,6 @@ def test_normal_thinking_phase_no_truncation(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             eos_token_ids,
             think_end_id,
@@ -75,7 +73,6 @@ def test_force_truncation_when_exceeding_limit(self):
         step_idx = paddle.to_tensor([12], dtype="int64")
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([4], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([12], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         eos_token_ids = paddle.to_tensor([[2], [2]], dtype="int64")
         think_end_id = 999
@@ -87,7 +84,6 @@ def test_force_truncation_when_exceeding_limit(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             eos_token_ids,
             think_end_id,
@@ -99,9 +95,8 @@ def test_force_truncation_when_exceeding_limit(self):
         assert next_tokens.numpy()[0, 1] == 999  # Token at step 10, replaced with think_end_id
         assert accept_num.numpy()[0] == 2  # Only accept first 2 tokens
         assert limit_think_status.numpy()[0] == 2  # Status updated to 2
-        # step_idx and seq_lens_decoder should be adjusted
+        # step_idx should be adjusted
         assert step_idx.numpy()[0] == 10  # 12 - (4-2) = 10
-        assert seq_lens_decoder.numpy()[0] == 10  # 12 - (4-2) = 10
 
     def test_model_naturally_generates_think_end_id(self):
         """Test when model naturally generates think_end_id in accepted tokens"""
@@ -110,7 +105,6 @@ def test_model_naturally_generates_think_end_id(self):
         step_idx = paddle.to_tensor([5], dtype="int64")  # step 3-5
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([3], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([5], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         eos_token_ids = paddle.to_tensor([[2], [2]], dtype="int64")
         think_end_id = 999
@@ -122,7 +116,6 @@ def test_model_naturally_generates_think_end_id(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             eos_token_ids,
             think_end_id,
@@ -140,7 +133,6 @@ def test_disabled_feature_negative_max_think_len(self):
         step_idx = paddle.to_tensor([100], dtype="int64")
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([3], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([100], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         eos_token_ids = paddle.to_tensor([[2], [2]], dtype="int64")
         think_end_id = 999
@@ -152,7 +144,6 @@ def test_disabled_feature_negative_max_think_len(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             eos_token_ids,
             think_end_id,
@@ -170,7 +161,6 @@ def test_zero_accept_num_early_return(self):
         step_idx = paddle.to_tensor([10], dtype="int64")
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([0], dtype="int32")  # No tokens accepted
-        seq_lens_decoder = paddle.to_tensor([10], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         eos_token_ids = paddle.to_tensor([[2], [2]], dtype="int64")
         think_end_id = 999
@@ -182,7 +172,6 @@ def test_zero_accept_num_early_return(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             eos_token_ids,
             think_end_id,
@@ -199,7 +188,6 @@ def test_already_in_response_phase_status_3(self):
         step_idx = paddle.to_tensor([10], dtype="int64")
         limit_think_status = paddle.to_tensor([3], dtype="int32")  # Terminal status
         accept_num = paddle.to_tensor([2], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([10], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         eos_token_ids = paddle.to_tensor([[2], [2]], dtype="int64")
         think_end_id = 999
@@ -211,7 +199,6 @@ def test_already_in_response_phase_status_3(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             eos_token_ids,
             think_end_id,
@@ -228,7 +215,6 @@ def test_status_transition_from_0_to_1_to_2(self):
         step_idx = paddle.to_tensor([9], dtype="int64")  # base step = 9-2+1 = 8
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([2], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([9], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         eos_token_ids = paddle.to_tensor([[2], [2]], dtype="int64")
         think_end_id = 999
@@ -239,7 +225,6 @@ def test_status_transition_from_0_to_1_to_2(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             eos_token_ids,
             think_end_id,
@@ -258,7 +243,6 @@ def test_mixed_batch_with_different_states(self):
         step_idx = paddle.to_tensor([6, 8, 50], dtype="int64")
         limit_think_status = paddle.to_tensor([0, 0, 0], dtype="int32")
         accept_num = paddle.to_tensor([3, 3, 2], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([6, 8, 50], dtype="int32")
         stop_flags = paddle.to_tensor([False, False, False], dtype="bool")
         eos_token_ids = paddle.to_tensor([[2], [2]], dtype="int64")
         think_end_id = 999
@@ -270,7 +254,6 @@ def test_mixed_batch_with_different_states(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             eos_token_ids,
             think_end_id,
@@ -302,7 +285,6 @@ def test_normal_thinking_phase_no_truncation(self):
         step_idx = paddle.to_tensor([5, 8], dtype="int64")
         limit_think_status = paddle.to_tensor([0, 0], dtype="int32")
         accept_num = paddle.to_tensor([3, 2], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([5, 8], dtype="int32")
         stop_flags = paddle.to_tensor([False, False], dtype="bool")
         think_end_id = 999
         line_break_id = 888
@@ -314,7 +296,6 @@ def test_normal_thinking_phase_no_truncation(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -335,7 +316,6 @@ def test_force_truncation_with_sequence_injection(self):
         step_idx = paddle.to_tensor([12], dtype="int64")
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([5], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([12], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         think_end_id = 999
         line_break_id = 888
@@ -347,7 +327,6 @@ def test_force_truncation_with_sequence_injection(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -358,7 +337,6 @@ def test_force_truncation_with_sequence_injection(self):
         assert limit_think_status.numpy()[0] == 1
         assert accept_num.numpy()[0] == 1  # Truncated after 1st token
         assert step_idx.numpy()[0] == 8  # 12 - (5-1)
-        assert seq_lens_decoder.numpy()[0] == 8
 
     def test_injection_sequence_steps(self):
         """Test each step of the injection sequence: \n, </think>, \n, \n"""
@@ -371,7 +349,6 @@ def test_injection_sequence_steps(self):
         step_idx = paddle.to_tensor([5], dtype="int64")  # base_step = 5-1+1 = 5
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([1], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([5], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
 
         speculate_limit_thinking_content_length_v2(
@@ -380,7 +357,6 @@ def test_injection_sequence_steps(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -393,7 +369,6 @@ def test_injection_sequence_steps(self):
         step_idx = paddle.to_tensor([6], dtype="int64")  # base_step = 6
         limit_think_status = paddle.to_tensor([1], dtype="int32")
         accept_num = paddle.to_tensor([1], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([6], dtype="int32")
 
         speculate_limit_thinking_content_length_v2(
             next_tokens,
@@ -401,7 +376,6 @@ def test_injection_sequence_steps(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -414,7 +388,6 @@ def test_injection_sequence_steps(self):
         step_idx = paddle.to_tensor([7], dtype="int64")
         limit_think_status = paddle.to_tensor([1], dtype="int32")
         accept_num = paddle.to_tensor([1], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([7], dtype="int32")
 
         speculate_limit_thinking_content_length_v2(
             next_tokens,
@@ -422,7 +395,6 @@ def test_injection_sequence_steps(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -435,7 +407,6 @@ def test_injection_sequence_steps(self):
         step_idx = paddle.to_tensor([8], dtype="int64")
         limit_think_status = paddle.to_tensor([1], dtype="int32")
         accept_num = paddle.to_tensor([1], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([8], dtype="int32")
 
         speculate_limit_thinking_content_length_v2(
             next_tokens,
@@ -443,7 +414,6 @@ def test_injection_sequence_steps(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -458,7 +428,6 @@ def test_model_naturally_generates_think_end_id(self):
         step_idx = paddle.to_tensor([5], dtype="int64")
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([3], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([5], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         think_end_id = 999
         line_break_id = 888
@@ -470,7 +439,6 @@ def test_model_naturally_generates_think_end_id(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -486,7 +454,6 @@ def test_status_2_to_status_3_transition(self):
         step_idx = paddle.to_tensor([10], dtype="int64")
         limit_think_status = paddle.to_tensor([2], dtype="int32")
         accept_num = paddle.to_tensor([1], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([10], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         think_end_id = 999
         line_break_id = 888
@@ -498,7 +465,6 @@ def test_status_2_to_status_3_transition(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -514,7 +480,6 @@ def test_disabled_feature_negative_max_think_len(self):
         step_idx = paddle.to_tensor([100], dtype="int64")
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([2], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([100], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         think_end_id = 999
         line_break_id = 888
@@ -526,7 +491,6 @@ def test_disabled_feature_negative_max_think_len(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -543,7 +507,6 @@ def test_zero_accept_num_early_return(self):
         step_idx = paddle.to_tensor([10], dtype="int64")
         limit_think_status = paddle.to_tensor([0], dtype="int32")
         accept_num = paddle.to_tensor([0], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([10], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         think_end_id = 999
         line_break_id = 888
@@ -555,7 +518,6 @@ def test_zero_accept_num_early_return(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,
@@ -572,7 +534,6 @@ def test_already_in_response_phase_status_3(self):
         step_idx = paddle.to_tensor([10], dtype="int64")
         limit_think_status = paddle.to_tensor([3], dtype="int32")
         accept_num = paddle.to_tensor([1], dtype="int32")
-        seq_lens_decoder = paddle.to_tensor([10], dtype="int32")
         stop_flags = paddle.to_tensor([False], dtype="bool")
         think_end_id = 999
         line_break_id = 888
@@ -584,7 +545,6 @@ def test_already_in_response_phase_status_3(self):
             step_idx,
             limit_think_status,
             accept_num,
-            seq_lens_decoder,
             stop_flags,
             think_end_id,
             line_break_id,

From 646d1a0aa25670926471e3422b60416a82e80087 Mon Sep 17 00:00:00 2001
From: bukejiyu <52310069+bukejiyu@users.noreply.github.com>
Date: Thu, 18 Dec 2025 18:28:53 +0800
Subject: [PATCH 032/161] [Cherry-Pick][RL]Support loading weights via the
 load_weights function for RL #5549 (#5602)

* RL support load_weights

* fix
---
 fastdeploy/model_executor/utils.py |  2 +-
 fastdeploy/rl/rollout_config.py    |  2 ++
 fastdeploy/rl/rollout_model.py     | 33 ++++++++++++++++++++++++++----
 3 files changed, 32 insertions(+), 5 deletions(-)

diff --git a/fastdeploy/model_executor/utils.py b/fastdeploy/model_executor/utils.py
index 971ee58ae8a..4cbdf53d32e 100644
--- a/fastdeploy/model_executor/utils.py
+++ b/fastdeploy/model_executor/utils.py
@@ -140,7 +140,7 @@ def process_weight_transpose(layer, weight_name):
         default_initializer=paddle.nn.initializer.Constant(0),
         is_bias=False,
     )
-    if layer.fd_config.load_config.dynamic_load_weight or layer.fd_config.model_config.enable_cache:
+    if layer.fd_config.load_config.dynamic_load_weight or getattr(layer.fd_config.model_config, "enable_cache", False):
         free_tensor(weight)
         setattr(layer, weight_name, weight_tmp)
         return
diff --git a/fastdeploy/rl/rollout_config.py b/fastdeploy/rl/rollout_config.py
index f7ff748fed7..47db59a1c09 100644
--- a/fastdeploy/rl/rollout_config.py
+++ b/fastdeploy/rl/rollout_config.py
@@ -66,6 +66,7 @@ def __init__(
         num_nextn_predict_layers: int = 0,
         eplb_config: str = {},
         routing_replay_config: str = None,
+        load_choices: str = "default_v1",
     ):
         # Required parameters
         self.model = model_name_or_path
@@ -115,6 +116,7 @@ def __init__(
         self.num_nextn_predict_layers = num_nextn_predict_layers
         self.eplb_config = eplb_config
         self.routing_replay_config = routing_replay_config
+        self.load_choices = load_choices
 
     def __str__(self):
         return "\n".join(f"{k}: {v}" for k, v in self.__dict__.items())
diff --git a/fastdeploy/rl/rollout_model.py b/fastdeploy/rl/rollout_model.py
index e9410d9728b..1ca45171f34 100644
--- a/fastdeploy/rl/rollout_model.py
+++ b/fastdeploy/rl/rollout_model.py
@@ -21,6 +21,7 @@
 from paddle import nn
 
 from fastdeploy.config import FDConfig
+from fastdeploy.model_executor.model_loader import get_model_loader
 from fastdeploy.model_executor.models.ernie4_5_moe import (
     Ernie4_5_MoeForCausalLM,
     Ernie4_5_MoePretrainedModel,
@@ -50,6 +51,10 @@
     Qwen3MoeForCausalLM,
     Qwen3MoePretrainedModel,
 )
+from fastdeploy.model_executor.utils import (
+    multi_switch_config_context,
+    process_final_after_loading,
+)
 from fastdeploy.rl.rollout_config import RolloutModelConfig
 
 
@@ -64,13 +69,33 @@ def __init__(self, rollout_model_config: RolloutModelConfig):
 
     def _init_model(self) -> nn.Layer:
         """Load model from loader based on config."""
+        model_loader = get_model_loader(load_config=self.fd_config.load_config)
+        return model_loader.load_model(fd_config=self.fd_config)
+
+    def load_weights(self, weights_iterator):
+        """Load weights_iterator."""
+
         context = paddle.LazyGuard()
         architectures = f"{self.fd_config.model_config.architectures[0]}RL"
-        with context:
-            model_cls = ModelRegistry.get_class(architectures)
-            model = model_cls(self.fd_config)
+        if self.fd_config.quant_config is not None:
+            quantization_context = multi_switch_config_context(
+                (self.fd_config.quant_config, "is_checkpoint_bf16", True),
+                (self.fd_config.load_config, "dynamic_load_weight", False),
+            )
+        else:
+            # bf16
+            quantization_context = multi_switch_config_context(
+                (self.fd_config.load_config, "dynamic_load_weight", False)
+            )
+        with quantization_context:
+            with context:
+                model_cls = ModelRegistry.get_class(architectures)
+                model = model_cls(self.fd_config)
         model.eval()
-        return model
+        model.load_weights(weights_iterator)
+        if self.fd_config.speculative_config.model_type != "mtp":
+            process_final_after_loading(model, self.fd_config)
+        self.rollout_model = model
 
     def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
         """Get parameter name mappings between rollout and training models."""

From 9c55bc31cd889a9f87888f53424787ca367a462f Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Thu, 18 Dec 2025 20:44:19 +0800
Subject: [PATCH 033/161] [Cherry-Pick][BugFix] fix rl model_weights_signal to
 support tp>1 #5639 (#5637)

---
 fastdeploy/worker/worker_process.py | 17 ++++-------------
 1 file changed, 4 insertions(+), 13 deletions(-)

diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 6975a08848e..77ffdc43dea 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -423,17 +423,11 @@ def event_loop_normal(self) -> None:
         while True:
             # run eplb
             self._run_eplb(tp_rank)
-            if tp_rank == 0:
+
+            if self.fd_config.load_config.dynamic_load_weight:
                 if self.model_weights_status.value[0] != ModelWeightsStatus.NORMAL:
                     self.model_weights_signal[0] = int(self.model_weights_status.value[0])
-                if self.fd_config.load_config.dynamic_load_weight and self.parallel_config.enable_expert_parallel:
-                    self.model_weights_signal[0] = self._broadcast_model_weights_signal(
-                        src=0, group=self.parallel_config.ep_group
-                    )
-            if self.fd_config.load_config.dynamic_load_weight and tp_size > 1:
-                self.model_weights_signal[0] = self._broadcast_model_weights_signal(
-                    src=0, group=self.parallel_config.tp_group
-                )
+                    self.model_weights_signal[0] = self._broadcast_model_weights_signal(src=0, group=None)
 
             self.insert_step = False
             req_dicts = None
@@ -455,11 +449,8 @@ def event_loop_normal(self) -> None:
                 self._tp_barrier_wait()
 
             if self.fd_config.load_config.dynamic_load_weight:
-                if self.parallel_config.enable_expert_parallel:
-                    paddle.distributed.barrier(self.parallel_config.ep_group)
-                else:
-                    paddle.distributed.barrier(self.parallel_config.tp_group)
                 if self.model_weights_signal[0] != ModelWeightsStatus.NORMAL:
+                    paddle.distributed.barrier()
                     logger.info(
                         f"Rank: {self.local_rank} to update or clear parameters, signal is {self.model_weights_signal[0]}, [-1:clear, 1:update]"
                     )

From 2aa88d3621901109440b8deb7d7952eef21332c7 Mon Sep 17 00:00:00 2001
From: bukejiyu <52310069+bukejiyu@users.noreply.github.com>
Date: Fri, 19 Dec 2025 11:17:09 +0800
Subject: [PATCH 034/161]  [Cherry-Pick][RL]Fix RL load_weights #5642 (#5643)

---
 fastdeploy/rl/rollout_model.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/fastdeploy/rl/rollout_model.py b/fastdeploy/rl/rollout_model.py
index 1ca45171f34..279d58db3ab 100644
--- a/fastdeploy/rl/rollout_model.py
+++ b/fastdeploy/rl/rollout_model.py
@@ -91,10 +91,10 @@ def load_weights(self, weights_iterator):
             with context:
                 model_cls = ModelRegistry.get_class(architectures)
                 model = model_cls(self.fd_config)
-        model.eval()
-        model.load_weights(weights_iterator)
-        if self.fd_config.speculative_config.model_type != "mtp":
-            process_final_after_loading(model, self.fd_config)
+            model.eval()
+            model.load_weights(weights_iterator)
+            if self.fd_config.speculative_config.model_type != "mtp":
+                process_final_after_loading(model, self.fd_config)
         self.rollout_model = model
 
     def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:

From 23bfd28624bdd84aadd9e0ea0079f4b25a7510b5 Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Fri, 19 Dec 2025 11:48:50 +0800
Subject: [PATCH 035/161] [Cherry-Pick][BugFix] cp fix_cpu_cache_bugs(#5544) 
 (#5577)

* cp fix_cpu_cache_bugs

* update ce case

* update test case

* update code
---
 .github/workflows/_base_test.yml                   | 2 +-
 fastdeploy/cache_manager/cache_transfer_manager.py | 8 ++++++++
 fastdeploy/cache_manager/prefix_cache_manager.py   | 1 +
 fastdeploy/config.py                               | 3 ---
 tests/cache_manager/test_cache_transfer_manager.py | 1 +
 tests/ce/deploy/deploy.py                          | 2 +-
 tests/e2e/test_EB_Lite_serving.py                  | 1 +
 tests/e2e/test_Qwen2_5_VL_serving.py               | 1 +
 8 files changed, 14 insertions(+), 5 deletions(-)

diff --git a/.github/workflows/_base_test.yml b/.github/workflows/_base_test.yml
index 60e650e9184..d5dffb02d3e 100644
--- a/.github/workflows/_base_test.yml
+++ b/.github/workflows/_base_test.yml
@@ -209,7 +209,7 @@ jobs:
           export TEMPLATE=TOKEN_NORMAL
           curl -X POST http://0.0.0.0:${FLASK_PORT}/switch \
             -H "Content-Type: application/json" \
-            -d "{\"--model\": \"/MODELDATA/ERNIE-4.5-VL-28B-A3B-Thinking\", \"--reasoning-parser\": \"ernie-45-vl-thinking\", \"--tool-call-parser\": \"ernie-45-vl-thinking\", \"--tensor-parallel-size\": 1, \"--quantization\": \"wint4\", \"--max-model-len\": 131072, \"--max-num-seqs\": 32}"
+            -d "{\"--model\": \"/MODELDATA/ERNIE-4.5-VL-28B-A3B-Thinking\", \"--reasoning-parser\": \"ernie-45-vl-thinking\", \"--tool-call-parser\": \"ernie-45-vl-thinking\", \"--tensor-parallel-size\": 1, \"--quantization\": \"wint4\", \"--max-model-len\": 131072, \"--max-num-seqs\": 32, \"--no-enable-prefix-caching\": true}"
           check_service 90
           python -m pytest -sv test_prompt_ids.py || TEST_EXIT_CODE=1
 
diff --git a/fastdeploy/cache_manager/cache_transfer_manager.py b/fastdeploy/cache_manager/cache_transfer_manager.py
index b2b8218c805..302e9612941 100644
--- a/fastdeploy/cache_manager/cache_transfer_manager.py
+++ b/fastdeploy/cache_manager/cache_transfer_manager.py
@@ -85,6 +85,13 @@ def parse_args():
         default="ipc",
         help="cache transfer protocol, only support ipc now",
     )
+    parser.add_argument(
+        "--default_dtype",
+        type=str,
+        default="bfloat16",
+        choices=["float16", "bfloat16", "uint8"],
+        help="paddle default dtype, swap_cache_batch only support float16、bfloat16 and uint8 now",
+    )
     parser.add_argument("--local_data_parallel_id", type=int, default=0)
     parser.add_argument("--rdma_port", type=str, default="", help="rmda port")
     parser.add_argument(
@@ -125,6 +132,7 @@ def __init__(self, args):
         self.num_extra_layers = self.speculative_config.num_extra_cache_layer
         self.num_extra_layer_gpu_blocks = int(self.num_gpu_blocks * self.speculative_config.num_gpu_block_expand_ratio)
 
+        paddle.set_default_dtype(args.default_dtype)
         self.swap_to_cpu_thread_pool = concurrent.futures.ThreadPoolExecutor(max_workers=1)
         self.swap_to_gpu_thread_pool = concurrent.futures.ThreadPoolExecutor(max_workers=1)
         self.transfer_task_queue = queue.Queue()  # 用来接收传输任务
diff --git a/fastdeploy/cache_manager/prefix_cache_manager.py b/fastdeploy/cache_manager/prefix_cache_manager.py
index a3c610965a5..4c40e91112c 100644
--- a/fastdeploy/cache_manager/prefix_cache_manager.py
+++ b/fastdeploy/cache_manager/prefix_cache_manager.py
@@ -275,6 +275,7 @@ def launch_cache_manager(
                 + f" --engine_worker_queue_port {engine_worker_queue_port}"
                 + f" --num_cpu_blocks {cache_config.num_cpu_blocks}"
                 + f" --engine_pid {pid_suffix}"
+                + f" --default_dtype '{self.config.model_config.dtype}'"
                 + f" --protocol {cache_config.cache_transfer_protocol}"
                 + f" --local_data_parallel_id {self.local_data_parallel_id}"
                 + f" --rdma_port {cache_config.rdma_comm_ports[i] if cache_config.rdma_comm_ports is not None else '0'}"
diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index a6e74403957..0539ca7b263 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1752,9 +1752,6 @@ def postprocess(self):
             else:
                 # It will hang when real batch_size < tp_size
                 self.graph_opt_config.filter_capture_size(tp_size=self.parallel_config.tensor_parallel_size)
-        if self.model_config.enable_mm and self.graph_opt_config.use_cudagraph:
-            self.cache_config.enable_prefix_caching = False
-            logger.info("Multi-modal models do not support prefix caching when using CUDAGraph!")
 
         if self.scheduler_config.splitwise_role == "mixed":
             self._disable_sequence_parallel_moe_if_needed("Mixed")
diff --git a/tests/cache_manager/test_cache_transfer_manager.py b/tests/cache_manager/test_cache_transfer_manager.py
index f09fc603325..c52471a72e7 100644
--- a/tests/cache_manager/test_cache_transfer_manager.py
+++ b/tests/cache_manager/test_cache_transfer_manager.py
@@ -26,6 +26,7 @@ class Args:
     value_cache_shape = ""
     create_cache_tensor = False
     cache_dtype = "bfloat16"
+    default_dtype = "bfloat16"
 
 
 # ==========================
diff --git a/tests/ce/deploy/deploy.py b/tests/ce/deploy/deploy.py
index be6a4f0bf7d..856a7b594ad 100644
--- a/tests/ce/deploy/deploy.py
+++ b/tests/ce/deploy/deploy.py
@@ -89,7 +89,7 @@ def build_command(config):
 
     # 添加配置参数
     for key, value in config.items():
-        if "--enable" in key:
+        if "--enable" in key or "--no-enable" in key:
             value = bool(value if isinstance(value, bool) else eval(value))
             if value:
                 cmd.append(key)
diff --git a/tests/e2e/test_EB_Lite_serving.py b/tests/e2e/test_EB_Lite_serving.py
index c71b7667260..e4067164922 100644
--- a/tests/e2e/test_EB_Lite_serving.py
+++ b/tests/e2e/test_EB_Lite_serving.py
@@ -80,6 +80,7 @@ def setup_and_run_server():
         '{"cudagraph_capture_sizes": [1], "use_cudagraph":true}',
         "--routing-replay-config",
         '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./routing_replay_output"}',
+        "--no-enable-prefix-caching",
     ]
 
     # Start subprocess in new process group
diff --git a/tests/e2e/test_Qwen2_5_VL_serving.py b/tests/e2e/test_Qwen2_5_VL_serving.py
index 92064f6a236..55394482a9e 100644
--- a/tests/e2e/test_Qwen2_5_VL_serving.py
+++ b/tests/e2e/test_Qwen2_5_VL_serving.py
@@ -72,6 +72,7 @@ def setup_and_run_server():
         "128",
         "--limit-mm-per-prompt",
         limit_mm_str,
+        "--no-enable-prefix-caching",
     ]
 
     print(cmd)

From b3f78815d87406dd751e2aa597df53dc266c23e8 Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Fri, 19 Dec 2025 12:04:18 +0800
Subject: [PATCH 036/161] update rl signal (#5650)

---
 fastdeploy/worker/worker_process.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 77ffdc43dea..9092bd3baad 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -427,7 +427,8 @@ def event_loop_normal(self) -> None:
             if self.fd_config.load_config.dynamic_load_weight:
                 if self.model_weights_status.value[0] != ModelWeightsStatus.NORMAL:
                     self.model_weights_signal[0] = int(self.model_weights_status.value[0])
-                    self.model_weights_signal[0] = self._broadcast_model_weights_signal(src=0, group=None)
+                    if self.ranks > 1:
+                        self.model_weights_signal[0] = self._broadcast_model_weights_signal(src=0, group=None)
 
             self.insert_step = False
             req_dicts = None
@@ -450,7 +451,8 @@ def event_loop_normal(self) -> None:
 
             if self.fd_config.load_config.dynamic_load_weight:
                 if self.model_weights_signal[0] != ModelWeightsStatus.NORMAL:
-                    paddle.distributed.barrier()
+                    if self.ranks > 1:
+                        paddle.distributed.barrier()
                     logger.info(
                         f"Rank: {self.local_rank} to update or clear parameters, signal is {self.model_weights_signal[0]}, [-1:clear, 1:update]"
                     )

From a9bb24bb564cb5eb0083eebcf4fce772e05260b4 Mon Sep 17 00:00:00 2001
From: qw86972190 <127910106+qw86972190@users.noreply.github.com>
Date: Fri, 19 Dec 2025 14:30:14 +0800
Subject: [PATCH 037/161] [XPU]logprob bug (#5636)

---
 fastdeploy/worker/xpu_model_runner.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/worker/xpu_model_runner.py b/fastdeploy/worker/xpu_model_runner.py
index f9bbb4ea95d..e3c03b6360f 100644
--- a/fastdeploy/worker/xpu_model_runner.py
+++ b/fastdeploy/worker/xpu_model_runner.py
@@ -118,7 +118,7 @@ def __init__(
         self.speculative_decoding = self.speculative_method is not None
 
         # used by SamplingMetadata
-        self.enable_logprob = False  # fd_config.model_config.enable_logprob
+        self.enable_logprob = fd_config.model_config.enable_logprob  # fd_config.model_config.enable_logprob
         self.enable_early_stop = self.fd_config.early_stop_config.enable_early_stop
 
         #  Sampler

From e10c5d5d61fbc950939b21684ab6f88c8be20e7a Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Fri, 19 Dec 2025 14:57:17 +0800
Subject: [PATCH 038/161] cp fix eb5 prefix cache bug (#5644)

---
 fastdeploy/engine/sched/resource_manager_v1.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index 440acb81045..1106b56f9fe 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -329,7 +329,7 @@ def _update_mm_hashes(self, request):
                         token_st += h * w // 4
             inputs["mm_positions"] = new_mm_positions
             inputs["mm_hashes"] = new_mm_hashes
-        else:
+        elif inputs.get("mm_positions", None) is None or inputs.get("mm_hashes", None) is None:
             inputs["mm_positions"] = []
             inputs["mm_hashes"] = []
 

From dd0014b7b95d4c13b64eabd6fee09c4d1d43e400 Mon Sep 17 00:00:00 2001
From: bukejiyu <52310069+bukejiyu@users.noreply.github.com>
Date: Fri, 19 Dec 2025 16:33:44 +0800
Subject: [PATCH 039/161] del core (#5659)

---
 fastdeploy/model_executor/utils.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/fastdeploy/model_executor/utils.py b/fastdeploy/model_executor/utils.py
index 4cbdf53d32e..8b7224eb20a 100644
--- a/fastdeploy/model_executor/utils.py
+++ b/fastdeploy/model_executor/utils.py
@@ -351,6 +351,9 @@ def is_paddle_support_new_h2d():
 
     code = """
 import paddle
+import resource
+
+resource.setrlimit(resource.RLIMIT_CORE, (0, 0))
 try:
     dst = paddle.zeros([2, 4], dtype='bfloat16')
     src = paddle.ones([2, 2], dtype='bfloat16', device='cpu')

From abf53b17ea5e647e3e2ac6ced68218ded2242b8b Mon Sep 17 00:00:00 2001
From: chen <103103266+ckl117@users.noreply.github.com>
Date: Fri, 19 Dec 2025 20:04:39 +0800
Subject: [PATCH 040/161] [BugFix] Fix custom_all_reduce overflow (#5662)
 (#5667)

* check

* check

* code style
---
 .../gpu_ops/custom_all_reduce/all_reduce.cuh  | 82 ++++++++++++-------
 1 file changed, 53 insertions(+), 29 deletions(-)

diff --git a/custom_ops/gpu_ops/custom_all_reduce/all_reduce.cuh b/custom_ops/gpu_ops/custom_all_reduce/all_reduce.cuh
index fea3d63fef9..b17ece59036 100644
--- a/custom_ops/gpu_ops/custom_all_reduce/all_reduce.cuh
+++ b/custom_ops/gpu_ops/custom_all_reduce/all_reduce.cuh
@@ -18,21 +18,23 @@
 #include <cuda_fp16.h>
 #include <cuda_runtime.h>
 
-#include <iostream>
 #include <array>
+#include <iostream>
 #include <limits>
 #include <map>
 #include <unordered_map>
 #include <vector>
 
-#define CUDACHECK(cmd)                                              \
-  do {                                                              \
-    cudaError_t e = cmd;                                            \
-    if (e != cudaSuccess) {                                         \
-      printf("Failed: Cuda error %s:%d '%s'\n", __FILE__, __LINE__, \
-             cudaGetErrorString(e));                                \
-      exit(EXIT_FAILURE);                                           \
-    }                                                               \
+#define CUDACHECK(cmd)                          \
+  do {                                          \
+    cudaError_t e = cmd;                        \
+    if (e != cudaSuccess) {                     \
+      printf("Failed: Cuda error %s:%d '%s'\n", \
+             __FILE__,                          \
+             __LINE__,                          \
+             cudaGetErrorString(e));            \
+      exit(EXIT_FAILURE);                       \
+    }                                           \
   } while (0)
 
 namespace paddle {
@@ -188,7 +190,8 @@ static DINLINE FlagType ld_flag_volatile(FlagType* flag_addr) {
 // semantic is used to enforce memory access order before and after this
 // barrier.
 template <int ngpus, bool is_start, bool need_fence = false>
-DINLINE void multi_gpu_barrier(const RankSignals& sg, Signal* self_sg,
+DINLINE void multi_gpu_barrier(const RankSignals& sg,
+                               Signal* self_sg,
                                int rank) {
   if constexpr (!is_start) __syncthreads();
   static_assert(
@@ -205,10 +208,12 @@ DINLINE void multi_gpu_barrier(const RankSignals& sg, Signal* self_sg,
         &self_sg->peer_counter[val % 2][blockIdx.x][threadIdx.x];
     if constexpr (need_fence) {
       st_flag_release(peer_counter_ptr, val);
-      while (ld_flag_acquire(self_counter_ptr) != val);
+      while (ld_flag_acquire(self_counter_ptr) != val)
+        ;
     } else {
       st_flag_volatile(peer_counter_ptr, val);
-      while (ld_flag_volatile(self_counter_ptr) != val);
+      while (ld_flag_volatile(self_counter_ptr) != val)
+        ;
     }
   }
   if constexpr (is_start || need_fence) __syncthreads();
@@ -226,8 +231,12 @@ DINLINE P packed_reduce(const P* ptrs[], int idx) {
 
 template <typename T, int ngpus>
 __global__ void __launch_bounds__(512, 1)
-    cross_device_reduce_1stage(RankData* _dp, RankSignals sg, Signal* self_sg,
-                               T* __restrict__ result, int rank, int size) {
+    cross_device_reduce_1stage(RankData* _dp,
+                               RankSignals sg,
+                               Signal* self_sg,
+                               T* __restrict__ result,
+                               int rank,
+                               int size) {
   using P = typename packed_t<T>::P;
   using A = typename packed_t<T>::A;
   // note: we don't reorder the address so the accumulation order is the same
@@ -249,8 +258,12 @@ DINLINE P* get_tmp_buf(Signal* sg) {
 
 template <typename T, int ngpus>
 __global__ void __launch_bounds__(512, 1)
-    cross_device_reduce_2stage(RankData* _dp, RankSignals sg, Signal* self_sg,
-                               T* __restrict__ result, int rank, int size) {
+    cross_device_reduce_2stage(RankData* _dp,
+                               RankSignals sg,
+                               Signal* self_sg,
+                               T* __restrict__ result,
+                               int rank,
+                               int size) {
   int tid = blockIdx.x * blockDim.x + threadIdx.x;
   int stride = gridDim.x * blockDim.x;
   using P = typename packed_t<T>::P;
@@ -323,7 +336,7 @@ class CustomAllreduce {
   // 3. (In Python) all gather the IPC handles.
   // 4. Obtain the peer pointers by opening the IPC handles, and store them in
   // the rank data array at corresponding positions.
-  RankData *d_rank_data_base_, *d_rank_data_end_;
+  RankData *d_rank_data_base_origin_, *d_rank_data_base_, *d_rank_data_end_;
   std::vector<void*> graph_unreg_buffers_;
   // a map from IPC handles to opened IPC pointers
   std::map<IPC_KEY, char*> ipc_handles_;
@@ -338,8 +351,12 @@ class CustomAllreduce {
    * Note: this class does not own any device memory. Any required buffers
    * are passed in from the constructor.
    */
-  CustomAllreduce(Signal** signals, void* rank_data, size_t rank_data_sz,
-                  int rank, int world_size, bool full_nvlink = true)
+  CustomAllreduce(Signal** signals,
+                  void* rank_data,
+                  size_t rank_data_sz,
+                  int rank,
+                  int world_size,
+                  bool full_nvlink = true)
       : rank_(rank),
         world_size_(world_size),
         full_nvlink_(full_nvlink),
@@ -349,6 +366,7 @@ class CustomAllreduce {
     for (int i = 0; i < world_size_; i++) {
       sg_.signals[i] = signals[i];
     }
+    d_rank_data_base_origin_ = d_rank_data_base_;
   }
 
   char* open_ipc_handle(const void* ipc_handle) {
@@ -405,6 +423,7 @@ class CustomAllreduce {
     CUDACHECK(
         cudaMemcpy(d_data, &data, sizeof(RankData), cudaMemcpyHostToDevice));
     buffers_[ptrs[rank_]] = d_data;
+    d_rank_data_base_origin_ = d_rank_data_base_;
   }
 
   // Note: when registering graph buffers, we intentionally choose to not
@@ -434,7 +453,8 @@ class CustomAllreduce {
         }
       }
     }
-    CUDACHECK(cudaMemcpy(d_rank_data_base_, rank_data.data(),
+    CUDACHECK(cudaMemcpy(d_rank_data_base_,
+                         rank_data.data(),
                          sizeof(RankData) * num_buffers,
                          cudaMemcpyHostToDevice));
     d_rank_data_base_ += num_buffers;
@@ -451,8 +471,12 @@ class CustomAllreduce {
    * guess is that too many SMs will cause contention on NVLink bus.
    */
   template <typename T>
-  void allreduce(cudaStream_t stream, T* input, T* output, int size,
-                 int threads = 512, int block_limit = 36) {
+  void allreduce(cudaStream_t stream,
+                 T* input,
+                 T* output,
+                 int size,
+                 int threads = 512,
+                 int block_limit = 36) {
     auto d = packed_t<T>::P::size;
     if (size % d != 0)
       throw std::runtime_error(
@@ -483,9 +507,9 @@ class CustomAllreduce {
     size /= d;
     auto bytes = size * sizeof(typename packed_t<T>::P);
     int blocks = std::min(block_limit, (size + threads - 1) / threads);
-#define KL(ngpus, name)                                                       \
-  name<T, ngpus><<<blocks, threads, 0, stream>>>(ptrs, sg_, self_sg_, output, \
-                                                 rank_, size);
+#define KL(ngpus, name)                           \
+  name<T, ngpus><<<blocks, threads, 0, stream>>>( \
+      ptrs, sg_, self_sg_, output, rank_, size);
 
 #define REDUCE_CASE(ngpus)                            \
   case ngpus: {                                       \
@@ -517,15 +541,15 @@ class CustomAllreduce {
 #undef KL
   }
 
-  void clear_ipc_handles(){
+  void clear_ipc_handles() {
     for (auto [_, ptr] : ipc_handles_) {
       CUDACHECK(cudaIpcCloseMemHandle(ptr));
     }
+
     ipc_handles_.clear();
+    d_rank_data_base_ = d_rank_data_base_origin_;
   }
 
-  ~CustomAllreduce() {
-    clear_ipc_handles();
-  }
+  ~CustomAllreduce() { clear_ipc_handles(); }
 };
 }  // namespace paddle

From ea16c82b430a32ab9ca82db633ca0a2c6780ceb8 Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Fri, 19 Dec 2025 23:18:03 +0800
Subject: [PATCH 041/161] [Cherry-Pick] [RL] provide options for whether
 shutdown comm group after weights cleared (#5663) (#5664)

* [rl] provide options for whether shutdown comm group after weights cleared

* [fix] fix args hardcode

* [fix] change args type

* [fix] add worker process args
---
 fastdeploy/config.py                    |  5 +++++
 fastdeploy/engine/args_utils.py         | 11 +++++++++++
 fastdeploy/engine/engine.py             |  1 +
 fastdeploy/rl/dynamic_weight_manager.py |  9 +++++----
 fastdeploy/worker/gpu_model_runner.py   |  8 ++++++--
 fastdeploy/worker/worker_process.py     | 16 +++++++++++++---
 6 files changed, 41 insertions(+), 9 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index 0539ca7b263..a2fb35e8429 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -566,6 +566,8 @@ def __init__(
         self.use_internode_ll_two_stage: bool = False
         # disable sequence parallel moe
         self.disable_sequence_parallel_moe: bool = False
+        # shutdown comm group if worker idle
+        self.shutdown_comm_group_if_worker_idle: bool = None
 
         self.pod_ip: str = None
         # enable the custom all-reduce kernel and fall back to NCCL(dist.all_reduce).
@@ -585,6 +587,9 @@ def __init__(
             self.expert_parallel_size = 1
         self.use_ep = self.expert_parallel_size > 1
 
+        if self.shutdown_comm_group_if_worker_idle is None:
+            self.shutdown_comm_group_if_worker_idle = not self.use_ep
+
         # pd_disaggregation
         use_pd_disaggregation: int = int(os.getenv("FLAGS_use_pd_disaggregation", 0))
         use_pd_disaggregation_per_chunk: int = int(os.getenv("FLAGS_use_pd_disaggregation_per_chunk", 0))
diff --git a/fastdeploy/engine/args_utils.py b/fastdeploy/engine/args_utils.py
index d2d7c6f908a..edfb6fdb174 100644
--- a/fastdeploy/engine/args_utils.py
+++ b/fastdeploy/engine/args_utils.py
@@ -266,6 +266,11 @@ class EngineArgs:
     # This optimization is enabled by default, and can be disabled by using this flag.
     """
 
+    shutdown_comm_group_if_worker_idle: bool = None
+    """
+    Whether to shutdown the comm group when the weight is cleared.
+    """
+
     engine_worker_queue_port: str = "0"
     """
     Port for worker queue communication.
@@ -906,6 +911,12 @@ def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
             default=EngineArgs.chunked_moe_size,
             help="Chunked size of moe input.",
         )
+        parallel_group.add_argument(
+            "--shutdown-comm-group-if-worker-idle",
+            action=argparse.BooleanOptionalAction,
+            default=EngineArgs.shutdown_comm_group_if_worker_idle,
+            help="Shutdown communication group when worker is idle.",
+        )
 
         # Load group
         load_group = parser.add_argument_group("Load Configuration")
diff --git a/fastdeploy/engine/engine.py b/fastdeploy/engine/engine.py
index a753775c6a4..3762fe5afcd 100644
--- a/fastdeploy/engine/engine.py
+++ b/fastdeploy/engine/engine.py
@@ -583,6 +583,7 @@ def _start_worker_service(self):
             "disable_sequence_parallel_moe": self.cfg.parallel_config.disable_sequence_parallel_moe,
             "enable_logprob": self.cfg.model_config.enable_logprob,
             "lm_head_fp32": self.cfg.model_config.lm_head_fp32,
+            "shutdown_comm_group_if_worker_idle": self.cfg.parallel_config.shutdown_comm_group_if_worker_idle,
         }
         for worker_flag, value in worker_store_true_flag.items():
             if value:
diff --git a/fastdeploy/rl/dynamic_weight_manager.py b/fastdeploy/rl/dynamic_weight_manager.py
index a865b9c62ba..bee87de3be1 100644
--- a/fastdeploy/rl/dynamic_weight_manager.py
+++ b/fastdeploy/rl/dynamic_weight_manager.py
@@ -267,15 +267,16 @@ def _update_shared_status(self, pid: int, status: int) -> None:
             value[self.rank] = status
 
     @staticmethod
-    def check_model_weights_status(model_weights_status, model_runner, pid):
+    def check_model_weights_status(model_weights_status, model_runner, pid, block):
         """
         check model weights status
         """
         # logger.info(f"dynamic weight manager is check model weights status! {model_weights_status.value[0]}")
-        while (
-            model_weights_status.value[0] != ModelWeightsStatus.NORMAL
-            and model_weights_status.value[0] != ModelWeightsStatus.CLEARED
+        while model_weights_status.value[0] != ModelWeightsStatus.NORMAL and (
+            block or model_weights_status.value[0] != ModelWeightsStatus.CLEARED
         ):
+            # 如果为 block 模式，那么循环不会退出，直到权重更新、通信组重建
+            # 如果为非 block 模式，那么循环在权重更新或清理后均会退出
             if model_weights_status.value[0] == ModelWeightsStatus.UPDATING:
                 logger.info("infer engine stopped! start to load new checkpoint...")
                 model_runner.clear_requests()
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 418fef9093f..56e4ceb4207 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -2691,7 +2691,9 @@ def clear_parameters(self, pid):
         if self.use_cudagraph:
             self.model.clear_grpah_opt_backend()
         # Clear parameters and Send single
-        self.dynamic_weight_manager.clear_parameters(pid)
+        self.dynamic_weight_manager.clear_parameters(
+            pid, self.fd_config.parallel_config.shutdown_comm_group_if_worker_idle
+        )
         self.clear_cache()
         paddle.device.cuda.empty_cache()
 
@@ -2708,7 +2710,9 @@ def clear_requests(self):
     def update_parameters(self, pid):
         """Dynamic model loader use to update parameters use for RL"""
         # Update parameters
-        self.dynamic_weight_manager.update_parameters(pid)
+        self.dynamic_weight_manager.update_parameters(
+            pid, self.fd_config.parallel_config.shutdown_comm_group_if_worker_idle
+        )
         self.initialize_kv_cache()
         # Recapture CUDAGraph
         if self.use_cudagraph:
diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 9092bd3baad..e00d92c09d2 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -466,14 +466,18 @@ def event_loop_normal(self) -> None:
                         # model_weights_signal
                         self.worker.model_runner,
                         self.parallel_config.engine_worker_queue_port,
+                        self.parallel_config.shutdown_comm_group_if_worker_idle,
                     )
                     logger.info(f"current task queue data: {self.task_queue.num_tasks()}")
                     self.task_queue.clear_data()
                     self.model_weights_signal[0] = ModelWeightsStatus.NORMAL
                     logger.info(f"Rank: {self.local_rank} has updated or cleared parameters.")
-                    while self.model_weights_status.value[0] == ModelWeightsStatus.CLEARED:
-                        time.sleep(0.01)
-                    continue
+
+                    # 只有不关闭通信组时，清理权重后需要额外等待（否则信号量会同步混乱）
+                    if not self.fd_config.parallel_config.shutdown_comm_group_if_worker_idle:
+                        while self.model_weights_status.value[0] == ModelWeightsStatus.CLEARED:
+                            time.sleep(0.01)
+                        continue
 
             if self.exist_task_signal.value[0] == ExistTaskStatus.EXIST or self.task_queue.read_finish_flag.get() == 1:
                 logger.info(f"Rank: {self.local_rank} Detected new requests.")
@@ -890,6 +894,12 @@ def parse_args():
         help="Configation of Rollout Routing Replay.",
     )
 
+    parser.add_argument(
+        "--shutdown_comm_group_if_worker_idle",
+        action="store_true",
+        help="Shutdown comm group if worker idle.",
+    )
+
     args = parser.parse_args()
     return args
 

From 90065084cbb17748e7f56bdf917d86f70e0d3251 Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Mon, 22 Dec 2025 16:31:24 +0800
Subject: [PATCH 042/161] [BugFix] fix rl signal (#5678)

---
 fastdeploy/worker/worker_process.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index e00d92c09d2..c9d64d06f98 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -427,8 +427,8 @@ def event_loop_normal(self) -> None:
             if self.fd_config.load_config.dynamic_load_weight:
                 if self.model_weights_status.value[0] != ModelWeightsStatus.NORMAL:
                     self.model_weights_signal[0] = int(self.model_weights_status.value[0])
-                    if self.ranks > 1:
-                        self.model_weights_signal[0] = self._broadcast_model_weights_signal(src=0, group=None)
+                if self.ranks > 1:
+                    self.model_weights_signal[0] = self._broadcast_model_weights_signal(src=0, group=None)
 
             self.insert_step = False
             req_dicts = None

From eb309e5a2a2fe38eb702f5d398f682a324cdc8e1 Mon Sep 17 00:00:00 2001
From: ddchenhao66 <165133255+ddchenhao66@users.noreply.github.com>
Date: Tue, 23 Dec 2025 11:00:53 +0800
Subject: [PATCH 043/161] [XPU]Set top_p=0.0 by default on XPU to optimize
 performance (#5688)

Co-authored-by: ddchenhao66 <dhaochen163.com>
---
 fastdeploy/worker/xpu_model_runner.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/worker/xpu_model_runner.py b/fastdeploy/worker/xpu_model_runner.py
index e3c03b6360f..07dd0a3c883 100644
--- a/fastdeploy/worker/xpu_model_runner.py
+++ b/fastdeploy/worker/xpu_model_runner.py
@@ -704,7 +704,9 @@ def _init_share_inputs(self, max_num_seqs: int):
             dtype="int64",
         )
         self.share_inputs["eos_token_id"] = paddle.full([self.model_config.eos_tokens_lens, 1], 0, dtype="int64")
-        self.share_inputs["top_p"] = paddle.full([max_num_seqs, 1], self.model_config.top_p, dtype="float32")
+        # self.share_inputs["top_p"] = paddle.full([max_num_seqs, 1], self.model_config.top_p, dtype="float32")
+        # self.share_inputs["top_p"] default to 0.0 on XPU for consideration of the performance
+        self.share_inputs["top_p"] = paddle.full([max_num_seqs, 1], 0.0, dtype="float32")
         self.share_inputs["top_k"] = paddle.full([max_num_seqs, 1], 0, dtype="int64")
         self.share_inputs["top_k_list"] = [0] * max_num_seqs
         self.share_inputs["min_p"] = paddle.full([max_num_seqs, 1], 0.0, dtype="float32")

From ceafd757f0011e94c53a9a4b0286d9b84104d0d1 Mon Sep 17 00:00:00 2001
From: freeliuzc <lzc842650834@gmail.com>
Date: Tue, 23 Dec 2025 13:18:47 +0800
Subject: [PATCH 044/161] [Speculative Decoding]Support multi-step mtp with
 cudagraph (#5624) (#5670)

* support multi-step mtp with cudagraph

* fix usage

* fix unit test
---
 fastdeploy/config.py                  | 25 +++++++++++++-------
 fastdeploy/worker/gpu_model_runner.py | 34 ++++++++++++---------------
 2 files changed, 32 insertions(+), 27 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index a2fb35e8429..64d548a0acd 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -906,17 +906,19 @@ def init_with_cudagrpah_size(self, max_capture_size: int = 0) -> None:
                     self.real_shape_to_captured_size[bs] = end
         self.real_shape_to_captured_size[self.max_capture_size] = self.max_capture_size
 
-    def _set_cudagraph_sizes(self, max_capture_size: int = 0):
+    def _set_cudagraph_sizes(self, max_capture_size: int = 0, dec_token_per_query_per_step: int = 1):
         """
         Calculate a series of candidate capture sizes,
         and then extract a portion of them as the capture list for the CUDA graph based on user input.
         """
-        # Shape [1, 2, 4, 8, 16, ... 120, 128]
-        draft_capture_sizes = [1, 2, 4] + [8 * i for i in range(1, 17)]
-        # Shape [128, 144, ... 240, 256]
-        draft_capture_sizes += [16 * i for i in range(9, 17)]
-        # Shape [256, 288, ... 992, 1024]
-        draft_capture_sizes += [32 * i for i in range(9, 33)]
+        # Shape [1, 2, 4, 8, 16, ... 120, 128] * dec_token_per_query_per_step
+        draft_capture_sizes = [i * dec_token_per_query_per_step for i in [1, 2, 4]] + [
+            8 * i * dec_token_per_query_per_step for i in range(1, 17)
+        ]
+        # Shape [128, 144, ... 240, 256] * dec_token_per_query_per_step
+        draft_capture_sizes += [16 * i * dec_token_per_query_per_step for i in range(9, 17)]
+        # Shape [256, 288, ... 992, 1024] * dec_token_per_query_per_step
+        draft_capture_sizes += [32 * i * dec_token_per_query_per_step for i in range(9, 33)]
 
         draft_capture_sizes.append(max_capture_size)
         self.cudagraph_capture_sizes = sorted(draft_capture_sizes)
@@ -1582,7 +1584,14 @@ def __init__(
             max_capture_shape = min(512, max_capture_shape)
 
         if self.graph_opt_config.cudagraph_capture_sizes is None:
-            self.graph_opt_config._set_cudagraph_sizes(max_capture_size=max_capture_shape)
+            dec_token_per_query_per_step = (
+                self.speculative_config.num_speculative_tokens + 1
+                if self.speculative_config is not None and self.speculative_config.method is not None
+                else 1
+            )
+            self.graph_opt_config._set_cudagraph_sizes(
+                max_capture_size=max_capture_shape, dec_token_per_query_per_step=dec_token_per_query_per_step
+            )
         self.graph_opt_config.init_with_cudagrpah_size(max_capture_size=max_capture_shape)
 
         self.tokenizer = tokenizer
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 56e4ceb4207..29a2c0e71a9 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -2085,25 +2085,21 @@ def capture_model(self) -> None:
                     )
             elif self.speculative_decoding and self.speculative_method == "mtp":
                 # Capture Target Model without bsz 1
-                for batch_size in sorted(capture_sizes, reverse=True):
-                    if batch_size == 1:
-                        logger.info("Skip token_num = 1, when capture target model for mtp")
-                    else:
-                        assert batch_size % 2 == 0
-                        self._dummy_run(
-                            num_tokens=(
-                                self.scheduler_config.max_num_seqs
-                                * (self.speculative_config.num_speculative_tokens + 1)
-                                if self.scheduler_config.splitwise_role == "decode"
-                                else self.scheduler_config.max_num_batched_tokens
-                            ),
-                            batch_size=int(batch_size / 2),
-                            in_capturing=True,
-                            expected_decode_len=1,
-                        )
-                        logger.info(
-                            f"Warm up the Target model with the num_tokens:{batch_size}, expected_decode_len:{1}"
-                        )
+                for capture_size in sorted(capture_sizes, reverse=True):
+                    self._dummy_run(
+                        num_tokens=(
+                            self.scheduler_config.max_num_seqs * (self.speculative_config.num_speculative_tokens + 1)
+                            if self.scheduler_config.splitwise_role == "decode"
+                            else self.scheduler_config.max_num_batched_tokens
+                        ),
+                        batch_size=int(capture_size / (self.speculative_config.num_speculative_tokens + 1)),
+                        in_capturing=True,
+                        expected_decode_len=self.speculative_config.num_speculative_tokens,
+                        accept_all_drafts=True,
+                    )
+                    logger.info(
+                        f"Warm up the Target model with the num_tokens:{capture_size}, expected_decode_len:{self.speculative_config.num_speculative_tokens}"
+                    )
                 if self.graph_opt_config.draft_model_use_cudagraph:
                     # Capture Draft Model without bsz 1
                     # NOTE(liujundong): expected_decode_len = 1, will affect mtp capture in cudagraph

From 9ff99d2b0392bc3d024b89285c2803e25177eddf Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Tue, 23 Dec 2025 17:51:35 +0800
Subject: [PATCH 045/161] [BugFix] fix double shutdown of comm group when rank0
 clears weights slower than other ranks (#5710)

---
 fastdeploy/rl/dynamic_weight_manager.py | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/fastdeploy/rl/dynamic_weight_manager.py b/fastdeploy/rl/dynamic_weight_manager.py
index bee87de3be1..cbee0f99020 100644
--- a/fastdeploy/rl/dynamic_weight_manager.py
+++ b/fastdeploy/rl/dynamic_weight_manager.py
@@ -281,10 +281,14 @@ def check_model_weights_status(model_weights_status, model_runner, pid, block):
                 logger.info("infer engine stopped! start to load new checkpoint...")
                 model_runner.clear_requests()
                 model_runner.update_parameters(pid)
+                while model_weights_status.value[0] != ModelWeightsStatus.NORMAL:
+                    time.sleep(0.01)
                 logger.info("finished loading new checkpoint")
             elif model_weights_status.value[0] == ModelWeightsStatus.CLEARING:
                 logger.info("infer engine stopped! start to clear checkpoint...")
                 model_runner.clear_requests()
                 model_runner.clear_parameters(pid)
+                while model_weights_status.value[0] != ModelWeightsStatus.CLEARED:
+                    time.sleep(0.01)
                 logger.info("finished clearing checkpoint")
             time.sleep(0.01)

From f50988d91796edacb962444ce52c14caaf6bf5cf Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Wed, 24 Dec 2025 12:14:34 +0800
Subject: [PATCH 046/161] [Cherry-Pick][CI] Revert adapt vl_model baseline
 changes due to Paddle update(#5732) (#5733)

* [Cherry-Pick][CI] Revert adapt vl_model baseline changes due to Paddle update(#5732)

---------

Co-authored-by: yubaoku <yubaoku@baidu.com>
---
 tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py | 4 ++--
 tests/e2e/test_EB_VL_Lite_serving.py               | 4 ++--
 tests/e2e/test_Qwen2_5_VL_serving.py               | 2 +-
 3 files changed, 5 insertions(+), 5 deletions(-)

diff --git a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
index e4f2e2c9923..e51018f201e 100644
--- a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
+++ b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
@@ -205,9 +205,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev-1215")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-dev-1215"
+        base_file = "ernie-4_5-vl-base-tp2-dev"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/e2e/test_EB_VL_Lite_serving.py b/tests/e2e/test_EB_VL_Lite_serving.py
index 9d4bba731c5..f93f355a754 100644
--- a/tests/e2e/test_EB_VL_Lite_serving.py
+++ b/tests/e2e/test_EB_VL_Lite_serving.py
@@ -204,9 +204,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev-1215")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-dev-1215"
+        base_file = "ernie-4_5-vl-base-tp2-dev"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/e2e/test_Qwen2_5_VL_serving.py b/tests/e2e/test_Qwen2_5_VL_serving.py
index 55394482a9e..f175e24b68f 100644
--- a/tests/e2e/test_Qwen2_5_VL_serving.py
+++ b/tests/e2e/test_Qwen2_5_VL_serving.py
@@ -180,7 +180,7 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     f_o.close()
 
     # base result
-    content2 = "这张图片展示了一群人在进行手工艺活动。前景中有两个孩子和一个成年人，他们似乎在制作或展示一件艺术品。成年人手里拿着一个扇子，上面有各种颜色的颜料混合在一起，看起来像是通过某种方式创作的艺术品。孩子们也参与其中，一个孩子正在仔细观察，另一个孩子则在旁边观看。\n\n背景中还有其他人在进行类似的活动，环境看起来像是在一个室内空间，可能是教室或工作室。整体氛围显得非常温馨和愉快，大家似乎都在享受这个创作过程。"
+    content2 = "这张图片展示了一群人在进行手工艺活动。前景中有两个孩子和一个成年人，他们似乎在制作或展示某种手工艺品。成年人手里拿着一个扇子，上面有彩色的图案，可能是通过某种方式绘制或涂鸦而成。孩子们看起来很专注，可能是在观察或参与这个过程。\n\n背景中还有其他几个人，其中一个人穿着粉色的衣服，背对着镜头。整个场景看起来像是在一个室内环境中，光线充足，氛围轻松愉快。"
 
     # Verify that result is same as the base result
     assert content1 == content2

From e51af01a65ea28d03cba00ffba8e3a620dbabe41 Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Wed, 24 Dec 2025 15:42:43 +0800
Subject: [PATCH 047/161] [Cherry-Pick][Feature] Entropy calculation support
 #5692 (#5731)

* support entropy

* add script

---------

Co-authored-by: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
---
 fastdeploy/config.py                          |   1 +
 fastdeploy/engine/args_utils.py               |  11 +
 fastdeploy/engine/engine.py                   |   1 +
 fastdeploy/model_executor/entropy_utils.py    |  99 ++++++++
 .../model_executor/layers/sample/sampler.py   |   2 +
 .../model_executor/pre_and_post_process.py    |  22 ++
 fastdeploy/worker/gpu_model_runner.py         |  13 ++
 fastdeploy/worker/output.py                   |   1 +
 fastdeploy/worker/worker_process.py           |   6 +
 scripts/calculate_avg_entropy.py              |  57 +++++
 tests/model_executor/test_entropy_utils.py    | 212 ++++++++++++++++++
 11 files changed, 425 insertions(+)
 create mode 100644 fastdeploy/model_executor/entropy_utils.py
 create mode 100644 scripts/calculate_avg_entropy.py
 create mode 100644 tests/model_executor/test_entropy_utils.py

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index 64d548a0acd..9164b09dbce 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -200,6 +200,7 @@ def __init__(
         self.revision = None
         self.prefix_layer_name = "layers"
         self.kv_cache_quant_scale_path = ""
+        self.enable_entropy = False
 
         self.partial_rotary_factor: float = 1.0
         self.num_nextn_predict_layers = 0
diff --git a/fastdeploy/engine/args_utils.py b/fastdeploy/engine/args_utils.py
index edfb6fdb174..3456da4c845 100644
--- a/fastdeploy/engine/args_utils.py
+++ b/fastdeploy/engine/args_utils.py
@@ -502,6 +502,11 @@ class EngineArgs:
     Flag to rollout routing replay(r3)
     """
 
+    enable_entropy: bool = False
+    """
+    Flag to enable entropy output. Default is False (disabled).
+    """
+
     def __post_init__(self):
         """
         Post-initialization processing to set default tokenizer if not provided.
@@ -809,6 +814,12 @@ def add_cli_args(parser: FlexibleArgumentParser) -> FlexibleArgumentParser:
             default=EngineArgs.logits_processors,
             help="FQCNs (Fully Qualified Class Names) of logits processors supported by the service.",
         )
+        model_group.add_argument(
+            "--enable-entropy",
+            action="store_true",
+            default=EngineArgs.enable_entropy,
+            help="Enable output of token-level entropy.",
+        )
 
         # Parallel processing parameters group
         parallel_group = parser.add_argument_group("Parallel Configuration")
diff --git a/fastdeploy/engine/engine.py b/fastdeploy/engine/engine.py
index 3762fe5afcd..37ced3a77c7 100644
--- a/fastdeploy/engine/engine.py
+++ b/fastdeploy/engine/engine.py
@@ -584,6 +584,7 @@ def _start_worker_service(self):
             "enable_logprob": self.cfg.model_config.enable_logprob,
             "lm_head_fp32": self.cfg.model_config.lm_head_fp32,
             "shutdown_comm_group_if_worker_idle": self.cfg.parallel_config.shutdown_comm_group_if_worker_idle,
+            "enable_entropy": self.cfg.model_config.enable_entropy,
         }
         for worker_flag, value in worker_store_true_flag.items():
             if value:
diff --git a/fastdeploy/model_executor/entropy_utils.py b/fastdeploy/model_executor/entropy_utils.py
new file mode 100644
index 00000000000..c9fc431b441
--- /dev/null
+++ b/fastdeploy/model_executor/entropy_utils.py
@@ -0,0 +1,99 @@
+"""
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+
+import paddle
+
+from fastdeploy.utils import data_processor_logger
+
+
+def calculate_logits_entropy(logits, share_inputs, temperature):
+    real_bsz = share_inputs["seq_lens_this_time"].shape[0]
+    real_seq_lens = paddle.where(
+        share_inputs["seq_lens_encoder"][:real_bsz].squeeze(1) != 0,
+        paddle.ones([1], dtype="int32"),
+        share_inputs["seq_lens_this_time"].squeeze(1),
+    )
+
+    def get_entropy(logits):
+        a0 = logits - paddle.max(logits, axis=-1, keepdim=True)
+        ea0 = paddle.exp(a0)
+        z0 = paddle.sum(ea0, axis=-1, keepdim=True)
+        p0 = ea0 / z0
+        return paddle.sum(p0 * (paddle.log(z0) - a0), axis=-1)
+
+    batch_indices = paddle.arange(real_bsz, dtype="int32")
+    batch_id_per_token = paddle.repeat_interleave(batch_indices, real_seq_lens)
+    for i in range(logits.shape[0]):
+        if temperature[batch_id_per_token[i]] > 0 and temperature[batch_id_per_token[i]] != 1.0:
+            logits[i] = logits[i].scale_(1 / temperature[batch_id_per_token[i]])
+
+    entropy_tensor = get_entropy(logits)
+    entropy = entropy_tensor.tolist()
+
+    for i in range(real_bsz):
+        for _ in range(real_seq_lens[i]):
+            share_inputs["entropy_list"][i].append(entropy.pop(0))
+        if share_inputs["stop_flags"][i] and len(share_inputs["entropy_list"][i]) != 0:
+            data_processor_logger.info(
+                f"req_id: {share_inputs['req_ids'][i]}, entropy: {sum(share_inputs['entropy_list'][i])/len(share_inputs['entropy_list'][i])}"
+            )
+            share_inputs["entropy_list"][i] = []
+
+
+def speculate_calculate_logits_entropy(logits, share_inputs, temperature):
+    # get accepted logits
+    real_bsz = share_inputs["seq_lens_this_time"].shape[0]
+    total_accepted_num = paddle.sum(share_inputs["accept_num"])
+    real_seq_lens = paddle.where(
+        share_inputs["seq_lens_encoder"][:real_bsz].squeeze(1) != 0,
+        paddle.ones([1], dtype="int32"),
+        share_inputs["seq_lens_this_time"].squeeze(1),
+    )
+    seq_start_idx = paddle.concat([paddle.zeros([1], dtype="int32"), paddle.cumsum(real_seq_lens, dtype="int32")])
+    repeated_starts = paddle.repeat_interleave(seq_start_idx[:-1], share_inputs["accept_num"][:real_bsz])
+    offsets = paddle.concat([paddle.arange(share_inputs["accept_num"][i].item()) for i in range(real_bsz)]).astype(
+        "int32"
+    )
+    accepted_idx = repeated_starts + offsets
+
+    accepted_logits = paddle.empty([total_accepted_num, logits.shape[1]], dtype=logits.dtype)
+    for i in range(total_accepted_num):
+        accepted_logits[i] = logits[accepted_idx[i]]
+
+    def get_entropy(logits):
+        a0 = logits - paddle.max(logits, axis=-1, keepdim=True)
+        ea0 = paddle.exp(a0)
+        z0 = paddle.sum(ea0, axis=-1, keepdim=True)
+        p0 = ea0 / z0
+        return paddle.sum(p0 * (paddle.log(z0) - a0), axis=-1)
+
+    batch_indices = paddle.arange(share_inputs["accept_num"].shape[0], dtype="int32")
+    batch_id_per_token = paddle.repeat_interleave(batch_indices, share_inputs["accept_num"])
+    for i in range(accepted_logits.shape[0]):
+        if temperature[batch_id_per_token[i]] > 0 and temperature[batch_id_per_token[i]] != 1.0:
+            accepted_logits[i] = accepted_logits[i].scale_(1 / temperature[batch_id_per_token[i]])
+
+    entropy_tensor = get_entropy(accepted_logits)
+    entropy = entropy_tensor.tolist()
+
+    for i in range(real_bsz):
+        for _ in range(share_inputs["accept_num"][i]):
+            share_inputs["entropy_list"][i].append(entropy.pop(0))
+        if share_inputs["stop_flags"][i] and len(share_inputs["entropy_list"][i]) != 0:
+            data_processor_logger.info(
+                f"req_id: {share_inputs['req_ids'][i]}, entropy: {sum(share_inputs['entropy_list'][i])/len(share_inputs['entropy_list'][i])}"
+            )
+            share_inputs["entropy_list"][i] = []
diff --git a/fastdeploy/model_executor/layers/sample/sampler.py b/fastdeploy/model_executor/layers/sample/sampler.py
index 28687ea53ce..a9d14ce9949 100644
--- a/fastdeploy/model_executor/layers/sample/sampler.py
+++ b/fastdeploy/model_executor/layers/sample/sampler.py
@@ -546,6 +546,7 @@ def forward_cuda(
             # token per request.
             sampled_token_ids=next_tokens,
             logprobs_tensors=logprobs_tensors,
+            logits=logits,
         )
 
         return sampler_output
@@ -845,6 +846,7 @@ def forward_cuda(
             logprobs_tensors=logprobs_tensors,
             token_num_per_batch=share_inputs["accept_num"],
             cu_batch_token_offset=share_inputs["cu_batch_token_offset"],
+            logits=logits,
         )
 
         return sampler_output
diff --git a/fastdeploy/model_executor/pre_and_post_process.py b/fastdeploy/model_executor/pre_and_post_process.py
index b5d065ec647..af86c44878d 100644
--- a/fastdeploy/model_executor/pre_and_post_process.py
+++ b/fastdeploy/model_executor/pre_and_post_process.py
@@ -92,6 +92,11 @@
         speculate_limit_thinking_content_length_v2,
     )
 
+from fastdeploy.model_executor.entropy_utils import (
+    calculate_logits_entropy,
+    speculate_calculate_logits_entropy,
+)
+from fastdeploy.model_executor.layers.sample.meta_data import SamplingMetadata
 from fastdeploy.output.pooler import PoolerOutput, PoolingSequenceGroupOutput
 from fastdeploy.output.stream_transfer_data import DecoderState, StreamTransferData
 from fastdeploy.worker.output import LogprobsTensors, ModelOutputData, SamplerOutput
@@ -313,12 +318,14 @@ def post_process_normal(
     sampler_output: SamplerOutput,
     model_output: ModelOutputData,
     share_inputs: Dict[str, paddle.Tensor],
+    sampling_metadata: SamplingMetadata,
     block_size: int = 64,
     save_each_rank: bool = False,
     skip_save_output: bool = False,
     async_output_queue: queue.Queue = None,
     think_end_id: int = -1,
     line_break_id: int = -1,
+    enable_entropy: bool = False,
 ):
     """Post-processing steps after completing a single token generation."""
     if think_end_id > 0:
@@ -384,6 +391,9 @@ def post_process_normal(
             False,
         )
 
+    if enable_entropy:
+        calculate_logits_entropy(sampler_output.logits, share_inputs, sampling_metadata.temperature)
+
     # 2. Update the input buffer of the model
     with paddle.framework._no_check_dy2st_diff():
         if envs.ENABLE_V1_KVCACHE_SCHEDULER:
@@ -449,10 +459,12 @@ def post_process_specualate(
     sampler_output: SamplerOutput,
     model_output: ModelOutputData,
     share_inputs: Dict[str, paddle.Tensor],
+    sampling_metadata: SamplingMetadata,
     save_each_rank: bool = False,
     skip_save_output: bool = False,
     think_end_id: int = -1,
     line_break_id: int = -1,
+    enable_entropy: bool = False,
 ):
     if think_end_id > 0:
         speculate_limit_thinking_content_length(
@@ -476,6 +488,10 @@ def post_process_specualate(
         model_output.stop_seqs_len,
         model_output.eos_token_id,
     )
+
+    if enable_entropy:
+        speculate_calculate_logits_entropy(sampler_output.logits, share_inputs, sampling_metadata.temperature)
+
     speculate_update(
         model_output.seq_lens_encoder,
         model_output.seq_lens_decoder,
@@ -537,6 +553,7 @@ def post_process(
     sampler_or_pooler_output: Union[SamplerOutput, PoolerOutput],
     model_output: ModelOutputData,
     share_inputs: Dict[str, paddle.Tensor],
+    sampling_metadata: SamplingMetadata = None,
     block_size: int = 64,
     save_each_rank: bool = False,
     speculative_decoding: bool = False,
@@ -544,6 +561,7 @@ def post_process(
     async_output_queue: queue.Queue = None,
     think_end_id: int = -1,
     line_break_id: int = -1,
+    enable_entropy: bool = False,
 ) -> None:
     """Post-processing steps after completing a single token generation."""
 
@@ -563,22 +581,26 @@ def post_process(
                 sampler_or_pooler_output,
                 model_output,
                 share_inputs,
+                sampling_metadata,
                 save_each_rank,
                 skip_save_output,
                 think_end_id,
                 line_break_id,
+                enable_entropy,
             )
         else:
             post_process_normal(
                 sampler_or_pooler_output,
                 model_output,
                 share_inputs,
+                sampling_metadata,
                 block_size,
                 save_each_rank,
                 skip_save_output,
                 async_output_queue,
                 think_end_id,
                 line_break_id,
+                enable_entropy,
             )
 
 
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 29a2c0e71a9..a33594d826b 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -236,6 +236,8 @@ def __init__(
             )
             self.async_output_copy_thread.start()
 
+        self.enable_entropy = self.model_config.enable_entropy
+
     def _async_output_busy_loop(self):
         """Entrypoint for the thread which handles outputs asynchronously."""
         while True:
@@ -596,6 +598,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
         for i in range(req_len):
             request = req_dicts[i]
             idx = request.idx
+            self.share_inputs["req_ids"][idx] = str(request.request_id)
 
             if hasattr(request, "pooling_params") and request.pooling_params is not None:
                 batch_pooling_params.append(request.pooling_params)
@@ -1265,6 +1268,9 @@ def _init_share_inputs(self, max_num_seqs: int):
             -1,
             dtype="int64",
         )
+        self.share_inputs["req_ids"] = [""] * max_num_seqs
+        self.share_inputs["entropy_list"] = [[] for _ in range(max_num_seqs)]
+
         if self.speculative_decoding:
             max_draft_token_num = self.speculative_config.num_speculative_tokens
             self.share_inputs["input_ids_cpu"] = paddle.full(
@@ -1781,6 +1787,7 @@ def _dummy_pooler_run(
             sampler_or_pooler_output=pooler_output,
             model_output=model_output_data,
             share_inputs=self.share_inputs,
+            sampling_metadata=self.sampling_metadata,
             block_size=self.cache_config.block_size,
             speculative_decoding=self.speculative_decoding,
             skip_save_output=True,
@@ -1882,12 +1889,14 @@ def _dummy_sampler_run(
             sampler_or_pooler_output=sampler_output,
             model_output=model_output_data,
             share_inputs=self.share_inputs,
+            sampling_metadata=self.sampling_metadata,
             block_size=self.cache_config.block_size,
             speculative_decoding=self.speculative_decoding,
             skip_save_output=True,
             async_output_queue=self.async_output_queue,
             think_end_id=self.model_config.think_end_id,
             line_break_id=self.model_config.line_break_id,
+            enable_entropy=self.enable_entropy,
         )
         if self.speculative_decoding:
             if self.speculative_method == "mtp":
@@ -2323,11 +2332,13 @@ class at the server level, which is too granular for ModelRunner.
                 sampler_or_pooler_output=pooler_output,
                 model_output=model_output_data,
                 share_inputs=self.share_inputs,
+                sampling_metadata=self.sampling_metadata,
                 block_size=self.cache_config.block_size,
                 save_each_rank=self.parallel_config.use_ep,
                 speculative_decoding=self.speculative_decoding,
                 skip_save_output=False,
                 async_output_queue=self.async_output_queue,
+                enable_entropy=self.enable_entropy,
             )
 
             return None
@@ -2448,6 +2459,7 @@ class at the server level, which is too granular for ModelRunner.
                 sampler_or_pooler_output=sampler_output,
                 model_output=model_output_data,
                 share_inputs=self.share_inputs,
+                sampling_metadata=self.sampling_metadata,
                 block_size=self.cache_config.block_size,
                 save_each_rank=self.parallel_config.use_ep,
                 speculative_decoding=self.speculative_decoding,
@@ -2455,6 +2467,7 @@ class at the server level, which is too granular for ModelRunner.
                 async_output_queue=self.async_output_queue,
                 think_end_id=self.model_config.think_end_id,
                 line_break_id=self.model_config.line_break_id,
+                enable_entropy=self.enable_entropy,
             )
             if self.guided_backend is not None and sampler_output is not None:
                 self.sampler.post_process(sampler_output.sampled_token_ids)
diff --git a/fastdeploy/worker/output.py b/fastdeploy/worker/output.py
index 3b10962440d..c3a92c06a2c 100644
--- a/fastdeploy/worker/output.py
+++ b/fastdeploy/worker/output.py
@@ -172,6 +172,7 @@ class SamplerOutput:
     logprobs_tensors: Optional[LogprobsTensors]
     token_num_per_batch: Optional[paddle.Tensor] = None
     cu_batch_token_offset: Optional[paddle.Tensor] = None
+    logits: Optional[paddle.Tensor] = None
 
 
 @dataclass
diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index c9d64d06f98..ecbbea74fd4 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -900,6 +900,12 @@ def parse_args():
         help="Shutdown comm group if worker idle.",
     )
 
+    parser.add_argument(
+        "--enable_entropy",
+        action="store_true",
+        help="Enable output of token-level entropy.",
+    )
+
     args = parser.parse_args()
     return args
 
diff --git a/scripts/calculate_avg_entropy.py b/scripts/calculate_avg_entropy.py
new file mode 100644
index 00000000000..f24c976cd57
--- /dev/null
+++ b/scripts/calculate_avg_entropy.py
@@ -0,0 +1,57 @@
+import argparse
+import os
+import re
+from typing import List, Optional
+
+
+def extract_entropy_values(log_path: str) -> List[float]:
+    pattern = r"entropy:\s*([0-9]+\.?[0-9]*(?:[eE][+-]?[0-9]+)?)"
+
+    entropy_values = []
+    with open(log_path, "r") as f:
+        lines = f.readlines()
+        for line in lines:
+            match = re.search(pattern, line)
+            if match:
+                try:
+                    entropy_value = float(match.group(1))
+                    entropy_values.append(entropy_value)
+                except ValueError:
+                    continue
+
+    return entropy_values
+
+
+def calculate_average(entropy_values: List[float], drop_ratio: float = 0.1) -> Optional[float]:
+    if not entropy_values:
+        return None
+    sorted_vals = sorted(entropy_values)
+    n = len(sorted_vals)
+    drop_count = int(n * drop_ratio)
+    filtered_vals = sorted_vals[drop_count : n - drop_count] if drop_count > 0 else sorted_vals
+    if not filtered_vals:
+        return None, []
+    avg = sum(filtered_vals) / len(filtered_vals)
+    return avg, filtered_vals
+
+
+def main():
+    parser = argparse.ArgumentParser()
+    parser.add_argument("--log-dir", type=str, required=True)
+    parser.add_argument("--drop-ratio", "-d", type=float, default=0.1)
+    parser.add_argument("--verbose", "-v", action="store_true")
+    args = parser.parse_args()
+    entropy_values = extract_entropy_values(os.path.join(args.log_dir, "data_processor.log"))
+    average_entropy, filtered_vals = calculate_average(entropy_values, args.drop_ratio)
+
+    print(f"{len(entropy_values)} entropy values were found")
+    print(f"effective entropy values: {len(filtered_vals)} (drop ratio {args.drop_ratio})")
+    print(f"Average entropy: {average_entropy:.10f}")
+    if args.verbose:
+        print("\nentropy details:")
+        for i, value in enumerate(filtered_vals, 1):
+            print(f"  {i}. {value}")
+
+
+if __name__ == "__main__":
+    main()
diff --git a/tests/model_executor/test_entropy_utils.py b/tests/model_executor/test_entropy_utils.py
new file mode 100644
index 00000000000..1135a77f5ae
--- /dev/null
+++ b/tests/model_executor/test_entropy_utils.py
@@ -0,0 +1,212 @@
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+import unittest
+
+import paddle
+
+from fastdeploy.model_executor.entropy_utils import (
+    calculate_logits_entropy,
+    speculate_calculate_logits_entropy,
+)
+
+
+class TestCalculateLogitsEntropy(unittest.TestCase):
+
+    def test_basic_functionality(self):
+        share_inputs = {
+            "seq_lens_this_time": paddle.to_tensor([[1], [0], [15]], dtype="int32"),
+            "seq_lens_encoder": paddle.to_tensor([[0], [0], [15]], dtype="int32"),
+            "entropy_list": [[], [], []],
+            "stop_flags": paddle.to_tensor([[False], [True], [False]], dtype="bool"),
+            "req_ids": ["req_1", "req_2", "req_3"],
+        }
+
+        logits = paddle.to_tensor(
+            [
+                [10.0, 1.0, 1.0],
+                [1.0, 1.0, 10.0],
+            ],
+            dtype="float32",
+        )
+        temperature = paddle.ones([3], dtype="float32")
+
+        calculate_logits_entropy(logits, share_inputs, temperature)
+
+        self.assertEqual(len(share_inputs["entropy_list"][0]), 1)
+        self.assertEqual(len(share_inputs["entropy_list"][1]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][2]), 1)
+
+        self.assertAlmostEqual(share_inputs["entropy_list"][0][0], 0.0024676250759512186, places=6)
+        self.assertAlmostEqual(share_inputs["entropy_list"][2][0], 0.0024676250759512186, places=6)
+
+    def test_temperature_effect(self):
+        share_inputs = {
+            "seq_lens_this_time": paddle.to_tensor([[1], [0], [15]], dtype="int32"),
+            "seq_lens_encoder": paddle.to_tensor([[0], [0], [15]], dtype="int32"),
+            "entropy_list": [[], [], []],
+            "stop_flags": paddle.to_tensor([[False], [True], [False]], dtype="bool"),
+            "req_ids": ["req_1", "req_2", "req_3"],
+        }
+
+        logits = paddle.to_tensor(
+            [
+                [10.0, 1.0, 1.0],
+                [1.0, 1.0, 10.0],
+            ],
+            dtype="float32",
+        )
+        temperature = paddle.to_tensor([[0.8], [1.0], [0.8]], dtype="float32")
+
+        calculate_logits_entropy(logits, share_inputs, temperature)
+
+        self.assertEqual(len(share_inputs["entropy_list"][0]), 1)
+        self.assertEqual(len(share_inputs["entropy_list"][1]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][2]), 1)
+
+        self.assertAlmostEqual(share_inputs["entropy_list"][0][0], 0.0003187173861078918, places=6)
+        self.assertAlmostEqual(share_inputs["entropy_list"][2][0], 0.0003187173861078918, places=6)
+
+    def test_entropy_list_clear(self):
+        share_inputs = {
+            "seq_lens_this_time": paddle.to_tensor([[1], [0], [15]], dtype="int32"),
+            "seq_lens_encoder": paddle.to_tensor([[0], [0], [15]], dtype="int32"),
+            "entropy_list": [[], [], []],
+            "stop_flags": paddle.to_tensor([[True], [True], [False]], dtype="bool"),
+            "req_ids": ["req_1", "req_2", "req_3"],
+        }
+
+        logits = paddle.to_tensor(
+            [
+                [10.0, 1.0, 1.0],
+                [1.0, 1.0, 10.0],
+            ],
+            dtype="float32",
+        )
+        temperature = paddle.to_tensor([[0.8], [1.0], [0.8]], dtype="float32")
+
+        calculate_logits_entropy(logits, share_inputs, temperature)
+
+        self.assertEqual(len(share_inputs["entropy_list"][0]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][1]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][2]), 1)
+
+        self.assertAlmostEqual(share_inputs["entropy_list"][2][0], 0.0003187173861078918, places=6)
+
+
+class TestSpeculateCalculateLogitsEntropy(unittest.TestCase):
+
+    def test_basic_functionality(self):
+        share_inputs = {
+            "seq_lens_this_time": paddle.to_tensor([[2], [2], [0], [15]], dtype="int32"),
+            "seq_lens_encoder": paddle.to_tensor([[0], [0], [0], [15]], dtype="int32"),
+            "entropy_list": [[], [], [], []],
+            "stop_flags": paddle.to_tensor([[False], [False], [True], [False]], dtype="bool"),
+            "req_ids": ["req_1", "req_2", "req_3", "req_4"],
+            "accept_num": paddle.to_tensor([2, 1, 0, 0], dtype="int32"),  # 推理接受数量
+        }
+
+        logits = paddle.to_tensor(
+            [
+                [10.0, 1.0, 1.0],
+                [1.0, 10.0, 1.0],
+                [1.0, 1.0, 10.0],
+                [1.0, 1.0, 10.0],
+            ],
+            dtype="float32",
+        )
+        temperature = paddle.ones([3], dtype="float32")
+
+        speculate_calculate_logits_entropy(logits, share_inputs, temperature)
+
+        print(share_inputs["entropy_list"])
+
+        self.assertEqual(len(share_inputs["entropy_list"][0]), 2)
+        self.assertEqual(len(share_inputs["entropy_list"][1]), 1)
+        self.assertEqual(len(share_inputs["entropy_list"][2]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][3]), 0)
+
+        self.assertAlmostEqual(share_inputs["entropy_list"][0][0], 0.0024676250759512186, places=6)
+        self.assertAlmostEqual(share_inputs["entropy_list"][0][1], 0.0024676250759512186, places=6)
+        self.assertAlmostEqual(share_inputs["entropy_list"][1][0], 0.0024676250759512186, places=6)
+
+    def test_temperature_effect(self):
+        share_inputs = {
+            "seq_lens_this_time": paddle.to_tensor([[2], [2], [0], [15]], dtype="int32"),
+            "seq_lens_encoder": paddle.to_tensor([[0], [0], [0], [15]], dtype="int32"),
+            "entropy_list": [[], [], [], []],
+            "stop_flags": paddle.to_tensor([[False], [False], [True], [False]], dtype="bool"),
+            "req_ids": ["req_1", "req_2", "req_3", "req_4"],
+            "accept_num": paddle.to_tensor([2, 1, 0, 0], dtype="int32"),  # 推理接受数量
+        }
+
+        logits = paddle.to_tensor(
+            [
+                [10.0, 1.0, 1.0],
+                [1.0, 10.0, 1.0],
+                [1.0, 1.0, 10.0],
+                [1.0, 1.0, 10.0],
+            ],
+            dtype="float32",
+        )
+        temperature = paddle.to_tensor([[0.8], [0.8], [0.8], [0.8]], dtype="float32")
+
+        speculate_calculate_logits_entropy(logits, share_inputs, temperature)
+
+        print(share_inputs["entropy_list"])
+
+        self.assertEqual(len(share_inputs["entropy_list"][0]), 2)
+        self.assertEqual(len(share_inputs["entropy_list"][1]), 1)
+        self.assertEqual(len(share_inputs["entropy_list"][2]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][3]), 0)
+
+        self.assertAlmostEqual(share_inputs["entropy_list"][0][0], 0.0003187173861078918, places=6)
+        self.assertAlmostEqual(share_inputs["entropy_list"][0][1], 0.0003187173861078918, places=6)
+        self.assertAlmostEqual(share_inputs["entropy_list"][1][0], 0.0003187173861078918, places=6)
+
+    def test_entropy_list_clear(self):
+        share_inputs = {
+            "seq_lens_this_time": paddle.to_tensor([[2], [2], [0], [15]], dtype="int32"),
+            "seq_lens_encoder": paddle.to_tensor([[0], [0], [0], [15]], dtype="int32"),
+            "entropy_list": [[], [], [], []],
+            "stop_flags": paddle.to_tensor([[True], [False], [True], [False]], dtype="bool"),
+            "req_ids": ["req_1", "req_2", "req_3", "req_4"],
+            "accept_num": paddle.to_tensor([2, 1, 0, 0], dtype="int32"),  # 推理接受数量
+        }
+
+        logits = paddle.to_tensor(
+            [
+                [10.0, 1.0, 1.0],
+                [1.0, 10.0, 1.0],
+                [1.0, 1.0, 10.0],
+                [1.0, 1.0, 10.0],
+            ],
+            dtype="float32",
+        )
+        temperature = paddle.ones([3], dtype="float32")
+
+        speculate_calculate_logits_entropy(logits, share_inputs, temperature)
+
+        print(share_inputs["entropy_list"])
+
+        self.assertEqual(len(share_inputs["entropy_list"][0]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][1]), 1)
+        self.assertEqual(len(share_inputs["entropy_list"][2]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][3]), 0)
+
+        self.assertAlmostEqual(share_inputs["entropy_list"][1][0], 0.0024676250759512186, places=6)
+
+
+if __name__ == "__main__":
+    unittest.main()

From e293c8c4d303da691cd3a524fa6f0cb61096c59b Mon Sep 17 00:00:00 2001
From: chen <103103266+ckl117@users.noreply.github.com>
Date: Wed, 24 Dec 2025 19:32:03 +0800
Subject: [PATCH 048/161] check (#5736) (#5747)

---
 custom_ops/gpu_ops/update_inputs_v1.cu | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/custom_ops/gpu_ops/update_inputs_v1.cu b/custom_ops/gpu_ops/update_inputs_v1.cu
index 64230ae2565..7dd786dabfb 100644
--- a/custom_ops/gpu_ops/update_inputs_v1.cu
+++ b/custom_ops/gpu_ops/update_inputs_v1.cu
@@ -50,6 +50,11 @@ __global__ void update_inputs_kernel_v1(bool* not_need_stop,
   }
   if (thread_idx < bsz) {
     if (stop_flag_now) {
+      // chuned when max_tokens=1
+      if (seq_lens_this_time[thread_idx] + seq_lens_decoder[thread_idx] <
+          prompt_lens[thread_idx]) {
+        topk_ids[thread_idx] = -1;
+      }
       seq_lens_this_time[thread_idx] = 0;  // stop at next step
       seq_lens_decoder[thread_idx] = 0;
       seq_lens_encoder[thread_idx] = 0;

From 70163ddb6b5630d38fa49d50c0d933c07a1a3eba Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Wed, 24 Dec 2025 21:15:35 +0800
Subject: [PATCH 049/161] [Cherry-Pick][CI] Refactor RL tests to reuse
 upload_clear(#5741) (#5755)

* [Cherry-Pick][CI] Refactor RL tests to reuse upload_clear(#5741)
---
 .github/workflows/ci_image_update.yml         | 11 ++-
 .github/workflows/pr_build_and_test.yml       | 10 +++
 tests/ce/stable_cases/launch_model.sh         |  9 +--
 tests/ce/stable_cases/run.sh                  | 78 +++++++++++++++----
 .../{_test_metrics.py => test_metrics.py}     |  2 -
 5 files changed, 87 insertions(+), 23 deletions(-)
 rename tests/ci_use/metrics/{_test_metrics.py => test_metrics.py} (99%)

diff --git a/.github/workflows/ci_image_update.yml b/.github/workflows/ci_image_update.yml
index 7e6544e6364..a214d44b0ec 100644
--- a/.github/workflows/ci_image_update.yml
+++ b/.github/workflows/ci_image_update.yml
@@ -137,10 +137,19 @@ jobs:
       FASTDEPLOY_WHEEL_URL: ${{ needs.build_sm8090.outputs.wheel_path }}
       MODEL_CACHE_DIR: "/ssd2/actions-runner/ModelData"
 
+  stable_test:
+    name: Run Stable Tests
+    needs: [clone,build]
+    uses: ./.github/workflows/_stable_test.yml
+    with:
+      DOCKER_IMAGE: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleqa:fastdeploy-ciuse-cuda126-dailyupdate
+      FASTDEPLOY_ARCHIVE_URL: ${{ needs.clone.outputs.repo_archive_url }}
+      FASTDEPLOY_WHEEL_URL: ${{ needs.build.outputs.wheel_path }}
+      MODEL_CACHE_DIR: "/ssd2/actions-runner/ModelData"
 
   publish_pre_check:
     name: Publish Docker Images Pre Check
-    needs: [ci_image_build, unittest_coverage,logprob_test,pre_ce_test,base_test]
+    needs: [ci_image_build,unittest_coverage,logprob_test,pre_ce_test,base_test,stable_test]
     runs-on: [self-hosted, Docker-Build]
     steps:
       - name: Images Uploading
diff --git a/.github/workflows/pr_build_and_test.yml b/.github/workflows/pr_build_and_test.yml
index 5abd24966d8..da1630e07cf 100644
--- a/.github/workflows/pr_build_and_test.yml
+++ b/.github/workflows/pr_build_and_test.yml
@@ -75,3 +75,13 @@ jobs:
       FASTDEPLOY_ARCHIVE_URL: ${{ needs.clone.outputs.repo_archive_url }}
       FASTDEPLOY_WHEEL_URL: ${{ needs.build.outputs.wheel_path }}
       MODEL_CACHE_DIR: "/ssd2/actions-runner/ModelData"
+
+  stable_test:
+    name: Run Stable Tests
+    needs: [clone,build]
+    uses: ./.github/workflows/_stable_test.yml
+    with:
+      DOCKER_IMAGE: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleqa:fastdeploy-ciuse-cuda126-dailyupdate
+      FASTDEPLOY_ARCHIVE_URL: ${{ needs.clone.outputs.repo_archive_url }}
+      FASTDEPLOY_WHEEL_URL: ${{ needs.build.outputs.wheel_path }}
+      MODEL_CACHE_DIR: "/ssd2/actions-runner/ModelData"
diff --git a/tests/ce/stable_cases/launch_model.sh b/tests/ce/stable_cases/launch_model.sh
index 3b758a15a2a..570b37d6569 100644
--- a/tests/ce/stable_cases/launch_model.sh
+++ b/tests/ce/stable_cases/launch_model.sh
@@ -1,9 +1,9 @@
 #!/bin/bash
 MODEL_PATH="${1}/TP2"
-FD_API_PORT=${FD_API_PORT:-8000}
-FD_ENGINE_QUEUE_PORT=${FD_ENGINE_QUEUE_PORT:-8001}
-FD_METRICS_PORT=${FD_METRICS_PORT:-8002}
-FD_CACHE_QUEUE_PORT=${FD_CACHE_QUEUE_PORT:-8003}
+FD_API_PORT=${FD_API_PORT:-8180}
+FD_ENGINE_QUEUE_PORT=${FD_ENGINE_QUEUE_PORT:-8181}
+FD_METRICS_PORT=${FD_METRICS_PORT:-8182}
+FD_CACHE_QUEUE_PORT=${FD_CACHE_QUEUE_PORT:-8183}
 
 
@@ -36,7 +36,6 @@ python -m fastdeploy.entrypoints.openai.api_server \
        --engine-worker-queue-port ${FD_ENGINE_QUEUE_PORT} \
        --metrics-port ${FD_METRICS_PORT} \
        --cache-queue-port ${FD_CACHE_QUEUE_PORT} \
-       --quantization wint8 \
        --max-model-len 32768 \
        --max-num-seqs 1 \
        --gpu-memory-utilization 0.9 \
diff --git a/tests/ce/stable_cases/run.sh b/tests/ce/stable_cases/run.sh
index 81197253ba5..e2f4aef71ea 100644
--- a/tests/ce/stable_cases/run.sh
+++ b/tests/ce/stable_cases/run.sh
@@ -1,18 +1,18 @@
 #!/bin/bash
 
 # ================== Configuration Parameters ==================
-FD_API_PORT=${FD_API_PORT:-8000}
-FD_ENGINE_QUEUE_PORT=${FD_ENGINE_QUEUE_PORT:-8001}
-FD_METRICS_PORT=${FD_METRICS_PORT:-8002}
-FD_CACHE_QUEUE_PORT=${FD_CACHE_QUEUE_PORT:-8003}
+FD_API_PORT=${FD_API_PORT:-8180}
+FD_ENGINE_QUEUE_PORT=${FD_ENGINE_QUEUE_PORT:-8181}
+FD_METRICS_PORT=${FD_METRICS_PORT:-8182}
+FD_CACHE_QUEUE_PORT=${FD_CACHE_QUEUE_PORT:-8183}
 
 
 HOST="0.0.0.0"
-PORT="${FD_API_PORT}"  # 这里需要配合启动脚本那个URL PORT
+PORT="${FD_API_PORT}"
 BASE_URL="http://$HOST:$PORT"
 
-TOTAL_ROUNDS=30
-CHAT_REQUESTS_PER_ROUND=1
+TOTAL_ROUNDS=6
+CHAT_REQUESTS_PER_ROUND=3
 export CUDA_VISIBLE_DEVICES=0,1
 MAX_MEMORY_MB=10240  # 10GB
 
@@ -79,24 +79,72 @@ check_gpu_memory() {
     local gpu_ids
     gpu_ids=($(get_visible_gpu_ids))
 
+    echo "========== GPU Memory Check =========="
+    echo "CUDA_VISIBLE_DEVICES = $CUDA_VISIBLE_DEVICES"
+    echo "MAX_MEMORY_MB = $MAX_MEMORY_MB"
+    echo "======================================"
+
     if [ ${#gpu_ids[@]} -eq 0 ]; then
         echo "Assertion failed: No valid GPU IDs in CUDA_VISIBLE_DEVICES='$CUDA_VISIBLE_DEVICES'" >&2
         exit 1
     fi
 
     for gpu_id in "${gpu_ids[@]}"; do
-        local memory_used
-        memory_used=$(nvidia-smi -i "$gpu_id" --query-gpu=memory.used --format=csv,noheader,nounits 2>/dev/null) || \
-            assert_success $? "Failed to query GPU $gpu_id memory usage"
-
-        if ! [[ "$memory_used" =~ ^[0-9]+ ]]; then
-            echo "Assertion failed: Invalid memory value for GPU $gpu_id: $memory_used" >&2
+        echo
+        echo "---- GPU $gpu_id ----"
+
+        # Query summary
+        local summary
+        summary=$(nvidia-smi -i "$gpu_id" \
+            --query-gpu=index,name,memory.total,memory.used,memory.free,utilization.gpu \
+            --format=csv,noheader,nounits) || {
+                echo "Failed to query GPU $gpu_id summary" >&2
+                exit 1
+            }
+
+        # Parse fields
+        IFS=',' read -r idx name mem_total mem_used mem_free util <<< "$summary"
+
+        echo "GPU $idx: $name"
+        echo "Total Memory : ${mem_total} MB"
+        echo "Used  Memory : ${mem_used} MB"
+        echo "Free  Memory : ${mem_free} MB"
+        echo "GPU Util     : ${util} %"
+
+        # --- Hard assertions ---
+        assert_true "$(( mem_used <= MAX_MEMORY_MB ))" \
+            "GPU $gpu_id memory.used ${mem_used} MB > MAX_MEMORY_MB ${MAX_MEMORY_MB} MB"
+
+        # --- Soft safety check: usage ratio ---
+        local used_ratio
+        used_ratio=$(( mem_used * 100 / mem_total ))
+
+        echo "Used Ratio   : ${used_ratio} %"
+
+        if [ "$used_ratio" -gt 90 ]; then
+            echo "Assertion failed: GPU $gpu_id memory usage > 90% (${used_ratio}%)" >&2
             exit 1
         fi
 
-        assert_true "$(( memory_used <= MAX_MEMORY_MB ))" \
-            "GPU $gpu_id memory $memory_used MB > $MAX_MEMORY_MB MB"
+        # --- Process-level attribution ---
+        echo "Processes on GPU $gpu_id:"
+        local proc_info
+        proc_info=$(nvidia-smi -i "$gpu_id" \
+            --query-compute-apps=pid,process_name,used_memory \
+            --format=csv,noheader,nounits)
+
+        if [ -z "$proc_info" ]; then
+            echo "  (No active compute processes)"
+        else
+            echo "$proc_info" | while IFS=',' read -r pid pname pmem; do
+                echo "  PID=$pid  NAME=$pname  MEM=${pmem}MB"
+            done
+        fi
+
+        echo "GPU $gpu_id memory check PASSED"
     done
+
+    echo "========== GPU Memory Check DONE =========="
 }
 
 # ====================================================
diff --git a/tests/ci_use/metrics/_test_metrics.py b/tests/ci_use/metrics/test_metrics.py
similarity index 99%
rename from tests/ci_use/metrics/_test_metrics.py
rename to tests/ci_use/metrics/test_metrics.py
index a3f2e14fa98..11c5001f3e0 100644
--- a/tests/ci_use/metrics/_test_metrics.py
+++ b/tests/ci_use/metrics/test_metrics.py
@@ -69,8 +69,6 @@ def setup_and_run_server():
         "32768",
         "--max-num-seqs",
         "1",
-        "--quantization",
-        "wint8",
         "--gpu-memory-utilization",
         "0.9",
         "--load-strategy",

From 6945f876340dd8d64a36caeacf0bcc2e2d8c3e05 Mon Sep 17 00:00:00 2001
From: chenjian <1435317881@qq.com>
Date: Wed, 24 Dec 2025 21:28:08 +0800
Subject: [PATCH 050/161] [Bug fix] Set enable_cache_output as false by default
 (#5752)

---
 fastdeploy/engine/args_utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/engine/args_utils.py b/fastdeploy/engine/args_utils.py
index 3456da4c845..75e84447761 100644
--- a/fastdeploy/engine/args_utils.py
+++ b/fastdeploy/engine/args_utils.py
@@ -238,7 +238,7 @@ class EngineArgs:
     """
     Flag to enable prefix caching.
     """
-    enable_output_caching: bool = True
+    enable_output_caching: bool = False
     """
     Flag to enable kv cache for output tokens, only valid in V1 scheduler.
     """

From 65e00c9dd29cf4370c8bba94eb00b2d94320007c Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Wed, 24 Dec 2025 21:31:46 +0800
Subject: [PATCH 051/161] [Cherry-Pick][CI] Fix ci_image_update error of no
 depends

---
 .github/workflows/ci_image_update.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/ci_image_update.yml b/.github/workflows/ci_image_update.yml
index a214d44b0ec..bc40f71ced0 100644
--- a/.github/workflows/ci_image_update.yml
+++ b/.github/workflows/ci_image_update.yml
@@ -139,7 +139,7 @@ jobs:
 
   stable_test:
     name: Run Stable Tests
-    needs: [clone,build]
+    needs: [clone,build_sm8090,ci_image_build]
     uses: ./.github/workflows/_stable_test.yml
     with:
       DOCKER_IMAGE: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleqa:fastdeploy-ciuse-cuda126-dailyupdate

From fc3bccc5b6c215e04d19935e826fddc1721a39ed Mon Sep 17 00:00:00 2001
From: bukejiyu <52310069+bukejiyu@users.noreply.github.com>
Date: Wed, 24 Dec 2025 22:28:50 +0800
Subject: [PATCH 052/161] [Cherry-Pick][Others]upgrade paddleformer to 0.4.0
 #5599 (#5716)

* update 0.4.0

* update
---
 fastdeploy/config.py                          |  3 +
 .../layers/moe/fused_moe_triton_backend.py    |  9 +-
 .../model_executor/models/deepseek_v3.py      |  2 +-
 .../model_executor/models/ernie4_5_moe.py     |  2 +-
 .../model_executor/models/ernie4_5_mtp.py     | 18 ++--
 .../models/ernie4_5_vl/dfnrope/modeling.py    | 90 ++++--------------
 .../models/ernie4_5_vl/ernie4_5_vl_moe.py     |  4 +-
 .../models/ernie4_5_vl/modeling_resampler.py  | 53 +++--------
 fastdeploy/model_executor/models/glm4_moe.py  |  2 +-
 fastdeploy/model_executor/models/qwen2.py     |  4 +-
 .../models/qwen2_5_vl/dfnrope/modeling.py     | 93 ++++---------------
 .../models/qwen2_5_vl/qwen2_5_vl.py           |  4 +-
 fastdeploy/model_executor/models/qwen3.py     |  4 +-
 fastdeploy/model_executor/models/qwen3moe.py  |  4 +-
 fastdeploy/model_executor/models/tp_utils.py  | 34 +++----
 fastdeploy/worker/worker_process.py           |  8 +-
 requirements.txt                              |  2 +-
 requirements_dcu.txt                          |  2 +-
 requirements_iluvatar.txt                     |  2 +-
 requirements_metaxgpu.txt                     |  2 +-
 tests/model_executor/test_tp_utils.py         | 16 ++--
 21 files changed, 108 insertions(+), 250 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index 9164b09dbce..1cc06562ae7 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -314,6 +314,9 @@ def override_name_from_config(self):
             self.moe_num_experts = self.num_experts
         if hasattr(self, "n_routed_experts") and getattr(self, "moe_num_experts") is None:
             self.moe_num_experts = self.n_routed_experts
+        if hasattr(self, "n_shared_experts") and getattr(self, "moe_num_shared_experts") is None:
+            # Because the ERNIE 4.5 config.json contains two sets of keys, adaptation is required.
+            self.moe_num_shared_experts = self.n_shared_experts
 
     def read_from_env(self):
         """
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
index 2861d96e8d3..da705357c12 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
@@ -1243,6 +1243,7 @@ def create_weights(self, layer: nn.Layer, **extra_weight_attrs):
                 down_proj_attrs,
             )
         else:
+            # offline quant
             # 1.init shape
             extra_weight_attrs = {**extra_weight_attrs}
             if layer.fd_config.load_config.load_choices == "default_v1":
@@ -1258,17 +1259,9 @@ def create_weights(self, layer: nn.Layer, **extra_weight_attrs):
                     down_proj_scale_shape = self.down_proj_scale_shape[:1] + self.down_proj_scale_shape[1:][::-1]
                     up_gate_proj_attrs = {
                         **extra_weight_attrs,
-                        "tensor_track": TensorTracker(
-                            shape=up_gate_proj_weight_shape,
-                            output_dim=False,
-                        ),
                     }
                     down_proj_attrs = {
                         **extra_weight_attrs,
-                        "tensor_track": TensorTracker(
-                            shape=down_proj_weight_shape,
-                            output_dim=False,
-                        ),
                     }
                 else:
                     up_gate_proj_weight_shape = self.up_gate_proj_weight_shape
diff --git a/fastdeploy/model_executor/models/deepseek_v3.py b/fastdeploy/model_executor/models/deepseek_v3.py
index 680d565e176..573b62d822b 100644
--- a/fastdeploy/model_executor/models/deepseek_v3.py
+++ b/fastdeploy/model_executor/models/deepseek_v3.py
@@ -803,7 +803,7 @@ def _get_tensor_parallel_mappings(cls, config, is_split=True):
 
         fn = split_or_merge_func(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.num_attention_heads,
         )
diff --git a/fastdeploy/model_executor/models/ernie4_5_moe.py b/fastdeploy/model_executor/models/ernie4_5_moe.py
index 3c042e17fdc..b0c8481ceb6 100644
--- a/fastdeploy/model_executor/models/ernie4_5_moe.py
+++ b/fastdeploy/model_executor/models/ernie4_5_moe.py
@@ -791,7 +791,7 @@ def _get_tensor_parallel_mappings(cls, config: PretrainedConfig, is_split=True):
 
         fn = split_or_merge_func_v1(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.num_attention_heads,
             num_key_value_heads=config.num_key_value_heads,
diff --git a/fastdeploy/model_executor/models/ernie4_5_mtp.py b/fastdeploy/model_executor/models/ernie4_5_mtp.py
index 2d57ed504cb..db8499444b2 100644
--- a/fastdeploy/model_executor/models/ernie4_5_mtp.py
+++ b/fastdeploy/model_executor/models/ernie4_5_mtp.py
@@ -69,14 +69,14 @@ def _get_tensor_parallel_mappings(cls, config, is_split=True):
 
         fn = split_or_merge_func(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.num_attention_heads,
         )
 
         def gqa_qkv_split_func(
             weight,
-            tensor_parallel_degree,
+            tensor_model_parallel_size,
             tensor_parallel_rank,
             num_attention_heads,
             num_key_value_heads,
@@ -109,9 +109,9 @@ def split_tensor(tensor, degree):
                 else:
                     return np.split(tensor, degree, axis=-1)
 
-            q_list = split_tensor(q, tensor_parallel_degree)
-            k_list = split_tensor(k, tensor_parallel_degree)
-            v_list = split_tensor(v, tensor_parallel_degree)
+            q_list = split_tensor(q, tensor_model_parallel_size)
+            k_list = split_tensor(k, tensor_model_parallel_size)
+            v_list = split_tensor(v, tensor_model_parallel_size)
 
             if tensor_parallel_rank is None:
                 return [np.concatenate([q_i, k_i, v_i], axis=-1) for q_i, k_i, v_i in zip(q_list, k_list, v_list)]
@@ -126,9 +126,9 @@ def split_tensor(tensor, degree):
                 )
 
         def gqa_qkv_merge_func(weight_list, num_attention_heads, num_key_value_heads, head_dim):
-            tensor_parallel_degree = len(weight_list)
-            num_attention_heads = num_attention_heads // tensor_parallel_degree
-            num_key_value_heads = num_key_value_heads // tensor_parallel_degree
+            tensor_model_parallel_size = len(weight_list)
+            num_attention_heads = num_attention_heads // tensor_model_parallel_size
+            num_key_value_heads = num_key_value_heads // tensor_model_parallel_size
 
             is_paddle_tensor = not isinstance(weight_list[0], np.ndarray)
 
@@ -170,7 +170,7 @@ def slice_tensor(tensor, start, end):
             if is_split:
                 qkv_fn = partial(
                     gqa_qkv_split_func,
-                    tensor_parallel_degree=config.tensor_parallel_degree,
+                    tensor_model_parallel_size=config.tensor_model_parallel_size,
                     tensor_parallel_rank=config.tensor_parallel_rank,
                     num_attention_heads=config.num_attention_heads,
                     num_key_value_heads=config.num_key_value_heads,
diff --git a/fastdeploy/model_executor/models/ernie4_5_vl/dfnrope/modeling.py b/fastdeploy/model_executor/models/ernie4_5_vl/dfnrope/modeling.py
index 2d8c53b2218..b4dd3aa26f0 100644
--- a/fastdeploy/model_executor/models/ernie4_5_vl/dfnrope/modeling.py
+++ b/fastdeploy/model_executor/models/ernie4_5_vl/dfnrope/modeling.py
@@ -14,7 +14,6 @@
 # limitations under the License.
 """
 
-from functools import partial
 from typing import Optional
 
 import numpy as np
@@ -160,15 +159,15 @@ def __init__(
         self,
         dim: int,
         num_heads: int = 16,
-        tensor_parallel_degree: int = 1,
+        tensor_model_parallel_size: int = 1,
         tensor_parallel_rank: int = 0,
         model_format: str = "",
     ) -> None:
         super().__init__()
         self.num_heads = num_heads
-        self.tensor_parallel_degree = tensor_parallel_degree
+        self.tensor_model_parallel_size = tensor_model_parallel_size
         self.tensor_parallel_rank = tensor_parallel_rank
-        if tensor_parallel_degree > 1:
+        if tensor_model_parallel_size > 1:
             use_fuse_matmul_bias = False if current_platform.is_maca() or current_platform.is_iluvatar() else True
             self.qkv = ColumnParallelLinear(
                 dim,
@@ -200,7 +199,7 @@ def __init__(
         self.head_dim = dim // num_heads  # must added
         self.num_heads = num_heads
         self.hidden_size = dim
-        self.num_heads_per_rank = divide(self.num_heads, self.tensor_parallel_degree)
+        self.num_heads_per_rank = divide(self.num_heads, self.tensor_model_parallel_size)
 
     def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = None):
         weight_need_transpose = getattr(param, "weight_need_transpose", False)
@@ -210,7 +209,9 @@ def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = N
         if load_bias:
             head_dim = self.hidden_size // self.num_heads
             shard_weight = loaded_weight[...].reshape([3, self.num_heads, head_dim])
-            shard_weight = paddle.split(shard_weight, self.tensor_parallel_degree, axis=-2)[self.tensor_parallel_rank]
+            shard_weight = paddle.split(shard_weight, self.tensor_model_parallel_size, axis=-2)[
+                self.tensor_parallel_rank
+            ]
             shard_weight = shard_weight.reshape([-1])
         else:
             shard_weight = loaded_weight[...].reshape(
@@ -221,7 +222,9 @@ def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = N
                     self.head_dim,
                 ]
             )
-            shard_weight = paddle.split(shard_weight, self.tensor_parallel_degree, axis=-2)[self.tensor_parallel_rank]
+            shard_weight = paddle.split(shard_weight, self.tensor_model_parallel_size, axis=-2)[
+                self.tensor_parallel_rank
+            ]
             shard_weight = shard_weight.reshape([self.hidden_size, -1])
         shard_weight = get_tensor(shard_weight)
         shard_weight = fd_cast(shard_weight, param)
@@ -253,7 +256,7 @@ def forward(
                 [
                     seq_length,
                     3,
-                    self.num_heads // self.tensor_parallel_degree,
+                    self.num_heads // self.tensor_model_parallel_size,
                     -1,
                 ]
             )
@@ -333,13 +336,13 @@ def __init__(
         dim: int,
         hidden_dim: int,
         hidden_act: str,
-        tensor_parallel_degree: int = 1,
+        tensor_model_parallel_size: int = 1,
         model_format: str = "",
     ) -> None:
         super().__init__()
-        self.tensor_parallel_degree = tensor_parallel_degree
+        self.tensor_model_parallel_size = tensor_model_parallel_size
 
-        if self.tensor_parallel_degree > 1:
+        if self.tensor_model_parallel_size > 1:
             self.fc1 = ColumnParallelLinear(
                 dim,
                 hidden_dim,
@@ -419,7 +422,7 @@ class DFNRopeVisionBlock(nn.Layer):
     def __init__(
         self,
         config,
-        tensor_parallel_degree: int,
+        tensor_model_parallel_size: int,
         tensor_parallel_rank: int,
         attn_implementation: str = "sdpa",
         model_format: str = "",
@@ -438,7 +441,7 @@ def __init__(
         self.attn = VisionFlashAttention2(
             config.embed_dim,
             num_heads=config.num_heads,
-            tensor_parallel_degree=tensor_parallel_degree,
+            tensor_model_parallel_size=tensor_model_parallel_size,
             tensor_parallel_rank=tensor_parallel_rank,
             model_format=model_format,
         )
@@ -446,7 +449,7 @@ def __init__(
             dim=config.embed_dim,
             hidden_dim=mlp_hidden_dim,
             hidden_act=config.hidden_act,
-            tensor_parallel_degree=tensor_parallel_degree,
+            tensor_model_parallel_size=tensor_model_parallel_size,
             model_format=model_format,
         )
         self.config = config
@@ -543,7 +546,7 @@ def __init__(self, config, prefix_name: str = "") -> None:
             [
                 DFNRopeVisionBlock(
                     config.vision_config,
-                    config.pretrained_config.tensor_parallel_degree,
+                    config.pretrained_config.tensor_model_parallel_size,
                     config.pretrained_config.tensor_parallel_rank,
                     model_format=model_format,
                 )
@@ -664,63 +667,6 @@ def extract_feature(self, hidden_states: paddle.Tensor, grid_thw: paddle.Tensor)
         """
         return self.forward(hidden_states, grid_thw)
 
-    @classmethod
-    def _get_tensor_parallel_mappings(cls, config, is_split=True):
-        """
-        dummy
-        """
-
-        from paddleformers.transformers.conversion_utils import split_or_merge_func
-
-        fn = split_or_merge_func(
-            is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
-            tensor_parallel_rank=config.tensor_parallel_rank,
-        )
-        vision_config = config.vision_config
-
-        def split_qkv_weight(x):
-            head_dim = vision_config.hidden_size // vision_config.num_heads
-            x = x.reshape(
-                [
-                    vision_config.hidden_size,
-                    3,
-                    vision_config.num_heads,
-                    head_dim,
-                ]
-            )
-            x = np.split(x, vision_config.tensor_parallel_degree, axis=-2)[vision_config.tensor_parallel_rank]
-            x = x.reshape([vision_config.hidden_size, -1])
-            return x
-
-        def split_qkv_bias(x):
-            head_dim = vision_config.hidden_size // vision_config.num_heads
-            x = x.reshape([3, vision_config.num_heads, head_dim])
-            x = np.split(x, vision_config.tensor_parallel_degree, axis=-2)[vision_config.tensor_parallel_rank]
-            x = x.reshape([-1])
-            return x
-
-        def get_tensor_parallel_split_mappings(depth):
-            final_actions = {}
-            base_actions = {
-                "vision_model.blocks.0.attn.proj.weight": partial(fn, is_column=False),
-                "vision_model.blocks.0.fc1.weight": partial(fn, is_column=True),
-                "vision_model.blocks.0.fc1.bias": partial(fn, is_column=True),
-                "vision_model.blocks.0.fc2.weight": partial(fn, is_column=False),
-                "vision_model.blocks.0.qkv.weight": split_qkv_weight,
-                "vision_model.blocks.0.qkv.bias": split_qkv_bias,
-            }
-
-            for key, action in base_actions.items():
-                if "blocks.0." in key:
-                    for i in range(depth):
-                        newkey = key.replace("blocks.0.", f"blocks.{i}.")
-                        final_actions[newkey] = action
-            return final_actions
-
-        mappings = get_tensor_parallel_split_mappings(vision_config.depth)
-        return mappings
-
     def load_state_dict(self, state_dict):
         params_dict = dict(self.named_parameters())
         for param_name, param in params_dict.items():
diff --git a/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py b/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
index 804d058bf7c..331b880be31 100644
--- a/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
+++ b/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
@@ -963,7 +963,7 @@ def _get_tensor_parallel_mappings(cls, config: PretrainedConfig, is_split=True):
 
         fn = split_or_merge_func_v1(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.num_attention_heads,
             num_key_value_heads=config.num_key_value_heads,
@@ -971,7 +971,7 @@ def _get_tensor_parallel_mappings(cls, config: PretrainedConfig, is_split=True):
         )
         vision_fn = split_or_merge_func_v1(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.vision_config.get("num_heads"),
             num_key_value_heads=config.vision_config.get("num_heads"),
diff --git a/fastdeploy/model_executor/models/ernie4_5_vl/modeling_resampler.py b/fastdeploy/model_executor/models/ernie4_5_vl/modeling_resampler.py
index dfc0644e556..ff0d7e5e0fa 100644
--- a/fastdeploy/model_executor/models/ernie4_5_vl/modeling_resampler.py
+++ b/fastdeploy/model_executor/models/ernie4_5_vl/modeling_resampler.py
@@ -15,7 +15,6 @@
 """
 
 from copy import deepcopy
-from functools import partial
 
 import numpy as np
 import paddle
@@ -156,7 +155,7 @@ def __init__(
         self.temporal_conv_size = temporal_conv_size
         self.use_recompute_resampler = False
         self.use_temporal_conv = True
-        self.tensor_parallel_degree = config.pretrained_config.tensor_parallel_degree
+        self.tensor_model_parallel_size = config.pretrained_config.tensor_model_parallel_size
         self.prefix_name = prefix_name
 
         # for 空间四合一
@@ -175,7 +174,7 @@ def __init__(
                         has_bias=True,
                         fuse_matmul_bias=use_fuse_matmul_bias,
                     )
-                    if self.tensor_parallel_degree > 1
+                    if self.tensor_model_parallel_size > 1
                     else nn.Linear(self.spatial_dim, self.spatial_dim)
                 ),
                 nn.GELU(),
@@ -207,7 +206,7 @@ def __init__(
             out_config.hidden_size = out_dim
             self.after_norm = RMSNorm(out_config)
 
-            if self.tensor_parallel_degree > 1:
+            if self.tensor_model_parallel_size > 1:
                 set_weight_attrs(self.spatial_linear[0].weight, {"output_dim": False})
 
     def spatial_conv_reshape(self, x, spatial_conv_size):
@@ -237,17 +236,17 @@ def fwd_spatial(x):
             x = self.spatial_conv_reshape(x, self.spatial_conv_size)
 
             num_pad = 0
-            if self.tensor_parallel_degree > 1:
+            if self.tensor_model_parallel_size > 1:
                 num_pad = (
-                    x.shape[0] + self.tensor_parallel_degree - 1
-                ) // self.tensor_parallel_degree * self.tensor_parallel_degree - x.shape[0]
+                    x.shape[0] + self.tensor_model_parallel_size - 1
+                ) // self.tensor_model_parallel_size * self.tensor_model_parallel_size - x.shape[0]
 
             if num_pad > 0:
                 x = paddle.nn.functional.pad(x, [0, num_pad, 0, 0])
 
             x = self.spatial_linear(x)
 
-            if self.tensor_parallel_degree > 1:
+            if self.tensor_model_parallel_size > 1:
                 x = AllGatherOp.apply(x)
 
             if num_pad > 0:
@@ -303,13 +302,13 @@ def fwd_placeholder(x, grid_thw, to_tensor=False):
 
         def fwd_temporal(x):
             num_pad = 0
-            if self.tensor_parallel_degree > 1:
+            if self.tensor_model_parallel_size > 1:
                 num_pad = (
-                    x.shape[0] + self.tensor_parallel_degree - 1
-                ) // self.tensor_parallel_degree * self.tensor_parallel_degree - x.shape[0]
+                    x.shape[0] + self.tensor_model_parallel_size - 1
+                ) // self.tensor_model_parallel_size * self.tensor_model_parallel_size - x.shape[0]
             if num_pad > 0:
                 x = paddle.nn.functional.pad(x, [0, num_pad, 0, 0])
-            if self.tensor_parallel_degree > 1:
+            if self.tensor_model_parallel_size > 1:
                 x = ScatterOp.apply(x, axis=0)
             x = self.temporal_linear(x)
 
@@ -321,7 +320,7 @@ def fwd_temporal(x):
         def fwd_mlp(x):
             x = self.mlp(x)
             x = self.after_norm(x)
-            if self.tensor_parallel_degree > 1:
+            if self.tensor_model_parallel_size > 1:
                 x = AllGatherOp.apply(x)
             return x
 
@@ -355,31 +354,3 @@ def load_state_dict(self, state_dict):
                 raise ValueError(f"{state_dict_key} param.shape={param.shape} tensor.shape={tensor.shape}")
             else:
                 param.copy_(tensor, False)
-
-    @classmethod
-    def _get_tensor_parallel_mappings(cls, config, is_split=True):
-
-        from paddleformers.transformers.conversion_utils import split_or_merge_func
-
-        fn = split_or_merge_func(
-            is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
-            tensor_parallel_rank=config.tensor_parallel_rank,
-            num_attention_heads=config.num_attention_heads,
-        )
-        res = {"spatial_linear.0.weight": partial(fn, is_column=False)}
-        for k in (
-            "spatial_linear.0.bias",  # row linear bias
-            "spatial_linear.2.weight",
-            "spatial_linear.2.bias",  # linear
-            "spatial_linear.3.weight",
-            "spatial_linear.3.bias",  # layernorm
-            "temporal_linear.0.weight",
-            "temporal_linear.0.weight",  # linear
-            "temporal_linear.2.weight",
-            "temporal_linear.2.bias",  # linear
-            "temporal_linear.3.weight",
-            "temporal_linear.3.bias",  # bias
-        ):
-            res.update({k: lambda x: x})
-        return res
diff --git a/fastdeploy/model_executor/models/glm4_moe.py b/fastdeploy/model_executor/models/glm4_moe.py
index 0cc7c4dae45..78161d664bb 100644
--- a/fastdeploy/model_executor/models/glm4_moe.py
+++ b/fastdeploy/model_executor/models/glm4_moe.py
@@ -549,7 +549,7 @@ def _get_tensor_parallel_mappings(cls, config, is_split=True):
 
         fn = split_or_merge_func_v1(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.num_attention_heads,
             num_key_value_heads=config.num_key_value_heads,
diff --git a/fastdeploy/model_executor/models/qwen2.py b/fastdeploy/model_executor/models/qwen2.py
index 59164985c8f..50bfb15b00b 100644
--- a/fastdeploy/model_executor/models/qwen2.py
+++ b/fastdeploy/model_executor/models/qwen2.py
@@ -445,7 +445,7 @@ def _get_tensor_parallel_mappings(cls, config: ModelConfig, is_split=True):
 
         fn = split_or_merge_func(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.num_attention_heads,
         )
@@ -468,7 +468,7 @@ def get_tensor_parallel_split_mappings(num_layers):
                 base_actions["layers.0.self_attn.q_proj.weight"] = partial(fn, is_column=True)
                 base_actions["layers.0.self_attn.q_proj.bias"] = partial(fn, is_column=True)
                 # if we have enough num_key_value_heads to split, then split it.
-                if config.num_key_value_heads % config.tensor_parallel_degree == 0:
+                if config.num_key_value_heads % config.tensor_model_parallel_size == 0:
                     base_actions["layers.0.self_attn.k_proj.weight"] = partial(fn, is_column=True)
                     base_actions["layers.0.self_attn.v_proj.weight"] = partial(fn, is_column=True)
                     base_actions["layers.0.self_attn.k_proj.bias"] = partial(fn, is_column=True)
diff --git a/fastdeploy/model_executor/models/qwen2_5_vl/dfnrope/modeling.py b/fastdeploy/model_executor/models/qwen2_5_vl/dfnrope/modeling.py
index 4414eb91712..f2f49605c0e 100644
--- a/fastdeploy/model_executor/models/qwen2_5_vl/dfnrope/modeling.py
+++ b/fastdeploy/model_executor/models/qwen2_5_vl/dfnrope/modeling.py
@@ -14,10 +14,8 @@
 # limitations under the License.
 """
 
-from functools import partial
 from typing import Optional
 
-import numpy as np
 import paddle
 import paddle.nn.functional as F
 from paddle import nn
@@ -80,16 +78,16 @@ def __init__(
         self,
         dim: int,
         num_heads: int = 16,
-        tensor_parallel_degree: int = 1,
+        tensor_model_parallel_size: int = 1,
         tensor_parallel_rank: int = 0,
         model_format: str = "",
     ) -> None:
         super().__init__()
         self.num_heads = num_heads
-        self.tensor_parallel_degree = tensor_parallel_degree
+        self.tensor_model_parallel_size = tensor_model_parallel_size
         self.tensor_parallel_rank = tensor_parallel_rank
 
-        if tensor_parallel_degree > 1:
+        if tensor_model_parallel_size > 1:
             self.qkv = ColumnParallelLinear(
                 dim,
                 dim * 3,
@@ -124,7 +122,7 @@ def __init__(
         self.head_dim = dim // num_heads  # must added
         self.num_heads = num_heads
         self.hidden_size = dim
-        self.num_heads_per_rank = divide(self.num_heads, self.tensor_parallel_degree)
+        self.num_heads_per_rank = divide(self.num_heads, self.tensor_model_parallel_size)
 
     def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = None):
         weight_need_transpose = getattr(param, "weight_need_transpose", False)
@@ -134,7 +132,9 @@ def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = N
         if load_bias:
             head_dim = self.hidden_size // self.num_heads
             shard_weight = loaded_weight[...].reshape([3, self.num_heads, head_dim])
-            shard_weight = paddle.split(shard_weight, self.tensor_parallel_degree, axis=-2)[self.tensor_parallel_rank]
+            shard_weight = paddle.split(shard_weight, self.tensor_model_parallel_size, axis=-2)[
+                self.tensor_parallel_rank
+            ]
             shard_weight = shard_weight.reshape([-1])
         else:
             shard_weight = loaded_weight[...].reshape(
@@ -145,7 +145,9 @@ def weight_loader(self, param, loaded_weight, loaded_shard_id: Optional[str] = N
                     self.head_dim,
                 ]
             )
-            shard_weight = paddle.split(shard_weight, self.tensor_parallel_degree, axis=-2)[self.tensor_parallel_rank]
+            shard_weight = paddle.split(shard_weight, self.tensor_model_parallel_size, axis=-2)[
+                self.tensor_parallel_rank
+            ]
             shard_weight = shard_weight.reshape([self.hidden_size, -1])
         shard_weight = fd_cast(shard_weight, param)
         assert param.shape == shard_weight.shape, (
@@ -178,7 +180,7 @@ def forward(
                 [
                     seq_length,
                     3,
-                    self.num_heads // self.tensor_parallel_degree,
+                    self.num_heads // self.tensor_model_parallel_size,
                     -1,
                 ]
             )
@@ -267,13 +269,13 @@ def __init__(
         hidden_dim: int,
         bias: bool = False,
         hidden_act: str = "gelu",
-        tensor_parallel_degree: int = 1,
+        tensor_model_parallel_size: int = 1,
         model_format: str = "",
     ) -> None:
         super().__init__()
-        self.tensor_parallel_degree = tensor_parallel_degree
+        self.tensor_model_parallel_size = tensor_model_parallel_size
 
-        if self.tensor_parallel_degree > 1:
+        if self.tensor_model_parallel_size > 1:
             self.gate_proj = ColumnParallelLinear(
                 dim,
                 hidden_dim,
@@ -416,7 +418,7 @@ def __init__(
         num_heads: int,
         mlp_hidden_dim: int,
         hidden_act: str = "gelu",
-        tensor_parallel_degree: int = 1,
+        tensor_model_parallel_size: int = 1,
         tensor_parallel_rank: int = 0,
         attn_implementation: str = "sdpa",
         model_format: str = "",
@@ -434,7 +436,7 @@ def __init__(
         self.attn = VisionFlashAttention2(
             dim=dim,
             num_heads=num_heads,
-            tensor_parallel_degree=tensor_parallel_degree,
+            tensor_model_parallel_size=tensor_model_parallel_size,
             tensor_parallel_rank=tensor_parallel_rank,
             model_format=model_format,
         )
@@ -444,7 +446,7 @@ def __init__(
             hidden_dim=mlp_hidden_dim,
             bias=True,
             hidden_act=hidden_act,
-            tensor_parallel_degree=tensor_parallel_degree,
+            tensor_model_parallel_size=tensor_model_parallel_size,
             model_format=model_format,
         )
 
@@ -560,7 +562,7 @@ def __init__(self, config, prefix_name: str = "") -> None:
                     num_heads=config.vision_config.num_heads,
                     mlp_hidden_dim=config.vision_config.intermediate_size,
                     hidden_act=config.vision_config.hidden_act,
-                    tensor_parallel_degree=config.pretrained_config.tensor_parallel_degree,
+                    tensor_model_parallel_size=config.pretrained_config.tensor_model_parallel_size,
                     tensor_parallel_rank=config.pretrained_config.tensor_parallel_rank,
                     model_format=model_format,
                 )
@@ -731,65 +733,6 @@ def extract_feature(self, hidden_states: paddle.Tensor, grid_thw: paddle.Tensor)
         """
         return self.forward(hidden_states, grid_thw)
 
-    @classmethod
-    def _get_tensor_parallel_mappings(cls, config, is_split=True):
-        """
-        dummy
-        """
-
-        from paddleformers.transformers.conversion_utils import split_or_merge_func
-
-        fn = split_or_merge_func(
-            is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
-            tensor_parallel_rank=config.tensor_parallel_rank,
-        )
-        vision_config = config.vision_config
-
-        def split_qkv_weight(x):
-            head_dim = vision_config.hidden_size // vision_config.num_heads
-            x = x.reshape(
-                [
-                    vision_config.hidden_size,
-                    3,
-                    vision_config.num_heads,
-                    head_dim,
-                ]
-            )
-            x = np.split(x, vision_config.tensor_parallel_degree, axis=-2)[vision_config.tensor_parallel_rank]
-            x = x.reshape([vision_config.hidden_size, -1])
-            return x
-
-        def split_qkv_bias(x):
-            head_dim = vision_config.hidden_size // vision_config.num_heads
-            x = x.reshape([3, vision_config.num_heads, head_dim])
-            x = np.split(x, vision_config.tensor_parallel_degree, axis=-2)[vision_config.tensor_parallel_rank]
-            x = x.reshape([-1])
-            return x
-
-        def get_tensor_parallel_split_mappings(depth):
-            final_actions = {}
-            base_actions = {
-                "visual.blocks.0.attn.proj.weight": partial(fn, is_column=False),
-                "visual.blocks.0.mlp.gate_proj.weight": partial(fn, is_column=True),
-                "visual.blocks.0.mlp.gate_proj.bias": partial(fn, is_column=True),
-                "visual.blocks.0.mlp.up_proj.weight": partial(fn, is_column=True),
-                "visual.blocks.0.mlp.up_proj.bias": partial(fn, is_column=True),
-                "visual.blocks.0.mlp.down_proj.weight": partial(fn, is_column=False),
-                "visual.blocks.0.qkv.weight": split_qkv_weight,
-                "visual.blocks.0.qkv.bias": split_qkv_bias,
-            }
-
-            for key, action in base_actions.items():
-                if "blocks.0." in key:
-                    for i in range(depth):
-                        newkey = key.replace("blocks.0.", f"blocks.{i}.")
-                        final_actions[newkey] = action
-            return final_actions
-
-        mappings = get_tensor_parallel_split_mappings(vision_config.depth)
-        return mappings
-
     def load_state_dict(self, state_dict):
         params_dict = dict(self.named_parameters())
         for param_name, param in params_dict.items():
diff --git a/fastdeploy/model_executor/models/qwen2_5_vl/qwen2_5_vl.py b/fastdeploy/model_executor/models/qwen2_5_vl/qwen2_5_vl.py
index 4e751ca9e1a..91345c8a53b 100644
--- a/fastdeploy/model_executor/models/qwen2_5_vl/qwen2_5_vl.py
+++ b/fastdeploy/model_executor/models/qwen2_5_vl/qwen2_5_vl.py
@@ -383,7 +383,7 @@ def _get_tensor_parallel_mappings(cls, config: PretrainedConfig, is_split=True):
 
         fn = split_or_merge_func_v1(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.num_attention_heads,
             num_key_value_heads=config.num_key_value_heads,
@@ -392,7 +392,7 @@ def _get_tensor_parallel_mappings(cls, config: PretrainedConfig, is_split=True):
 
         vision_fn = split_or_merge_func_v1(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.vision_config.get("num_heads"),
             num_key_value_heads=config.vision_config.get("num_heads"),
diff --git a/fastdeploy/model_executor/models/qwen3.py b/fastdeploy/model_executor/models/qwen3.py
index 67bccc35872..9fb0ebcf4c1 100644
--- a/fastdeploy/model_executor/models/qwen3.py
+++ b/fastdeploy/model_executor/models/qwen3.py
@@ -386,7 +386,7 @@ def _get_tensor_parallel_mappings(cls, config, is_split=True):
 
         fn = split_or_merge_func(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.num_attention_heads,
         )
@@ -407,7 +407,7 @@ def get_tensor_parallel_split_mappings(num_layers):
             base_actions["layers.0.self_attn.q_proj.weight"] = partial(fn, is_column=True)
             base_actions["layers.0.self_attn.q_proj.bias"] = partial(fn, is_column=True)
             # if we have enough num_key_value_heads to split, then split it.
-            if config.num_key_value_heads % config.tensor_parallel_degree == 0:
+            if config.num_key_value_heads % config.tensor_model_parallel_size == 0:
                 base_actions["layers.0.self_attn.k_proj.weight"] = partial(fn, is_column=True)
                 base_actions["layers.0.self_attn.v_proj.weight"] = partial(fn, is_column=True)
 
diff --git a/fastdeploy/model_executor/models/qwen3moe.py b/fastdeploy/model_executor/models/qwen3moe.py
index 0e7f26f9dda..e57c96f0915 100644
--- a/fastdeploy/model_executor/models/qwen3moe.py
+++ b/fastdeploy/model_executor/models/qwen3moe.py
@@ -470,7 +470,7 @@ def _get_tensor_parallel_mappings(cls, config, is_split=True):
 
         fn = split_or_merge_func(
             is_split=is_split,
-            tensor_parallel_degree=config.tensor_parallel_degree,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
             tensor_parallel_rank=config.tensor_parallel_rank,
             num_attention_heads=config.num_attention_heads,
         )
@@ -493,7 +493,7 @@ def get_tensor_parallel_split_mappings(num_layers, num_experts):
                 base_actions["layers.0.self_attn.q_proj.weight"] = partial(fn, is_column=True)
                 base_actions["layers.0.self_attn.q_proj.bias"] = partial(fn, is_column=True)
                 # if we have enough num_key_value_heads to split, then split it.
-                if config.num_key_value_heads % config.tensor_parallel_degree == 0:
+                if config.num_key_value_heads % config.tensor_model_parallel_size == 0:
                     base_actions["layers.0.self_attn.k_proj.weight"] = partial(fn, is_column=True)
                     base_actions["layers.0.self_attn.v_proj.weight"] = partial(fn, is_column=True)
                     base_actions["layers.0.self_attn.k_proj.bias"] = partial(fn, is_column=True)
diff --git a/fastdeploy/model_executor/models/tp_utils.py b/fastdeploy/model_executor/models/tp_utils.py
index 2283d1b3f53..48c4ec98d42 100644
--- a/fastdeploy/model_executor/models/tp_utils.py
+++ b/fastdeploy/model_executor/models/tp_utils.py
@@ -202,7 +202,7 @@ def build_expanded_keys(
 
 
 def gqa_qkv_split_func(
-    tensor_parallel_degree,
+    tensor_model_parallel_size,
     tensor_parallel_rank,
     num_attention_heads,
     num_key_value_heads,
@@ -258,15 +258,17 @@ def split_tensor(tensor, degree):
                     else:
                         return np.split(tensor, degree, axis=0)
 
-        q_list = split_tensor(q, tensor_parallel_degree)
-        repeat_kv = num_key_value_heads < tensor_parallel_degree and tensor_parallel_degree % num_key_value_heads == 0
-        repeat_num = tensor_parallel_degree // num_key_value_heads if repeat_kv else 1
+        q_list = split_tensor(q, tensor_model_parallel_size)
+        repeat_kv = (
+            num_key_value_heads < tensor_model_parallel_size and tensor_model_parallel_size % num_key_value_heads == 0
+        )
+        repeat_num = tensor_model_parallel_size // num_key_value_heads if repeat_kv else 1
         if repeat_kv:
             k_list = split_tensor(k, num_key_value_heads)
             v_list = split_tensor(v, num_key_value_heads)
         else:
-            k_list = split_tensor(k, tensor_parallel_degree)
-            v_list = split_tensor(v, tensor_parallel_degree)
+            k_list = split_tensor(k, tensor_model_parallel_size)
+            v_list = split_tensor(v, tensor_model_parallel_size)
 
         if tensor_parallel_rank is None:
             res = []
@@ -332,9 +334,9 @@ def gqa_qkv_merge_func(num_attention_heads, num_key_value_heads, head_dim):
 
     def fn(weight_list, is_column=True):
         """fn"""
-        tensor_parallel_degree = len(weight_list)
-        local_num_attention_heads = num_attention_heads // tensor_parallel_degree
-        local_num_key_value_heads = num_key_value_heads // tensor_parallel_degree
+        tensor_model_parallel_size = len(weight_list)
+        local_num_attention_heads = num_attention_heads // tensor_model_parallel_size
+        local_num_key_value_heads = num_key_value_heads // tensor_model_parallel_size
 
         is_paddle_tensor = not isinstance(weight_list[0], np.ndarray)
 
@@ -391,7 +393,7 @@ def slice_tensor(tensor, start, end):
 
 def split_or_merge_qkv_func(
     is_split,
-    tensor_parallel_degree,
+    tensor_model_parallel_size,
     tensor_parallel_rank,
     num_attention_heads,
     num_key_value_heads,
@@ -402,7 +404,7 @@ def split_or_merge_qkv_func(
     """
     if is_split:
         return gqa_qkv_split_func(
-            tensor_parallel_degree=tensor_parallel_degree,
+            tensor_model_parallel_size=tensor_model_parallel_size,
             tensor_parallel_rank=tensor_parallel_rank,
             num_attention_heads=num_attention_heads,
             num_key_value_heads=num_key_value_heads,
@@ -418,7 +420,7 @@ def split_or_merge_qkv_func(
 
 def split_or_merge_func_v1(
     is_split,
-    tensor_parallel_degree,
+    tensor_model_parallel_size,
     tensor_parallel_rank,
     num_attention_heads=None,
     num_key_value_heads=None,
@@ -435,14 +437,14 @@ def fn(x, **kwargs):
         if is_tp_row_bias:
             tensor = x[:, ...]
             if isinstance(tensor, paddle.Tensor):
-                res = tensor / tensor_parallel_degree
+                res = tensor / tensor_model_parallel_size
             else:
-                res = paddle.to_tensor(tensor, paddle.get_default_dtype()) / tensor_parallel_degree
+                res = paddle.to_tensor(tensor, paddle.get_default_dtype()) / tensor_model_parallel_size
             return res
         elif is_gqa:
             func = split_or_merge_qkv_func(
                 is_split=is_split,
-                tensor_parallel_degree=tensor_parallel_degree,
+                tensor_model_parallel_size=tensor_model_parallel_size,
                 tensor_parallel_rank=tensor_parallel_rank,
                 num_attention_heads=num_attention_heads,
                 num_key_value_heads=num_key_value_heads,
@@ -453,7 +455,7 @@ def fn(x, **kwargs):
         else:
             func = split_or_merge_func(
                 is_split=is_split,
-                tensor_parallel_degree=tensor_parallel_degree,
+                tensor_model_parallel_size=tensor_model_parallel_size,
                 tensor_parallel_rank=tensor_parallel_rank,
                 num_attention_heads=num_attention_heads,
             )
diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index ecbbea74fd4..1f243be54a0 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -129,7 +129,7 @@ def init_distributed_environment(seed: int = 20) -> Tuple[int, int]:
 def update_fd_config_for_mm(fd_config: FDConfig) -> None:
     architectures = fd_config.model_config.architectures
     if fd_config.model_config.enable_mm and ErnieArchitectures.contains_ernie_arch(architectures):
-        fd_config.model_config.tensor_parallel_degree = fd_config.parallel_config.tensor_parallel_size
+        fd_config.model_config.tensor_model_parallel_size = fd_config.parallel_config.tensor_parallel_size
         fd_config.model_config.tensor_parallel_rank = fd_config.parallel_config.tensor_parallel_rank
         fd_config.model_config.vision_config.dtype = fd_config.model_config.dtype
 
@@ -822,8 +822,8 @@ def parse_args():
     parser.add_argument(
         "--load_choices",
         type=str,
-        default="default",
-        help="The format of the model weights to load. default/new_loader.",
+        default="default_v1",
+        help="The format of the model weights to load. default/default_v1.",
     )
 
     parser.add_argument(
@@ -969,7 +969,7 @@ def initialize_fd_config(args, ranks: int = 1, local_rank: int = 0) -> FDConfig:
 
     # Note(tangbinhan): used for load_checkpoint
     model_config.pretrained_config.tensor_parallel_rank = parallel_config.tensor_parallel_rank
-    model_config.pretrained_config.tensor_parallel_degree = parallel_config.tensor_parallel_size
+    model_config.pretrained_config.tensor_model_parallel_size = parallel_config.tensor_parallel_size
     model_config.pretrained_config.is_mtp = False
     model_config.pretrained_config.head_dim = model_config.head_dim
 
diff --git a/requirements.txt b/requirements.txt
index 50f95e00a3e..b6fe8ce7986 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -10,7 +10,7 @@ tqdm
 pynvml
 uvicorn>=0.38.0
 fastapi
-paddleformers>=0.3.1
+paddleformers @ https://paddle-qa.bj.bcebos.com/ernie/paddleformers-0.4.0.post20251222-py3-none-any.whl
 redis
 etcd3
 httpx
diff --git a/requirements_dcu.txt b/requirements_dcu.txt
index 714e0ae1d63..1f0a20f2d44 100644
--- a/requirements_dcu.txt
+++ b/requirements_dcu.txt
@@ -10,7 +10,7 @@ tqdm
 pynvml
 uvicorn==0.29.0
 fastapi
-paddleformers
+paddleformers @ https://paddle-qa.bj.bcebos.com/ernie/paddleformers-0.4.0.post20251222-py3-none-any.whl
 redis
 etcd3
 httpx
diff --git a/requirements_iluvatar.txt b/requirements_iluvatar.txt
index d91cf1639b0..fb0d702c4fa 100644
--- a/requirements_iluvatar.txt
+++ b/requirements_iluvatar.txt
@@ -10,7 +10,7 @@ tqdm
 pynvml
 uvicorn==0.29.0
 fastapi
-paddleformers==0.3.1
+paddleformers @ https://paddle-qa.bj.bcebos.com/ernie/paddleformers-0.4.0.post20251222-py3-none-any.whl
 redis
 etcd3
 httpx
diff --git a/requirements_metaxgpu.txt b/requirements_metaxgpu.txt
index d49339b0f6d..96f1c458472 100644
--- a/requirements_metaxgpu.txt
+++ b/requirements_metaxgpu.txt
@@ -10,7 +10,7 @@ tqdm
 pynvml
 uvicorn==0.29.0
 fastapi
-paddleformers==0.3.2
+paddleformers @ https://paddle-qa.bj.bcebos.com/ernie/paddleformers-0.4.0.post20251222-py3-none-any.whl
 redis
 etcd3
 httpx
diff --git a/tests/model_executor/test_tp_utils.py b/tests/model_executor/test_tp_utils.py
index 97b6427ad4d..8953bb9637d 100644
--- a/tests/model_executor/test_tp_utils.py
+++ b/tests/model_executor/test_tp_utils.py
@@ -106,13 +106,13 @@ def _resolve_prefix_keys(cls, keys, _safetensor_keys):
 
     conversion_utils = types.ModuleType("paddleformers.transformers.conversion_utils")
 
-    def _split_or_merge_func(is_split, tensor_parallel_degree, tensor_parallel_rank, **_kwargs):
+    def _split_or_merge_func(is_split, tensor_model_parallel_size, tensor_parallel_rank, **_kwargs):
         axis = -1
 
         def _fn(weight, *, is_column=True, **_kwargs):
             current_axis = axis if is_column else 0
             if is_split:
-                chunks = np.array_split(weight, tensor_parallel_degree, axis=current_axis)
+                chunks = np.array_split(weight, tensor_model_parallel_size, axis=current_axis)
                 if tensor_parallel_rank is None:
                     return chunks
                 return chunks[tensor_parallel_rank]
@@ -396,7 +396,7 @@ def test_invalid_placeholder_raises(self):
 class GQATensorOpsTest(unittest.TestCase):
     def test_gqa_split_returns_all_partitions(self):
         func = _tp_utils.gqa_qkv_split_func(
-            tensor_parallel_degree=2,
+            tensor_model_parallel_size=2,
             tensor_parallel_rank=None,
             num_attention_heads=4,
             num_key_value_heads=2,
@@ -411,7 +411,7 @@ def test_gqa_split_returns_all_partitions(self):
 
     def test_gqa_split_with_rank_and_repeat_kv(self):
         func = _tp_utils.gqa_qkv_split_func(
-            tensor_parallel_degree=2,
+            tensor_model_parallel_size=2,
             tensor_parallel_rank=1,
             num_attention_heads=2,
             num_key_value_heads=1,
@@ -423,7 +423,7 @@ def test_gqa_split_with_rank_and_repeat_kv(self):
 
     def test_gqa_split_on_matrix_rows(self):
         func = _tp_utils.gqa_qkv_split_func(
-            tensor_parallel_degree=2,
+            tensor_model_parallel_size=2,
             tensor_parallel_rank=None,
             num_attention_heads=4,
             num_key_value_heads=2,
@@ -454,7 +454,7 @@ def test_split_or_merge_qkv_dispatch(self):
     def test_split_or_merge_func_v1_row_bias(self):
         fn = _tp_utils.split_or_merge_func_v1(
             is_split=True,
-            tensor_parallel_degree=4,
+            tensor_model_parallel_size=4,
             tensor_parallel_rank=0,
         )
         bias = np.ones(4, dtype=np.float32)
@@ -464,7 +464,7 @@ def test_split_or_merge_func_v1_row_bias(self):
     def test_split_or_merge_func_v1_gqa_path(self):
         fn = _tp_utils.split_or_merge_func_v1(
             is_split=True,
-            tensor_parallel_degree=2,
+            tensor_model_parallel_size=2,
             tensor_parallel_rank=None,
             num_attention_heads=4,
             num_key_value_heads=2,
@@ -477,7 +477,7 @@ def test_split_or_merge_func_v1_gqa_path(self):
     def test_split_or_merge_func_v1_default_path(self):
         fn = _tp_utils.split_or_merge_func_v1(
             is_split=False,
-            tensor_parallel_degree=2,
+            tensor_model_parallel_size=2,
             tensor_parallel_rank=None,
             num_attention_heads=4,
         )

From 7c62626e15b46be2ed04efd7a0182620551c9b9e Mon Sep 17 00:00:00 2001
From: bukejiyu <52310069+bukejiyu@users.noreply.github.com>
Date: Thu, 25 Dec 2025 10:01:56 +0800
Subject: [PATCH 053/161] [Cherry-Pick][Loader]Fix bug in MTP weight loading
 #5744 (#5745)

* fix torch mtp

* fix

* update
---
 .../model_loader/default_loader_v1.py         |  4 +-
 .../model_executor/models/ernie4_5_moe.py     |  3 +-
 .../model_executor/models/ernie4_5_mtp.py     | 60 +++++--------------
 .../models/ernie4_5_vl/ernie4_5_vl_moe.py     |  2 +-
 fastdeploy/model_executor/models/qwen2.py     |  2 +-
 fastdeploy/model_executor/utils.py            |  7 +++
 6 files changed, 27 insertions(+), 51 deletions(-)

diff --git a/fastdeploy/model_executor/model_loader/default_loader_v1.py b/fastdeploy/model_executor/model_loader/default_loader_v1.py
index ce53f0136fa..92f8b773868 100644
--- a/fastdeploy/model_executor/model_loader/default_loader_v1.py
+++ b/fastdeploy/model_executor/model_loader/default_loader_v1.py
@@ -56,8 +56,8 @@ def load_weights(self, model, fd_config: FDConfig, enable_cache: bool = False) -
             load_weights_from_cache(model, weights_iterator)
         else:
             model.load_weights(weights_iterator)
-        if fd_config.speculative_config.model_type != "mtp":
-            process_final_after_loading(model, fd_config)
+
+        process_final_after_loading(model, fd_config)
 
         self.clean_memory_fragments()
 
diff --git a/fastdeploy/model_executor/models/ernie4_5_moe.py b/fastdeploy/model_executor/models/ernie4_5_moe.py
index b0c8481ceb6..7f0b0f106a5 100644
--- a/fastdeploy/model_executor/models/ernie4_5_moe.py
+++ b/fastdeploy/model_executor/models/ernie4_5_moe.py
@@ -609,8 +609,7 @@ def load_weights(self, weights_iterator) -> None:
                 r"\.(up_gate_proj_weight|down_proj_weight|weight|cache_k_scale|cache_v_scale)$", "", model_param_name
             )
             process_weights_after_loading_fn(model_sublayer_name, param)
-
-        if self.tie_word_embeddings:
+        if getattr(self, "tie_word_embeddings", False):
             self.lm_head.linear.weight.set_value(
                 self.ernie.embed_tokens.embeddings.weight.transpose([1, 0]).astype(self.lm_head.linear.weight.dtype)
             )
diff --git a/fastdeploy/model_executor/models/ernie4_5_mtp.py b/fastdeploy/model_executor/models/ernie4_5_mtp.py
index db8499444b2..13203684d53 100644
--- a/fastdeploy/model_executor/models/ernie4_5_mtp.py
+++ b/fastdeploy/model_executor/models/ernie4_5_mtp.py
@@ -16,7 +16,6 @@
 
 from __future__ import annotations
 
-import re
 from functools import partial
 from typing import Dict, Union
 
@@ -354,7 +353,6 @@ def __init__(self, fd_config: FDConfig):
         self.ori_vocab_size = fd_config.model_config.ori_vocab_size
 
         self.lm_head = fd_config.speculative_config.sharing_model.lm_head
-        self.tie_word_embeddings = fd_config.model_config.tie_word_embeddings
 
     @classmethod
     def name(self):
@@ -372,11 +370,6 @@ def set_state_dict(self, state_dict: Dict[str, Union[np.ndarray, paddle.Tensor]]
                 and values are NumPy arrays or PaddlePaddle tensors.
         """
         self.ernie.load_state_dict(state_dict)
-        # if self.tie_word_embeddings:
-        #     self.lm_head.linear.weight.set_value(
-        #         self.ernie.embed_tokens.embeddings.weight.transpose([1, 0]))
-        # else:
-        #     self.lm_head.load_state_dict(state_dict)
 
     @paddle.no_grad()
     def load_weights(self, weights_iterator) -> None:
@@ -386,45 +379,22 @@ def load_weights(self, weights_iterator) -> None:
         Args:
             weights_iterator (Iterator): An iterator yielding (name, weight) pairs.
         """
-
-        from fastdeploy.model_executor.utils import (
-            default_weight_loader,
-            process_weights_after_loading,
+        from fastdeploy.model_executor.models.ernie4_5_moe import (
+            Ernie4_5_MoeForCausalLM,
+        )
+        from fastdeploy.model_executor.utils import remap_weight_keys
+
+        Ernie4_5_MoeForCausalLM.load_weights(
+            self,
+            remap_weight_keys(
+                weights_iterator,
+                {
+                    "mtp_emb_norm.0": "enorm",
+                    "mtp_hidden_norm.0": "hnorm",
+                    "mtp_linear_proj.0": "eh_proj.linear",
+                },
+            ),
         )
-
-        all_param_mapping = [
-            # (param_name, weight_name, expert_id, shard_id)
-            ("embed_tokens.embeddings", "embed_tokens", None, None),
-            ("lm_head.linear", "lm_head", None, None),
-            ("enorm", "mtp_emb_norm.0", None, None),
-            ("hnorm", "mtp_hidden_norm.0", None, None),
-            ("eh_proj.linear", "mtp_linear_proj.0", None, None),
-        ]
-
-        params_dict = dict(self.named_parameters())
-        shard_id = None
-        process_weights_after_loading_fn = process_weights_after_loading(dict(self.named_sublayers()), self.fd_config)
-        for loaded_weight_name, loaded_weight in weights_iterator:
-            for param_name, weight_name, exp_id, shard_id in all_param_mapping:
-                if weight_name not in loaded_weight_name:
-                    continue
-                model_param_name = loaded_weight_name.replace(weight_name, param_name)
-                param = params_dict[model_param_name]
-                shard_id = shard_id
-                break
-            else:
-                if loaded_weight_name not in params_dict.keys():
-                    continue
-                model_param_name = loaded_weight_name
-                param = params_dict[loaded_weight_name]
-
-            # Get weight loader from parameter and set weight
-            weight_loader = getattr(param, "weight_loader", default_weight_loader(self.fd_config))
-            weight_loader(param, loaded_weight)
-            model_sublayer_name = re.sub(
-                r"\.(up_gate_proj_weight|down_proj_weight|weight|cache_k_scale|cache_v_scale)$", "", model_param_name
-            )
-            process_weights_after_loading_fn(model_sublayer_name, param)
 
     def compute_logits(self, hidden_states: paddle.Tensor):
         """
diff --git a/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py b/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
index 331b880be31..7e071b4287e 100644
--- a/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
+++ b/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
@@ -724,7 +724,7 @@ def load_weights(self, weights_iterator) -> None:
                 r"\.(up_gate_proj_weight|down_proj_weight|weight|cache_k_scale|cache_v_scale)$", "", model_param_name
             )
             process_weights_after_loading_fn(model_sublayer_name, param)
-        if self.tie_word_embeddings:
+        if getattr(self, "tie_word_embeddings", False):
             self.lm_head.linear.weight.set_value(
                 self.ernie.embed_tokens.embeddings.weight.transpose([1, 0]).astype(self.lm_head.linear.weight.dtype)
             )
diff --git a/fastdeploy/model_executor/models/qwen2.py b/fastdeploy/model_executor/models/qwen2.py
index 50bfb15b00b..e513492965f 100644
--- a/fastdeploy/model_executor/models/qwen2.py
+++ b/fastdeploy/model_executor/models/qwen2.py
@@ -375,7 +375,7 @@ def load_weights(self, weights_iterator) -> None:
                 weight_loader(param, loaded_weight)
             model_sublayer_name = re.sub(r"\.(weight)$", "", model_param_name)
             process_weights_after_loading_fn(model_sublayer_name, param)
-        if self.tie_word_embeddings:
+        if getattr(self, "tie_word_embeddings", False):
             self.lm_head.linear.weight.set_value(
                 self.qwen2.embed_tokens.embeddings.weight.transpose([1, 0]).astype(self.lm_head.linear.weight.dtype)
             )
diff --git a/fastdeploy/model_executor/utils.py b/fastdeploy/model_executor/utils.py
index 8b7224eb20a..fe0fa421daa 100644
--- a/fastdeploy/model_executor/utils.py
+++ b/fastdeploy/model_executor/utils.py
@@ -209,6 +209,13 @@ def apply(self, weight_name):
         return self._map_name(weight_name)
 
 
+def remap_weight_keys(weights_iterator, mapper: dict):
+    return (
+        (next((key.replace(k, v) for k, v in mapper.items() if k in key), key), value)
+        for key, value in weights_iterator
+    )
+
+
 def process_weights_before_loading(
     *, skip_prefixes: Optional[List[str]] = None, mapper: Optional[WeightsMapper] = None
 ):

From d0c5bcec3d5f71b19a8c82e8908588f216678ebe Mon Sep 17 00:00:00 2001
From: =?UTF-8?q?=E5=91=A8=E5=91=A8=E5=91=A8?=
 <39978853+zhoutianzi666@users.noreply.github.com>
Date: Thu, 25 Dec 2025 11:11:16 +0800
Subject: [PATCH 054/161] [cherry-pick] support FA3 in mixed mode and support
 Qwen3 rope (#5655)

* [Others] Remove useless code (#5404)

* FA3 support qwen3 (#5441)

* commit
---
 .../append_attn/gqa_rope_write_cache.cu       | 154 ++++++++++------
 .../append_attn/pre_cache_len_concat.cu       |  97 +++++-----
 custom_ops/gpu_ops/append_attn/qwen3_rope.h   | 167 ++++++++++++++++++
 custom_ops/gpu_ops/cpp_extensions.cc          |   2 +
 .../layers/attention/append_attn_backend.py   |  15 +-
 .../layers/attention/flash_attn_backend.py    |  96 ++++------
 .../attention/flash_mask_attn_backend.py      |  18 +-
 .../attention/ops/gqa_rope_write_cache.py     |   2 +
 .../attention/ops/pre_cache_len_concat.py     |   3 +-
 tests/layers/test_attention_layer.py          |  27 ++-
 tests/operators/test_pre_cache_len_concat.py  |  10 +-
 11 files changed, 381 insertions(+), 210 deletions(-)
 create mode 100644 custom_ops/gpu_ops/append_attn/qwen3_rope.h

diff --git a/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu b/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu
index 53b7e626651..804bbac4ea8 100644
--- a/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu
+++ b/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu
@@ -17,6 +17,7 @@
 #include "paddle/extension.h"
 #include "paddle/phi/backends/context_pool.h"
 #include "paddle/phi/core/memory/memcpy.h"
+#include "qwen3_rope.h"
 #include "remote_cache_kv_ipc.h"
 
 template <typename T, int VecSize = 1>
@@ -28,7 +29,7 @@ __global__ void GQAVariableLengthRotarySplitKernel(
     const float *k_norm_weight,
     const int *batch_id_per_token,
     const int *cu_seqlens_q,
-    const int *seq_lens,
+    const int *seq_lens_encoder,
     const int *seq_lens_decoder,
     const int *cu_seqlens_k,
     T *qkv_out,
@@ -38,8 +39,8 @@ __global__ void GQAVariableLengthRotarySplitKernel(
     const int64_t elem_cnt,
     const int q_num_head,
     const int kv_num_head,
-    const int seq_len,
-    const int last_dim,
+    const int max_model_len,
+    const int head_dim,
     const bool rope_3d,
     const float rms_norm_eps) {
   using LoadT = AlignedVector<T, VecSize>;
@@ -53,30 +54,33 @@ __global__ void GQAVariableLengthRotarySplitKernel(
   LoadFloat q_norm_vec, k_norm_vec;
   int64_t global_warp_idx = blockDim.y * blockIdx.x + threadIdx.y;
   int64_t all_warp_num = gridDim.x * blockDim.y;
-  const int half_lastdim = last_dim / 2;
+  const int half_headdim = head_dim / 2;
   const int offset =
-      (q_num_head + kv_num_head * 2) * last_dim;  // for all q,k,v
-  const int all_head_num = elem_cnt / last_dim;
+      (q_num_head + kv_num_head * 2) * head_dim;  // for all q,k,v
+  const int all_head_num = elem_cnt / head_dim;
   for (int gloabl_hi = global_warp_idx; gloabl_hi < all_head_num;
        gloabl_hi += all_warp_num) {
     int64_t linear_index =
-        gloabl_hi * last_dim + threadIdx.x * VecSize;  // 全局index
+        gloabl_hi * head_dim + threadIdx.x * VecSize;  // 全局index
     const int token_idx =
         linear_index / offset;  // token id(第几个token,不分qkv)
     const int ori_bi = batch_id_per_token[token_idx];  // 第几个batch
-    if (seq_lens[ori_bi] == 0) continue;
+
+    int cache_kv_len = seq_lens_decoder[ori_bi];
+    // 这里其实是不需要处理的，但是由于FA3的bug，所以必须！
+    if (seq_lens_encoder[ori_bi] == 0) cache_kv_len = 0;
+
     const int bias = linear_index % offset;
-    const int hi = bias / last_dim;
-    const int h_bias = bias % last_dim;
+    const int hi = bias / head_dim;
+    const int h_bias = bias % head_dim;
 
     const int ori_seq_id =
         (token_idx - cu_seqlens_q[ori_bi]) +
-        seq_lens_decoder
-            [ori_bi];  // 在当前seq中的id(拼接了seq到一个batch的情况下有效)
+        cache_kv_len;  // 在当前seq中的id(拼接了seq到一个batch的情况下有效)
     const int64_t emb_idx =
-        ori_seq_id * half_lastdim + h_bias / 2;  // embedding的id
+        ori_seq_id * half_headdim + h_bias / 2;  // embedding的id
     const int64_t base_idx =
-        token_idx * (q_num_head + 2 * kv_num_head) * last_dim + hi * last_dim +
+        token_idx * (q_num_head + 2 * kv_num_head) * head_dim + hi * head_dim +
         h_bias;
     Load<T, VecSize>(&qkv[base_idx], &src_vec);
     const int kv_write_idx = cu_seqlens_k[ori_bi] + ori_seq_id;
@@ -84,21 +88,21 @@ __global__ void GQAVariableLengthRotarySplitKernel(
     T *out_p = nullptr;
     if (hi < q_num_head) {
       base_split_idx =
-          token_idx * q_num_head * last_dim + hi * last_dim + h_bias;
+          token_idx * q_num_head * head_dim + hi * head_dim + h_bias;
       out_p = q;
     } else if (hi < q_num_head + kv_num_head) {
-      base_split_idx = kv_write_idx * kv_num_head * last_dim +
-                       (hi - q_num_head) * last_dim + h_bias;
+      base_split_idx = kv_write_idx * kv_num_head * head_dim +
+                       (hi - q_num_head) * head_dim + h_bias;
       out_p = k;
     } else {
       out_p = v;
-      base_split_idx = kv_write_idx * kv_num_head * last_dim +
-                       (hi - q_num_head - kv_num_head) * last_dim + h_bias;
+      base_split_idx = kv_write_idx * kv_num_head * head_dim +
+                       (hi - q_num_head - kv_num_head) * head_dim + h_bias;
     }
 
     // TODO check this correct or not
     int64_t new_emb_idx =
-        rope_3d ? emb_idx + ori_bi * last_dim * seq_len : emb_idx;
+        rope_3d ? emb_idx + ori_bi * head_dim * max_model_len : emb_idx;
     float thread_m2 = 0.0f;
     float warp_m2 = 0.0f;
 
@@ -122,7 +126,7 @@ __global__ void GQAVariableLengthRotarySplitKernel(
       WelfordWarpAllReduce<float, 32>(thread_m2, &warp_m2);  // 单个head的标准差
 
       if (hi < q_num_head + kv_num_head) {  // only q and k need norm
-        float row_variance = max(warp_m2 / last_dim, 0.0f);
+        float row_variance = max(warp_m2 / head_dim, 0.0f);
         float row_inv_var = Rsqrt(row_variance + rms_norm_eps);
         if (hi < q_num_head) {
           Load<float, VecSize>(&q_norm_weight[threadIdx.x * VecSize],
@@ -165,12 +169,12 @@ __global__ void GQAVariableLengthRotarySplitKernel(
 
 template <typename T>
 void gqa_rotary_qk_split_variable(
-    T *qkv_out,  // [token_num, 3, num_head, dim_head]
+    T *qkv_out,  // [token_num, 3, num_head, head_dim]
     T *q,
     T *k,
     T *v,
     const T *qkv_input,
-    const float *rotary_emb,  // [2, 1, 1, seq_len, dim_head / 2]
+    const float *rotary_emb,  // [2, 1, seq_len, 1, head_dim / 2]
     const float *q_norm_weight,
     const float *k_norm_weight,
     const int *batch_id_per_token,
@@ -181,14 +185,14 @@ void gqa_rotary_qk_split_variable(
     const int token_num,
     const int num_heads,
     const int kv_num_heads,
-    const int seq_len,
+    const int max_model_len,
     const int input_output_len,
-    const int dim_head,
+    const int head_dim,
     const bool rope_3d,
     const float rms_norm_eps,
     const cudaStream_t &stream) {
-  assert(dim_head == 128 && "dim_head must be 128");
-  int64_t elem_nums = token_num * (num_heads + 2 * kv_num_heads) * dim_head;
+  assert(head_dim == 128 && "head_dim must be 128");
+  int64_t elem_nums = token_num * (num_heads + 2 * kv_num_heads) * head_dim;
 
   constexpr int HEAD_DIM = 128;
   constexpr int PackSize = HEAD_DIM / kWarpSize;
@@ -199,7 +203,7 @@ void gqa_rotary_qk_split_variable(
   dim3 block_size(kWarpSize, blocksize / kWarpSize);
 
   const float *cos_emb = rotary_emb;
-  const float *sin_emb = rotary_emb + input_output_len * dim_head / 2;
+  const float *sin_emb = rotary_emb + input_output_len * head_dim / 2;
   launchWithPdlWhenEnabled(GQAVariableLengthRotarySplitKernel<T, PackSize>,
                            grid_size,
                            block_size,
@@ -222,8 +226,8 @@ void gqa_rotary_qk_split_variable(
                            elem_nums,
                            num_heads,
                            kv_num_heads,
-                           seq_len,
-                           dim_head,
+                           max_model_len,
+                           head_dim,
                            rope_3d,
                            rms_norm_eps);
 }
@@ -1133,6 +1137,7 @@ std::vector<paddle::Tensor> GQARopeWriteCacheKernel(
     const int kv_token_num,
     const int max_seq_len,
     const float rms_norm_eps,
+    const bool use_neox_rotary_style,
     const std::string &cache_quant_type,
     const bool rope_3d) {
   typedef PDTraits<paddle::DataType::BFLOAT16> traits_;
@@ -1154,6 +1159,24 @@ std::vector<paddle::Tensor> GQARopeWriteCacheKernel(
       qkv_dims[qkv_dims.size() - 1] / head_dim - 2 * kv_num_heads;
   const float softmax_scale = 1.f / sqrt(head_dim);
 
+  PADDLE_ENFORCE_EQ(batch_id_per_token.dims().size(), 1);
+  PADDLE_ENFORCE_EQ(batch_id_per_token.dims()[0], token_num);
+
+  if (!rope_3d) {
+    PADDLE_ENFORCE_EQ(rotary_embs.dims().size(), 5);
+    PADDLE_ENFORCE_EQ(rotary_embs.dims()[0], 2);
+    PADDLE_ENFORCE_EQ(rotary_embs.dims()[1], 1);
+    PADDLE_ENFORCE_EQ(rotary_embs.dims()[2], max_seq_len);
+    PADDLE_ENFORCE_EQ(rotary_embs.dims()[3], 1);
+    if (use_neox_rotary_style) {
+      // Note(ZKK) Qwen3 like model
+      // the [0,head_dim/2), [head_dim/2,head_dim) data are totally same!
+      PADDLE_ENFORCE_EQ(rotary_embs.dims()[4], head_dim);
+    } else {
+      PADDLE_ENFORCE_EQ(rotary_embs.dims()[4], head_dim / 2);
+    }
+  }
+
   AppendAttnMetaData meta_data;
   meta_data.token_nums = token_num;
   meta_data.kv_num_heads = kv_num_heads;
@@ -1163,9 +1186,6 @@ std::vector<paddle::Tensor> GQARopeWriteCacheKernel(
   meta_data.block_size = block_size;
   meta_data.batch_size = seq_lens_this_time.dims()[0];
 
-  phi::GPUContext *dev_ctx = static_cast<phi::GPUContext *>(
-      phi::DeviceContextPool::Instance().Get(qkv.place()));
-
   auto stream = qkv.stream();
   paddle::Tensor qkv_out = GetEmptyTensor(qkv.dims(), qkv.dtype(), qkv.place());
   paddle::Tensor q = GetEmptyTensor(
@@ -1175,30 +1195,49 @@ std::vector<paddle::Tensor> GQARopeWriteCacheKernel(
   paddle::Tensor v = GetEmptyTensor(
       {kv_token_num, kv_num_heads, head_dim}, qkv.dtype(), qkv.place());
 
-  // rope
-  gqa_rotary_qk_split_variable<data_t>(
-      qkv_out.data<data_t>(),
-      q.data<data_t>(),
-      k.data<data_t>(),
-      v.data<data_t>(),
-      qkv.data<data_t>(),
-      rotary_embs.data<float>(),
-      q_norm_weight ? q_norm_weight.get().data<float>() : nullptr,
-      k_norm_weight ? k_norm_weight.get().data<float>() : nullptr,
-      batch_id_per_token.data<int>(),
-      seq_lens_encoder.data<int>(),
-      seq_lens_decoder.data<int>(),
-      cu_seqlens_q.data<int>(),
-      cu_seqlens_k.data<int>(),
-      token_num,
-      num_heads,
-      kv_num_heads,
-      max_seq_len,
-      rope_3d ? rotary_embs.dims()[3] : rotary_embs.dims()[2],
-      head_dim,
-      rope_3d,
-      rms_norm_eps,
-      stream);
+  if (use_neox_rotary_style) {
+    gqa_rotary_qk_split_variable_qwen3<data_t>(qkv_out.data<data_t>(),
+                                               q.data<data_t>(),
+                                               k.data<data_t>(),
+                                               v.data<data_t>(),
+                                               qkv.data<data_t>(),
+                                               rotary_embs.data<float>(),
+                                               batch_id_per_token.data<int>(),
+                                               seq_lens_encoder.data<int>(),
+                                               seq_lens_decoder.data<int>(),
+                                               cu_seqlens_q.data<int>(),
+                                               cu_seqlens_k.data<int>(),
+                                               token_num,
+                                               num_heads,
+                                               kv_num_heads,
+                                               max_seq_len,
+                                               head_dim,
+                                               stream);
+  } else {
+    gqa_rotary_qk_split_variable<data_t>(
+        qkv_out.data<data_t>(),
+        q.data<data_t>(),
+        k.data<data_t>(),
+        v.data<data_t>(),
+        qkv.data<data_t>(),
+        rotary_embs.data<float>(),
+        q_norm_weight ? q_norm_weight.get().data<float>() : nullptr,
+        k_norm_weight ? k_norm_weight.get().data<float>() : nullptr,
+        batch_id_per_token.data<int>(),
+        seq_lens_encoder.data<int>(),
+        seq_lens_decoder.data<int>(),
+        cu_seqlens_q.data<int>(),
+        cu_seqlens_k.data<int>(),
+        token_num,
+        num_heads,
+        kv_num_heads,
+        max_seq_len,
+        rope_3d ? rotary_embs.dims()[3] : rotary_embs.dims()[2],
+        head_dim,
+        rope_3d,
+        rms_norm_eps,
+        stream);
+  }
 
   if (token_num < kv_token_num) {
     AppendCacheKV<data_t, 128, 64>(key_cache,
@@ -1347,6 +1386,7 @@ PD_BUILD_STATIC_OP(gqa_rope_write_cache)
     .Attrs({"kv_token_num: int",
             "max_seq_len: int",
             "rms_norm_eps: float",
+            "use_neox_rotary_style: bool",
             "cache_quant_type: std::string",
             "rope_3d: bool"})
     .SetKernelFn(PD_KERNEL(GQARopeWriteCacheKernel));
diff --git a/custom_ops/gpu_ops/append_attn/pre_cache_len_concat.cu b/custom_ops/gpu_ops/append_attn/pre_cache_len_concat.cu
index 15da09e081c..492b3a26647 100644
--- a/custom_ops/gpu_ops/append_attn/pre_cache_len_concat.cu
+++ b/custom_ops/gpu_ops/append_attn/pre_cache_len_concat.cu
@@ -16,25 +16,26 @@
 #include "paddle/extension.h"
 #include "paddle/phi/core/memory/memcpy.h"
 
-__global__ void pre_cache_len_concat(const int* __restrict__ seq_lens_decoder,
-                               const int* __restrict__ seq_lens_this_time,
-                               int* __restrict__ cu_seqlens_k,
-                               int* __restrict__ batch_ids,
-                               int* __restrict__ tile_ids_per_batch,
-                               int* __restrict__ num_blocks_x,
-                               int* __restrict__ kv_token_num,
-                               const int bsz,
-                               const int num_row_per_block) {
+__global__ void pre_cache_len_concat(const int* __restrict__ seq_lens_encoder,
+                                     const int* __restrict__ seq_lens_decoder,
+                                     const int* __restrict__ seq_lens_this_time,
+                                     int* __restrict__ cu_seqlens_k,
+                                     int* __restrict__ batch_ids,
+                                     int* __restrict__ tile_ids_per_batch,
+                                     int* __restrict__ num_blocks_x,
+                                     int* __restrict__ kv_token_num,
+                                     const int bsz,
+                                     const int num_row_per_block) {
   if (threadIdx.x == 0) {
     int gridx = 0;
     int index = 0;
     int total_tokens = 0;
     cu_seqlens_k[0] = 0;
     for (uint32_t bid = 0; bid < bsz; bid++) {
-      int cache_len = seq_lens_decoder[bid];
-      const int q_len = seq_lens_this_time[bid];
-      if (q_len <= 0) {
-        cache_len = 0;
+      int cache_len = 0;
+      if (seq_lens_encoder[bid] > 0) {
+        // only deal with chunked prefill case.
+        cache_len = seq_lens_decoder[bid];
       }
       const int loop_times = div_up(cache_len, num_row_per_block);
       for (uint32_t tile_id = 0; tile_id < loop_times; tile_id++) {
@@ -42,6 +43,7 @@ __global__ void pre_cache_len_concat(const int* __restrict__ seq_lens_decoder,
         tile_ids_per_batch[index++] = tile_id;
       }
       gridx += loop_times;
+      const int q_len = seq_lens_this_time[bid];
       total_tokens += (cache_len + q_len);
       cu_seqlens_k[bid + 1] = total_tokens;
     }
@@ -51,6 +53,7 @@ __global__ void pre_cache_len_concat(const int* __restrict__ seq_lens_decoder,
 }
 
 std::vector<paddle::Tensor> PreCacheLenConcat(
+    const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& seq_lens_decoder,
     const paddle::Tensor& seq_lens_this_time,
     const int max_dec_len,
@@ -58,45 +61,43 @@ std::vector<paddle::Tensor> PreCacheLenConcat(
   auto stream = seq_lens_decoder.stream();
   auto place = seq_lens_decoder.place();
   int bsz = seq_lens_this_time.shape()[0];
-  const uint32_t max_tile_size_per_bs_pre_cache = div_up(max_dec_len, block_size);
+  const uint32_t max_tile_size_per_bs_pre_cache =
+      div_up(max_dec_len, block_size);
 
-  paddle::Tensor cu_seqlens_k = GetEmptyTensor(
-    {bsz + 1},
-    paddle::DataType::INT32,
-    place);
+  paddle::Tensor cu_seqlens_k =
+      GetEmptyTensor({bsz + 1}, paddle::DataType::INT32, place);
   paddle::Tensor pre_cache_batch_ids = GetEmptyTensor(
-    {bsz * max_tile_size_per_bs_pre_cache},
-    paddle::DataType::INT32,
-    place);
+      {bsz * max_tile_size_per_bs_pre_cache}, paddle::DataType::INT32, place);
   paddle::Tensor pre_cache_tile_ids_per_batch = GetEmptyTensor(
-    {bsz * max_tile_size_per_bs_pre_cache},
-    paddle::DataType::INT32,
-    place);
+      {bsz * max_tile_size_per_bs_pre_cache}, paddle::DataType::INT32, place);
   paddle::Tensor pre_cache_num_blocks =
-    GetEmptyTensor({1}, paddle::DataType::INT32, place);
+      GetEmptyTensor({1}, paddle::DataType::INT32, place);
   paddle::Tensor kv_token_num =
-    GetEmptyTensor({1}, paddle::DataType::INT32, place);
+      GetEmptyTensor({1}, paddle::DataType::INT32, place);
 
   pre_cache_len_concat<<<1, 32, 0, stream>>>(
-    seq_lens_decoder.data<int>(),
-    seq_lens_this_time.data<int>(),
-    cu_seqlens_k.data<int>(),
-    pre_cache_batch_ids.data<int>(),
-    pre_cache_tile_ids_per_batch.data<int>(),
-    pre_cache_num_blocks.data<int>(),
-    kv_token_num.data<int>(),
-    bsz,
-    block_size
-  );
-  paddle::Tensor pre_cache_num_blocks_cpu = pre_cache_num_blocks.copy_to(paddle::CPUPlace(), false);
-  paddle::Tensor kv_token_num_cpu = kv_token_num.copy_to(paddle::CPUPlace(), false);
+      seq_lens_encoder.data<int>(),
+      seq_lens_decoder.data<int>(),
+      seq_lens_this_time.data<int>(),
+      cu_seqlens_k.data<int>(),
+      pre_cache_batch_ids.data<int>(),
+      pre_cache_tile_ids_per_batch.data<int>(),
+      pre_cache_num_blocks.data<int>(),
+      kv_token_num.data<int>(),
+      bsz,
+      block_size);
+  paddle::Tensor pre_cache_num_blocks_cpu =
+      pre_cache_num_blocks.copy_to(paddle::CPUPlace(), false);
+  paddle::Tensor kv_token_num_cpu =
+      kv_token_num.copy_to(paddle::CPUPlace(), false);
 
-  return {cu_seqlens_k,
-          pre_cache_batch_ids,
-          pre_cache_tile_ids_per_batch,
-          pre_cache_num_blocks_cpu, /*cpu*/
-          kv_token_num_cpu /*cpu*/
-          };
+  return {
+      cu_seqlens_k,
+      pre_cache_batch_ids,
+      pre_cache_tile_ids_per_batch,
+      pre_cache_num_blocks_cpu, /*cpu*/
+      kv_token_num_cpu          /*cpu*/
+  };
 }
 
 std::vector<paddle::DataType> PreCacheLenConcatInferDtype(
@@ -121,15 +122,13 @@ std::vector<std::vector<int64_t>> PreCacheLenConcatInferShape(
 }
 
 PD_BUILD_STATIC_OP(pre_cache_len_concat)
-    .Inputs({"seq_lens_decoder",
-             "seq_lens_this_time"})
+    .Inputs({"seq_lens_encoder", "seq_lens_decoder", "seq_lens_this_time"})
     .Outputs({"cu_seqlens_k",
               "pre_cache_batch_ids",
               "pre_cache_tile_ids_per_batch",
               "pre_cache_num_blocks_cpu", /*cpu*/
-              "kv_token_num_cpu"}) /*cpu*/
-    .Attrs({"max_dec_len: int",
-            "block_size: int"})
+              "kv_token_num_cpu"})        /*cpu*/
+    .Attrs({"max_dec_len: int", "block_size: int"})
     .SetKernelFn(PD_KERNEL(PreCacheLenConcat))
     .SetInferShapeFn(PD_INFER_SHAPE(PreCacheLenConcatInferShape))
     .SetInferDtypeFn(PD_INFER_DTYPE(PreCacheLenConcatInferDtype));
diff --git a/custom_ops/gpu_ops/append_attn/qwen3_rope.h b/custom_ops/gpu_ops/append_attn/qwen3_rope.h
new file mode 100644
index 00000000000..b86e23b95cb
--- /dev/null
+++ b/custom_ops/gpu_ops/append_attn/qwen3_rope.h
@@ -0,0 +1,167 @@
+#include "encoder_write_cache_with_rope_impl.cuh"
+#include "helper.h"
+#include "paddle/extension.h"
+#include "paddle/phi/backends/context_pool.h"
+#include "paddle/phi/core/memory/memcpy.h"
+#include "remote_cache_kv_ipc.h"
+
+template <typename T, int VecSize = 1>
+__global__ void GQAVariableLengthRotarySplitKernel_Qwen3(
+    const T *qkv,
+    const float *cos_emb,
+    const float *sin_emb,
+    const int *batch_id_per_token,
+    const int *cu_seqlens_q,
+    const int *seq_lens_encoder,
+    const int *seq_lens_decoder,
+    const int *cu_seqlens_k,
+    T *qkv_out,
+    T *q,
+    T *k,
+    T *v,
+    const int64_t elem_cnt,
+    const int q_num_head,
+    const int kv_num_head,
+    const int max_model_len,
+    const int head_dim) {
+  using LoadT = AlignedVector<T, VecSize>;
+  using LoadEmbT = AlignedVector<float, VecSize>;
+  LoadEmbT cos_emb_vec;
+  LoadEmbT sin_emb_vec;
+
+  const int64_t global_thread_idx = blockDim.x * blockIdx.x + threadIdx.x;
+  const int offset = (q_num_head + kv_num_head * 2) * (head_dim / 2);
+  const int64_t loop_times = elem_cnt / 2;
+
+  for (int64_t linear_index = global_thread_idx * VecSize;
+       linear_index < loop_times;
+       linear_index += gridDim.x * blockDim.x * VecSize) {
+    const int token_idx = linear_index / offset;
+
+    const int ori_bi = batch_id_per_token[token_idx];  // 第几个batch
+
+    int cache_kv_len = seq_lens_decoder[ori_bi];
+    // 这里其实是不需要处理的，但是由于FA3的bug，所以必须！
+    if (seq_lens_encoder[ori_bi] == 0) cache_kv_len = 0;
+
+    const int bias = linear_index % offset;
+    const int hi = bias / (head_dim / 2);
+    const int h_bias = bias % (head_dim / 2);
+    // we should handle token_idx, hi 头 的 h_bias 部分！
+
+    const int ori_seq_id =
+        (token_idx - cu_seqlens_q[ori_bi]) +
+        cache_kv_len;  // 在当前seq中的id(拼接了seq到一个batch的情况下有效)
+
+    const int half_headdim = head_dim / 2;
+    const int64_t emb_idx = ori_seq_id * head_dim + h_bias;  // embedding的id
+
+    const int64_t read_idx =
+        token_idx * (q_num_head + 2 * kv_num_head) * head_dim + hi * head_dim +
+        h_bias;
+
+    LoadT src_vec0;
+    LoadT src_vec1;
+
+    Load<T, VecSize>(&qkv[read_idx], &src_vec0);
+    Load<T, VecSize>(&qkv[read_idx + 64], &src_vec1);
+
+    const int kv_write_idx = cu_seqlens_k[ori_bi] + ori_seq_id;
+    int64_t base_split_idx;
+    T *out_p = nullptr;
+    if (hi < q_num_head) {
+      base_split_idx =
+          token_idx * q_num_head * head_dim + hi * head_dim + h_bias;
+      out_p = q;
+    } else if (hi < q_num_head + kv_num_head) {
+      base_split_idx = kv_write_idx * kv_num_head * head_dim +
+                       (hi - q_num_head) * head_dim + h_bias;
+      out_p = k;
+    } else {
+      out_p = v;
+      base_split_idx = kv_write_idx * kv_num_head * head_dim +
+                       (hi - q_num_head - kv_num_head) * head_dim + h_bias;
+    }
+
+    // TODO check this correct or not
+    int64_t new_emb_idx = emb_idx;
+
+    if (hi < q_num_head + kv_num_head) {
+      Load<float, VecSize>(&cos_emb[new_emb_idx], &cos_emb_vec);
+      Load<float, VecSize>(&sin_emb[new_emb_idx], &sin_emb_vec);
+#pragma unroll
+      for (int i = 0; i < VecSize; i++) {
+        float input_left = static_cast<float>(src_vec0[i]);
+        float input_right = static_cast<float>(src_vec1[i]);
+
+        const float cos_tmp = cos_emb_vec[i];
+        const float sin_tmp = sin_emb_vec[i];
+        src_vec0[i] =
+            static_cast<T>(input_left * cos_tmp - input_right * sin_tmp);
+        src_vec1[i] =
+            static_cast<T>(input_right * cos_tmp + input_left * sin_tmp);
+      }
+    }
+    Store<T, VecSize>(src_vec0, &qkv_out[read_idx]);
+    Store<T, VecSize>(src_vec0, &out_p[base_split_idx]);
+    Store<T, VecSize>(src_vec1, &qkv_out[read_idx + 64]);
+    Store<T, VecSize>(src_vec1, &out_p[base_split_idx + 64]);
+  }
+}
+
+template <typename T>
+void gqa_rotary_qk_split_variable_qwen3(T *qkv_out,
+                                        T *q,
+                                        T *k,
+                                        T *v,
+                                        const T *qkv_input,
+                                        const float *rotary_emb,
+                                        const int *batch_id_per_token,
+                                        const int *seq_lens_encoder,
+                                        const int *seq_lens_decoder,
+                                        const int *cu_seqlens_q,
+                                        const int *cu_seqlens_k,
+                                        const int token_num,
+                                        const int num_heads,
+                                        const int kv_num_heads,
+                                        const int max_model_len,
+                                        const int head_dim,
+                                        const cudaStream_t &stream) {
+  assert(head_dim == 128 && "head_dim must be 128");
+
+  int64_t elem_nums = token_num * (num_heads + 2 * kv_num_heads) * head_dim;
+
+  constexpr int HEAD_DIM = 128;
+  constexpr int PackSize = 8;
+  const int pack_num = elem_nums / PackSize;
+  const int blocksize = 128;
+  int grid_size = 1;
+  GetNumBlocks<128>(pack_num, &grid_size);
+  dim3 block_size(128);
+
+  const float *cos_emb = rotary_emb;
+  const float *sin_emb = rotary_emb + max_model_len * head_dim;
+  launchWithPdlWhenEnabled(
+      GQAVariableLengthRotarySplitKernel_Qwen3<T, PackSize>,
+      grid_size,
+      block_size,
+      0,
+      stream,
+      qkv_input,
+      cos_emb,
+      sin_emb,
+      batch_id_per_token,
+      cu_seqlens_q,
+      seq_lens_encoder,
+      seq_lens_decoder,
+      cu_seqlens_k,
+      qkv_out,
+      q,
+      k,
+      v,
+      elem_nums,
+      num_heads,
+      kv_num_heads,
+      max_model_len,
+      head_dim);
+}
diff --git a/custom_ops/gpu_ops/cpp_extensions.cc b/custom_ops/gpu_ops/cpp_extensions.cc
index 4d7cc90eeee..85c7d229a70 100644
--- a/custom_ops/gpu_ops/cpp_extensions.cc
+++ b/custom_ops/gpu_ops/cpp_extensions.cc
@@ -190,10 +190,12 @@ std::vector<paddle::Tensor> GQARopeWriteCacheKernel(
     const int kv_token_num,
     const int max_seq_len,
     const float rms_norm_eps,
+    const bool use_neox_rotary_style,
     const std::string& cache_quant_type,
     const bool rope_3d);
 
 std::vector<paddle::Tensor> PreCacheLenConcat(
+    const paddle::Tensor& seq_lens_encoder,
     const paddle::Tensor& seq_lens_decoder,
     const paddle::Tensor& seq_lens_this_time,
     const int max_dec_len,
diff --git a/fastdeploy/model_executor/layers/attention/append_attn_backend.py b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
index 14562c3f7bc..64cc3b32746 100644
--- a/fastdeploy/model_executor/layers/attention/append_attn_backend.py
+++ b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
@@ -209,20 +209,9 @@ def get_kv_cache_shape(
         Calculate kv cache shape
         """
         key_cache_shape = [max_num_blocks, self.kv_num_heads, self.block_size, self.head_dim]
-        value_cache_shape = [max_num_blocks, self.kv_num_heads, self.block_size, self.head_dim]
         if kv_cache_quant_type is not None and kv_cache_quant_type == "int4_zp":
-            key_cache_shape = [
-                max_num_blocks,
-                self.kv_num_heads,
-                self.block_size,
-                self.head_dim // 2,
-            ]
-            value_cache_shape = [
-                max_num_blocks,
-                self.kv_num_heads,
-                self.block_size,
-                self.head_dim // 2,
-            ]
+            key_cache_shape[-1] = self.head_dim // 2
+        value_cache_shape = key_cache_shape
         return key_cache_shape, value_cache_shape
 
     def forward_mixed(
diff --git a/fastdeploy/model_executor/layers/attention/flash_attn_backend.py b/fastdeploy/model_executor/layers/attention/flash_attn_backend.py
index 3f570aacfb0..927ef99b0ae 100644
--- a/fastdeploy/model_executor/layers/attention/flash_attn_backend.py
+++ b/fastdeploy/model_executor/layers/attention/flash_attn_backend.py
@@ -63,13 +63,7 @@ class FlashAttentionMetadata(AttentionMetadata):
     FlashAttentionMetadata
     """
 
-    rotary_embs: Optional[paddle.Tensor] = None
-    block_tables: Optional[paddle.Tensor] = None
-
-    cu_seqlens_q: paddle.Tensor = None
     cu_seqlens_k: paddle.Tensor = None
-    max_seqlen_q: int = 0
-    max_seqlen_k: int = 0
 
     pre_cache_batch_ids = None
     pre_cache_tile_ids_per_batch = None
@@ -83,7 +77,6 @@ class FlashAttentionMetadata(AttentionMetadata):
     _fuse_kernel_compute_dtype: str = "bf16"
     _dtype: paddle.dtype = paddle.bfloat16
 
-    max_len_tensor_cpu: paddle.Tensor = None
     max_len_tensor_cpu_decoder: paddle.Tensor = None
 
 
@@ -109,7 +102,6 @@ def __init__(
         FlashAttentionBackend __init__
         """
         super().__init__()
-        self.attention_metadata: FlashAttentionMetadata = None
         self.max_seq_len = fd_config.model_config.max_model_len
         self.causal = getattr(fd_config.model_config, "causal", True)
 
@@ -133,9 +125,6 @@ def __init__(
 
         self.start_layer_index: int = fd_config.model_config.start_layer_index
 
-        if fd_config.parallel_config.expert_parallel_rank is None:
-            fd_config.parallel_config.expert_parallel_rank = 0
-
         self.rank, self.device_id = init_rank_and_device_id(fd_config)
 
         if self.flash_attn_func is None:
@@ -154,15 +143,12 @@ def __init__(
                     "The current platform does not support Flash Attention V3, so Flash Attention V2 will be used instead."
                 )
         self.rope_3d: bool = getattr(fd_config.model_config, "rope_3d", False)
-        self.max_partition_size: int = int(os.getenv("FLAGS_max_partition_size", "32768"))
+        # Note(ZKK): here must be consistent with append_attn_backend.py
+        self.max_partition_size: int = int(os.getenv("FLAGS_max_partition_size", 1024))
         self.zero_seq_enc_lens_for_decode = paddle.zeros(
             shape=[fd_config.scheduler_config.max_num_seqs, 1], dtype=paddle.int32
         )
 
-    def get_attntion_meta(self):
-        """get_attntion_meta"""
-        return self.attention_metadata
-
     def get_kv_cache_shape(
         self,
         max_num_blocks: int,
@@ -172,27 +158,13 @@ def get_kv_cache_shape(
         Calculate kv cache shape
         """
         key_cache_shape = [max_num_blocks, self.kv_num_heads, self.block_size, self.head_dim]
-        value_cache_shape = [max_num_blocks, self.kv_num_heads, self.block_size, self.head_dim]
         if kv_cache_quant_type is not None and kv_cache_quant_type == "int4_zp":
-            key_cache_shape = [
-                max_num_blocks,
-                self.kv_num_heads,
-                self.block_size,
-                self.head_dim // 2,
-            ]
-            value_cache_shape = [
-                max_num_blocks,
-                self.kv_num_heads,
-                self.block_size,
-                self.head_dim // 2,
-            ]
+            key_cache_shape[-1] = self.head_dim // 2
+        value_cache_shape = key_cache_shape
         return key_cache_shape, value_cache_shape
 
     def init_attention_metadata(self, forward_meta: ForwardMeta):
         metadata = FlashAttentionMetadata()
-        metadata.cu_seqlens_q = forward_meta.cu_seqlens_q
-        metadata.rotary_embs = forward_meta.rotary_embs
-        metadata.block_tables = forward_meta.block_tables
         get_block_shape_and_split_kv_block(
             forward_meta.seq_lens_encoder,
             forward_meta.seq_lens_decoder,
@@ -215,18 +187,20 @@ def init_attention_metadata(self, forward_meta: ForwardMeta):
             self.block_size,
         )
 
-        (
-            metadata.cu_seqlens_k,
-            metadata.pre_cache_batch_ids,
-            metadata.pre_cache_tile_ids_per_batch,
-            metadata.pre_cache_num_blocks_cpu,
-            metadata.kv_token_num_cpu,
-        ) = pre_cache_len_concat(
-            forward_meta.seq_lens_decoder,
-            forward_meta.seq_lens_this_time,
-            forward_meta.max_len_tensor_cpu[2],
-            self.block_size,
-        )
+        if forward_meta.max_len_tensor_cpu[1] > 0:
+            (
+                metadata.cu_seqlens_k,
+                metadata.pre_cache_batch_ids,
+                metadata.pre_cache_tile_ids_per_batch,
+                metadata.pre_cache_num_blocks_cpu,
+                metadata.kv_token_num_cpu,
+            ) = pre_cache_len_concat(
+                forward_meta.seq_lens_encoder,
+                forward_meta.seq_lens_decoder,
+                forward_meta.seq_lens_this_time,
+                forward_meta.max_len_tensor_cpu[2],
+                self.block_size,
+            )
 
         # pd_disaggregation
         metadata.kv_signal_data_list = [None] * self.num_layers
@@ -251,11 +225,10 @@ def init_attention_metadata(self, forward_meta: ForwardMeta):
         elif metadata._dtype == "float32":
             metadata._fuse_kernel_compute_dtype = "fp32"
 
-        metadata.max_len_tensor_cpu = forward_meta.max_len_tensor_cpu
-        metadata.max_len_tensor_cpu_decoder = paddle.clone(metadata.max_len_tensor_cpu)
+        metadata.max_len_tensor_cpu_decoder = paddle.clone(forward_meta.max_len_tensor_cpu)
         metadata.max_len_tensor_cpu_decoder[1] = 0
 
-        self.attention_metadata = metadata
+        forward_meta.attention_metadata = metadata
 
     def forward_mixed(
         self,
@@ -268,7 +241,7 @@ def forward_mixed(
         layer: Attention,
         forward_meta: ForwardMeta,
     ):
-        metadata = self.attention_metadata
+        metadata = forward_meta.attention_metadata
 
         if self.pd_disaggregation_mode == "per_query":
             metadata.kv_signal_data_list[layer.layer_id] = init_signal_layerwise(
@@ -276,19 +249,21 @@ def forward_mixed(
                 layer.layer_id + self.start_layer_index,
             )
 
-        if metadata.max_len_tensor_cpu[1] > 0:
+        use_fa_do_prefill = forward_meta.max_len_tensor_cpu[1].item() > 0
+
+        if use_fa_do_prefill:
             q, k, v, _ = gqa_rope_write_cache(
                 qkv,
                 forward_meta.caches[2 * layer.layer_id],
                 forward_meta.caches[2 * layer.layer_id + 1],
-                metadata.cu_seqlens_q,
+                forward_meta.cu_seqlens_q,
                 metadata.cu_seqlens_k,
-                metadata.rotary_embs,
+                forward_meta.rotary_embs,
                 forward_meta.seq_lens_this_time,
                 forward_meta.seq_lens_encoder,
                 forward_meta.seq_lens_decoder,
                 forward_meta.batch_id_per_token,
-                metadata.block_tables,
+                forward_meta.block_tables,
                 forward_meta.kv_batch_ids,
                 forward_meta.kv_tile_ids_per_batch,
                 forward_meta.kv_num_blocks_x_cpu,
@@ -307,6 +282,7 @@ def forward_mixed(
                 metadata.kv_token_num_cpu[0].item(),
                 self.max_seq_len,
                 getattr(layer, "rms_norm_eps", 1e-6),
+                layer.use_neox_rotary_style,
                 getattr(layer, "cache_quant_type_str", "none"),
                 self.rope_3d,
             )
@@ -315,7 +291,7 @@ def forward_mixed(
                 q,
                 k,
                 v,
-                metadata.cu_seqlens_q,
+                forward_meta.cu_seqlens_q,
                 metadata.cu_seqlens_k,
                 max_seqlen_q=forward_meta.max_len_tensor_cpu[0],
                 max_seqlen_k=forward_meta.max_len_tensor_cpu[3],
@@ -327,23 +303,23 @@ def forward_mixed(
             qkv,
             forward_meta.caches[2 * layer.layer_id],
             forward_meta.caches[2 * layer.layer_id + 1],
-            self.zero_seq_enc_lens_for_decode,
+            self.zero_seq_enc_lens_for_decode if use_fa_do_prefill else forward_meta.seq_lens_encoder,
             forward_meta.seq_lens_decoder,
             forward_meta.seq_lens_this_time,
             forward_meta.batch_id_per_token,
             forward_meta.cu_seqlens_q,
-            metadata.block_tables,
+            forward_meta.block_tables,
             forward_meta.encoder_batch_ids,
             forward_meta.encoder_tile_ids_per_batch,
             forward_meta.encoder_num_blocks_x_cpu,
             forward_meta.kv_batch_ids,
             forward_meta.kv_tile_ids_per_batch,
             forward_meta.kv_num_blocks_x_cpu,
-            forward_meta.decoder_batch_ids,  # from buffer
-            forward_meta.decoder_tile_ids_per_batch,  # from buffer
+            forward_meta.decoder_batch_ids,
+            forward_meta.decoder_tile_ids_per_batch,
             forward_meta.decoder_num_blocks_cpu,
-            metadata.max_len_tensor_cpu_decoder,
-            metadata.rotary_embs,
+            metadata.max_len_tensor_cpu_decoder if use_fa_do_prefill else forward_meta.max_len_tensor_cpu,
+            forward_meta.rotary_embs,
             forward_meta.attn_mask,
             layer.qkv_bias,
             layer.qkv_scale,
@@ -378,7 +354,7 @@ def forward_mixed(
             self.speculative_method is not None,
         )
 
-        if metadata.max_len_tensor_cpu[1] > 0:
+        if use_fa_do_prefill:
             merge_prefill_decode_output(
                 res_encoder,
                 res_decoder,
diff --git a/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py b/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py
index e2b6e4fd38c..e953b64a809 100644
--- a/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py
+++ b/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py
@@ -57,13 +57,7 @@ class FlashMaskAttentionMetadata(AttentionMetadata):
     FlashAttentionMetadata
     """
 
-    rotary_embs: Optional[paddle.Tensor] = None
-    block_tables: Optional[paddle.Tensor] = None
-
-    cu_seqlens_q: paddle.Tensor = None
     cu_seqlens_k: paddle.Tensor = None
-    max_seqlen_q: int = 0
-    max_seqlen_k: int = 0
 
     pre_cache_batch_ids = None
     pre_cache_tile_ids_per_batch = None
@@ -173,9 +167,6 @@ def get_kv_cache_shape(
 
     def init_attention_metadata(self, forward_meta: ForwardMeta):
         metadata = FlashMaskAttentionMetadata()
-        metadata.cu_seqlens_q = forward_meta.cu_seqlens_q
-        metadata.rotary_embs = forward_meta.rotary_embs
-        metadata.block_tables = forward_meta.block_tables
         get_block_shape_and_split_kv_block(
             forward_meta.seq_lens_encoder,
             forward_meta.seq_lens_decoder,
@@ -265,14 +256,14 @@ def forward_mixed(
                 qkv,
                 forward_meta.caches[2 * layer.layer_id],
                 forward_meta.caches[2 * layer.layer_id + 1],
-                metadata.cu_seqlens_q,
+                forward_meta.cu_seqlens_q,
                 metadata.cu_seqlens_k,
-                metadata.rotary_embs,
+                forward_meta.rotary_embs,
                 forward_meta.seq_lens_this_time,
                 forward_meta.seq_lens_encoder,
                 forward_meta.seq_lens_decoder,
                 forward_meta.batch_id_per_token,
-                metadata.block_tables,
+                forward_meta.block_tables,
                 forward_meta.kv_batch_ids,
                 forward_meta.kv_tile_ids_per_batch,
                 forward_meta.kv_num_blocks_x_cpu,
@@ -291,6 +282,7 @@ def forward_mixed(
                 metadata.kv_token_num_cpu[0].item(),
                 self.max_seq_len,
                 getattr(layer, "rms_norm_eps", 1e-6),
+                layer.use_neox_rotary_style,
                 getattr(layer, "cache_quant_type_str", "none"),
                 self.rope_3d,
             )
@@ -299,7 +291,7 @@ def forward_mixed(
                 q,
                 k,
                 v,
-                metadata.cu_seqlens_q,
+                forward_meta.cu_seqlens_q,
                 metadata.cu_seqlens_k,
                 forward_meta.seq_lens_encoder,
                 res_encoder,
diff --git a/fastdeploy/model_executor/layers/attention/ops/gqa_rope_write_cache.py b/fastdeploy/model_executor/layers/attention/ops/gqa_rope_write_cache.py
index 670fa65f3ef..ef9ab022dd0 100644
--- a/fastdeploy/model_executor/layers/attention/ops/gqa_rope_write_cache.py
+++ b/fastdeploy/model_executor/layers/attention/ops/gqa_rope_write_cache.py
@@ -51,6 +51,7 @@ def gqa_rope_write_cache(
     kv_token_num: int = 1,
     max_seq_len: int = 0,
     rms_norm_eps: float = 1e-6,
+    use_neox_rotary_style: bool = False,
     cache_quant_type: str = "none",
     rope_3d: bool = False,
 ):
@@ -87,6 +88,7 @@ def gqa_rope_write_cache(
             kv_token_num,
             max_seq_len,
             rms_norm_eps,
+            use_neox_rotary_style,
             cache_quant_type,
             rope_3d,
         )
diff --git a/fastdeploy/model_executor/layers/attention/ops/pre_cache_len_concat.py b/fastdeploy/model_executor/layers/attention/ops/pre_cache_len_concat.py
index 42a931d18f4..68eed2c8a21 100644
--- a/fastdeploy/model_executor/layers/attention/ops/pre_cache_len_concat.py
+++ b/fastdeploy/model_executor/layers/attention/ops/pre_cache_len_concat.py
@@ -24,6 +24,7 @@
 
 
 def pre_cache_len_concat(
+    seq_lens_encoder: paddle.Tensor,
     seq_lens_decoder: paddle.Tensor,
     seq_lens_this_time: paddle.Tensor,
     max_dec_len: int = 0,
@@ -32,7 +33,7 @@ def pre_cache_len_concat(
     if current_platform.is_cuda():
         from fastdeploy.model_executor.ops.gpu import pre_cache_len_concat
 
-        out = pre_cache_len_concat(seq_lens_decoder, seq_lens_this_time, max_dec_len, block_size)
+        out = pre_cache_len_concat(seq_lens_encoder, seq_lens_decoder, seq_lens_this_time, max_dec_len, block_size)
         return out
     else:
         raise NotImplementedError
diff --git a/tests/layers/test_attention_layer.py b/tests/layers/test_attention_layer.py
index 106cb93cdc4..0acbada357b 100644
--- a/tests/layers/test_attention_layer.py
+++ b/tests/layers/test_attention_layer.py
@@ -71,7 +71,6 @@ def setUp(self):
         self.fd_config.parallel_config.tp_group = [0]
 
         # Initialize Attention Layer
-        os.environ["FD_ATTENTION_BACKEND"] = "APPEND_ATTN"
         attn_cls = get_attention_backend()
         self.attn_backend = attn_cls(
             self.fd_config,
@@ -123,10 +122,10 @@ def create_model_config_json(self) -> str:
             "max_position_embeddings": 131072,
             "max_model_len": 131072,
             "head_dim": 128,
-            "hidden_size": 4096,
-            "num_attention_heads": 32,
-            "num_key_value_heads": 4,
-            "num_hidden_layers": 57,
+            "hidden_size": 8192,
+            "num_attention_heads": 64,
+            "num_key_value_heads": 8,
+            "num_hidden_layers": 2,
         }
         model_dir = tempfile.mkdtemp(prefix="tmp_model_config_")
         config_path = os.path.join(model_dir, "config.json")
@@ -158,6 +157,7 @@ def create_fd_config_from_model_path(self, model_path, tensor_parallel_size=1):
                 dense_quant_type="block_wise_fp8",
                 moe_quant_type="block_wise_fp8",
                 kv_cache_quant_type="float8_e4m3fn",
+                # kv_cache_quant_type=None,
             ),
             graph_opt_config=GraphOptimizationConfig({}),
             commit_config=CommitConfig(),
@@ -270,7 +270,7 @@ def create_forward_meta(
             partial_rotary_factor=fd_config.model_config.partial_rotary_factor,
         )
 
-        input_ids = paddle.zeros([batch_size, seq_len if mode == ForwardMode.EXTEND else 1], dtype="int64")
+        input_ids = paddle.zeros([batch_size, max_model_len], dtype="int64")
         token_num = paddle.sum(seq_lens_this_time)
         ids_remove_padding, batch_id_per_token, cu_seqlens_q, cu_seqlens_k = get_padding_offset(
             input_ids, token_num, seq_lens_this_time
@@ -294,12 +294,13 @@ def create_forward_meta(
             attn_mask_offsets=None,
             **attn_backend_buffers,
         )
-        return forward_meta
+
+        hidden_states = paddle.randn([token_num, self.fd_config.model_config.hidden_size], dtype="bfloat16")
+        return forward_meta, hidden_states
 
     def test_decode_performance_with_prefill(self):
         # Test parameters
         test_steps = 100
-        act_tensor_dtype = paddle.bfloat16
 
         # prefill_batch_size = 1
         # prefill_seq_len = 4096
@@ -356,11 +357,7 @@ def test_decode_performance_with_prefill(self):
         # p.step()
 
         for decode_batch_size in [32, 16, 8, 4, 2]:
-            decode_hidden_states = paddle.randn(
-                [decode_batch_size, self.fd_config.model_config.hidden_size], dtype=act_tensor_dtype
-            )
-
-            forward_meta = self.create_forward_meta(
+            forward_meta, hidden_states = self.create_forward_meta(
                 batch_size=decode_batch_size,
                 seq_len=36 * 1024,
                 mode=ForwardMode.DECODE,
@@ -374,12 +371,12 @@ def test_decode_performance_with_prefill(self):
             paddle.device.synchronize()
 
             # 必须要先预热一次！因为预处理被放到了第一层再做了！
-            self.attn_forward(forward_meta, decode_hidden_states)
+            self.attn_forward(forward_meta, hidden_states)
 
             attn_cuda_graphs = graphs.CUDAGraph()
             attn_cuda_graphs.capture_begin()
 
-            self.attn_forward(forward_meta, decode_hidden_states)
+            self.attn_forward(forward_meta, hidden_states)
 
             attn_cuda_graphs.capture_end()
 
diff --git a/tests/operators/test_pre_cache_len_concat.py b/tests/operators/test_pre_cache_len_concat.py
index 4844c1c712d..84389a104f5 100644
--- a/tests/operators/test_pre_cache_len_concat.py
+++ b/tests/operators/test_pre_cache_len_concat.py
@@ -69,7 +69,10 @@ def test_smoke_shapes(self):
         seq_lens_decoder_t = paddle.to_tensor(seq_lens_decoder, dtype="int32")
         seq_lens_this_time_t = paddle.to_tensor(seq_lens_this_time, dtype="int32")
 
-        outputs = pre_cache_len_concat(seq_lens_decoder_t, seq_lens_this_time_t, max_dec_len, block_size)
+        seq_lens_encoder_t = seq_lens_this_time_t
+        outputs = pre_cache_len_concat(
+            seq_lens_encoder_t, seq_lens_decoder_t, seq_lens_this_time_t, max_dec_len, block_size
+        )
         cu_seqlens_k, batch_ids, tile_ids, num_blocks, kv_token_num = [out.numpy() for out in outputs]
 
         # Shape checks
@@ -91,8 +94,11 @@ def test_strict_values_with_ref(self):
 
         seq_lens_decoder_t = paddle.to_tensor(seq_lens_decoder, dtype="int32")
         seq_lens_this_time_t = paddle.to_tensor(seq_lens_this_time, dtype="int32")
+        seq_lens_encoder_t = seq_lens_this_time_t
 
-        outputs = pre_cache_len_concat(seq_lens_decoder_t, seq_lens_this_time_t, max_dec_len, block_size)
+        outputs = pre_cache_len_concat(
+            seq_lens_encoder_t, seq_lens_decoder_t, seq_lens_this_time_t, max_dec_len, block_size
+        )
         cu_seqlens_k, batch_ids, tile_ids, num_blocks, kv_token_num = [out.numpy() for out in outputs]
 
         # Reference implementation

From 9a8e2152b128f6402a6b5e0fa07d4c0234e06835 Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Thu, 25 Dec 2025 20:09:16 +0800
Subject: [PATCH 055/161] [BugFix][Cherry-Pick] cp fix logprob bug(#5604)
 (#5770)

---
 fastdeploy/scheduler/splitwise_scheduler.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/fastdeploy/scheduler/splitwise_scheduler.py b/fastdeploy/scheduler/splitwise_scheduler.py
index 83f763ad454..5b85f64316d 100644
--- a/fastdeploy/scheduler/splitwise_scheduler.py
+++ b/fastdeploy/scheduler/splitwise_scheduler.py
@@ -17,6 +17,7 @@
 import copy
 import hashlib
 import math
+import pickle
 import random
 import threading
 import time
@@ -412,8 +413,7 @@ def sync_results(self, keys):
             for result in results:
                 try:
                     # logger.info(f"Scheduler Get Results: {result.request_id}")
-                    data = orjson.loads(result)
-                    result = RequestOutput.from_dict(data)
+                    result = pickle.loads(result)
                     self.data.appendleft(result)
                 except Exception as e:
                     logger.error(f"Parse Result Error:{e}, {str(traceback.format_exc())}, {result}")
@@ -892,7 +892,7 @@ def put_results(self, results):
             if self.role == "prefill" and result.outputs.send_idx == 0:
                 result.finished = False
 
-            result_str = orjson.dumps(result.to_dict())
+            result_str = pickle.dumps(result, protocol=5)
             # if self.role == "prefill" or result.error_code != 200 or result.finished:
             #    logger.info(f"Infer Put Finish Result: {result_str}")
             groups[key].append(result_str)

From c170fc4dc506bb2044d36ae609e30fe021caf9b2 Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Fri, 26 Dec 2025 15:31:46 +0800
Subject: [PATCH 056/161] [FDConfig][Cherry-Pick] Cp disable mm chunked(#5774)
 (#5775)

* disable chunked_mm_input in ernie5

* cp_disable_mm_chunked

* update test case

* update code
---
 fastdeploy/config.py                               | 14 ++++++++++++++
 fastdeploy/utils.py                                | 13 +++++--------
 tests/eplb/test_eplb_utils.py                      |  1 +
 tests/eplb/test_experts_manager.py                 |  1 +
 .../test_cuda_graph_recapture.py                   |  1 +
 .../test_cuda_graph_spec_decode.py                 |  1 +
 tests/graph_optimization/test_graph_opt_backend.py |  2 ++
 .../test_static_graph_cuda_graph_split.py          |  1 +
 tests/layers/test_speculative_sampler.py           |  1 +
 tests/utils.py                                     |  1 +
 tests/utils/test_config.py                         |  4 ++++
 tests/utils/test_download.py                       |  2 +-
 tests/v1/cache_manager/test_prefix_cache.py        |  1 +
 tests/v1/cache_manager/test_revert_blocks.py       |  1 +
 tests/v1/test_resource_manager_v1.py               |  1 +
 15 files changed, 36 insertions(+), 9 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index 1cc06562ae7..13c93279be1 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -127,6 +127,11 @@ class ErnieArchitectures:
         "Ernie4_5_VLMoeForProcessRewardModel",
     }
 
+    ERNIE5_MODELS = {
+        "Ernie5ForCausalLM",
+        "Ernie5MoeForCausalLM",
+    }
+
     @classmethod
     def register_ernie_model_arch(cls, model_class):
         if model_class.name().startswith("Ernie") and model_class.name() not in cls.ARCHITECTURES:
@@ -142,6 +147,11 @@ def is_ernie_arch(cls, architecture):
         """Check if the given architecture is an ERNIE architecture."""
         return architecture in cls.ARCHITECTURES
 
+    @classmethod
+    def is_ernie5_arch(cls, architectures):
+        """Check if the given architecture is an ERNIE5 architecture."""
+        return any(arch in architectures for arch in cls.ERNIE5_MODELS)
+
 
 PRETRAINED_INIT_CONFIGURATION = {
     "top_p": 1.0,
@@ -1782,6 +1792,10 @@ def postprocess(self):
         else:
             raise NotImplementedError
 
+        if ErnieArchitectures.is_ernie5_arch(self.model_config.architectures):
+            # ernie5 model not support chunked_mm_input
+            self.cache_config.disable_chunked_mm_input = True
+
     def check(self):
         """
         check the legality of config
diff --git a/fastdeploy/utils.py b/fastdeploy/utils.py
index a0878fa7c73..0142e65f16f 100644
--- a/fastdeploy/utils.py
+++ b/fastdeploy/utils.py
@@ -970,7 +970,6 @@ def check_download_links(bos_client, links, timeout=1):
 def init_bos_client():
     from baidubce.auth.bce_credentials import BceCredentials
     from baidubce.bce_client_configuration import BceClientConfiguration
-    from baidubce.exception import BceHttpClientError, BceServerError
     from baidubce.services.bos.bos_client import BosClient
 
     cfg = BceClientConfiguration(
@@ -981,14 +980,12 @@ def init_bos_client():
     try:
         client = BosClient(cfg)
         client.list_buckets()
-    except BceServerError as e:
-        if e.status_code == 403:
-            raise Exception("BOS authentication failed: Invalid AK/SK") from e
-        raise Exception(f"BOS connection failed: {str(e)}") from e
-    except BceHttpClientError as e:
-        raise Exception(f"Invalid BOS endpoint configuration: {str(e)}") from e
     except Exception as e:
-        raise Exception(f"BOS client validation error: {str(e)}") from e
+        raise Exception(
+            "Create BOSClient Error, Please check your ENV [ ENCODE_FEATURE_BOS_AK, ENCODE_FEATURE_BOS_SK, ENCODE_FEATURE_ENDPOINT ] \n"
+            f"Current ENV AK: {envs.ENCODE_FEATURE_BOS_AK}, SK: {envs.ENCODE_FEATURE_BOS_SK}, Endpoint: {envs.ENCODE_FEATURE_ENDPOINT} \n"
+            f"{str(e)}"
+        )
     return client
 
 
diff --git a/tests/eplb/test_eplb_utils.py b/tests/eplb/test_eplb_utils.py
index 675a2daee18..7ba49b8c825 100644
--- a/tests/eplb/test_eplb_utils.py
+++ b/tests/eplb/test_eplb_utils.py
@@ -175,6 +175,7 @@ def setUp(self):
         model_cfg.moe_num_experts = 64
         model_cfg.moe_layer_start_index = 1
         model_cfg.model = "/test/model"
+        model_cfg.architectures = ["test_model"]
         cache_cfg.bytes_per_layer_per_block = 1
 
         parallel_cfg = ParallelConfig(args)
diff --git a/tests/eplb/test_experts_manager.py b/tests/eplb/test_experts_manager.py
index 01882f71d32..24e8dbd5aac 100644
--- a/tests/eplb/test_experts_manager.py
+++ b/tests/eplb/test_experts_manager.py
@@ -55,6 +55,7 @@ def setUp(self):
         model_cfg.moe_num_experts = 64
         model_cfg.moe_layer_start_index = 1
         model_cfg.model = "/test/model"
+        model_cfg.architectures = ["test_model"]
         cache_cfg.bytes_per_layer_per_block = 1
 
         parallel_cfg = ParallelConfig(args)
diff --git a/tests/graph_optimization/test_cuda_graph_recapture.py b/tests/graph_optimization/test_cuda_graph_recapture.py
index 85516f8bd34..932a1966f9f 100644
--- a/tests/graph_optimization/test_cuda_graph_recapture.py
+++ b/tests/graph_optimization/test_cuda_graph_recapture.py
@@ -112,6 +112,7 @@ def test_cuda_graph_recapture(self):
         parallel_config = ParallelConfig(args={})
         model_config = Mock()
         model_config.max_model_len = 5120
+        model_config.architectures = ["test_model"]
         fd_config = FDConfig(
             graph_opt_config=graph_opt_config,
             scheduler_config=scheduler_config,
diff --git a/tests/graph_optimization/test_cuda_graph_spec_decode.py b/tests/graph_optimization/test_cuda_graph_spec_decode.py
index 10f4237a9de..f81d4b11cf8 100644
--- a/tests/graph_optimization/test_cuda_graph_spec_decode.py
+++ b/tests/graph_optimization/test_cuda_graph_spec_decode.py
@@ -105,6 +105,7 @@ def test_cuda_graph_spec_decode(self):
         parallel_config = ParallelConfig(args={})
         model_config = Mock()
         model_config.max_model_len = 512
+        model_config.architectures = ["test_model"]
         # Initialize cuda graph capture list
         graph_opt_config._set_cudagraph_sizes(max_capture_size=scheduler_config.max_num_seqs)
         graph_opt_config.init_with_cudagrpah_size(max_capture_size=scheduler_config.max_num_seqs)
diff --git a/tests/graph_optimization/test_graph_opt_backend.py b/tests/graph_optimization/test_graph_opt_backend.py
index ff5d1fcd62d..e4bac358e53 100644
--- a/tests/graph_optimization/test_graph_opt_backend.py
+++ b/tests/graph_optimization/test_graph_opt_backend.py
@@ -97,6 +97,7 @@ def setUp(self):
         baseline_parallel_config = ParallelConfig(args={})
         model_config = Mock()
         model_config.max_model_len = 512
+        model_config.architectures = ["test_model"]
         self.baseline_fd_config = FDConfig(
             graph_opt_config=baseline_graph_opt_config,
             scheduler_config=baseline_scheduler_config,
@@ -144,6 +145,7 @@ def _setup_test_config(
         parallel_config = ParallelConfig(args={})
         model_config = Mock()
         model_config.max_model_len = 512
+        model_config.architectures = ["test_model"]
 
         # Create FD config
         return FDConfig(
diff --git a/tests/graph_optimization/test_static_graph_cuda_graph_split.py b/tests/graph_optimization/test_static_graph_cuda_graph_split.py
index 366b35d61d1..9d2b419512e 100644
--- a/tests/graph_optimization/test_static_graph_cuda_graph_split.py
+++ b/tests/graph_optimization/test_static_graph_cuda_graph_split.py
@@ -97,6 +97,7 @@ def test(self):
         parallel_config = ParallelConfig(args={})
         model_config = Mock()
         model_config.max_model_len = 512
+        model_config.architectures = ["test_model"]
         fd_config = FDConfig(
             graph_opt_config=graph_opt_config,
             scheduler_config=scheduler_config,
diff --git a/tests/layers/test_speculative_sampler.py b/tests/layers/test_speculative_sampler.py
index e1450307104..c62baa74ece 100644
--- a/tests/layers/test_speculative_sampler.py
+++ b/tests/layers/test_speculative_sampler.py
@@ -83,6 +83,7 @@ def _create_default_sampling_metadata(
 def _create_fd_config(max_model_len):
     model_config: Mock = Mock()
     model_config.max_model_len = max_model_len
+    model_config.architectures = ["test_model"]
     speculative_config = SpeculativeConfig({})
     graph_opt_config = GraphOptimizationConfig({})
     scheduler_config = SchedulerConfig({})
diff --git a/tests/utils.py b/tests/utils.py
index b6bf65317a8..ff178b594e5 100644
--- a/tests/utils.py
+++ b/tests/utils.py
@@ -60,6 +60,7 @@ def __init__(self):
         self.model_format = "auto"
         self.enable_mm = False
         self.max_model_len = 512
+        self.architectures = ["test_model"]
 
 
 def get_default_test_fd_config():
diff --git a/tests/utils/test_config.py b/tests/utils/test_config.py
index 82f06ef0ea8..4f491052067 100644
--- a/tests/utils/test_config.py
+++ b/tests/utils/test_config.py
@@ -38,6 +38,7 @@ def test_fdconfig_nnode(self):
         scheduler_config = SchedulerConfig({})
         model_config = Mock()
         model_config.max_model_len = 512
+        model_config.architectures = ["test_model"]
         fd_config = FDConfig(
             parallel_config=parallel_config,
             graph_opt_config=graph_opt_config,
@@ -59,6 +60,7 @@ def test_fdconfig_ips(self):
         scheduler_config = SchedulerConfig({})
         model_config = Mock()
         model_config.max_model_len = 512
+        model_config.architectures = ["test_model"]
         fd_config = FDConfig(
             parallel_config=parallel_config,
             graph_opt_config=graph_opt_config,
@@ -80,6 +82,7 @@ def test_fdconfig_max_num_tokens(self):
         scheduler_config = SchedulerConfig({})
         model_config: Mock = Mock()
         model_config.max_model_len = 512
+        model_config.architectures = ["test_model"]
 
         fd_config = FDConfig(
             parallel_config=parallel_config,
@@ -119,6 +122,7 @@ def test_fdconfig_init_cache(self):
         scheduler_config.splitwise_role = "prefill"
         model_config: Mock = Mock()
         model_config.max_model_len = 512
+        model_config.architectures = ["test_model"]
 
         fd_config = FDConfig(
             parallel_config=parallel_config,
diff --git a/tests/utils/test_download.py b/tests/utils/test_download.py
index 50b8e99c07d..15369f4671a 100644
--- a/tests/utils/test_download.py
+++ b/tests/utils/test_download.py
@@ -127,7 +127,7 @@ def test_init_bos_client_missing_envs(self):
 
         with self.assertRaises(Exception) as context:
             init_bos_client()
-        self.assertIn("BOS client validation error", str(context.exception))
+        self.assertIn("Create BOSClient Error, Please check your ENV", str(context.exception))
         os.environ.clear()
 
 
diff --git a/tests/v1/cache_manager/test_prefix_cache.py b/tests/v1/cache_manager/test_prefix_cache.py
index 8107d5597b2..1d4111f681a 100644
--- a/tests/v1/cache_manager/test_prefix_cache.py
+++ b/tests/v1/cache_manager/test_prefix_cache.py
@@ -33,6 +33,7 @@ def make_prefix_cache_manager(max_num_seqs, enable_mm=False, num_gpu_blocks_over
     model_cfg = SimpleNamespace(enable_mm=enable_mm, max_model_len=4196)
     speculative_cfg = SimpleNamespace(method=None)
     model_cfg.print = print
+    model_cfg.architectures = ["test_model"]
     cache_cfg.bytes_per_layer_per_block = 1
     parallel_cfg = ParallelConfig(args)
     scheduler_cfg = SchedulerConfig(args)
diff --git a/tests/v1/cache_manager/test_revert_blocks.py b/tests/v1/cache_manager/test_revert_blocks.py
index 5c23f4faea8..8e3e864c669 100644
--- a/tests/v1/cache_manager/test_revert_blocks.py
+++ b/tests/v1/cache_manager/test_revert_blocks.py
@@ -35,6 +35,7 @@ def make_prefix_cache_manager(max_num_seqs, enable_mm=False, num_gpu_blocks_over
     model_cfg = SimpleNamespace(enable_mm=enable_mm, max_model_len=4196)
     speculative_cfg = SimpleNamespace(method=None)
     model_cfg.print = print
+    model_cfg.architectures = ["test_model"]
     cache_cfg.bytes_per_layer_per_block = 1
     parallel_cfg = ParallelConfig(args)
     scheduler_cfg = SchedulerConfig(args)
diff --git a/tests/v1/test_resource_manager_v1.py b/tests/v1/test_resource_manager_v1.py
index 038a18b403e..3864f41eb88 100644
--- a/tests/v1/test_resource_manager_v1.py
+++ b/tests/v1/test_resource_manager_v1.py
@@ -27,6 +27,7 @@ def setUp(self):
         model_cfg = SimpleNamespace(enable_mm=True)  # Enable multimodal for feature testing
         speculative_cfg = SimpleNamespace(method=None)
         model_cfg.print = print
+        model_cfg.architectures = ["test_model"]
         model_cfg.max_model_len = 5120
         cache_cfg.bytes_per_layer_per_block = 1
         parallel_cfg = ParallelConfig(args)

From c78c3be0d3ecbaa617600e4938ec955622621dc4 Mon Sep 17 00:00:00 2001
From: chenjian <1435317881@qq.com>
Date: Mon, 29 Dec 2025 09:52:18 +0800
Subject: [PATCH 057/161] [BugFix] Fix preemption out of real_bsz (#5806)

---
 fastdeploy/output/token_processor.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
index 109df4d2c36..080ba82bf88 100644
--- a/fastdeploy/output/token_processor.py
+++ b/fastdeploy/output/token_processor.py
@@ -178,7 +178,7 @@ def _reschedule_preempt_task(self, batch_size):
         if envs.ENABLE_V1_KVCACHE_SCHEDULER:
             need_to_be_reschedule_req_ids = list(self.resource_manager.to_be_rescheduled_request_id_set)
             for request_id in need_to_be_reschedule_req_ids:
-                if self.resource_manager.requests[request_id].idx >= (
+                if self.resource_manager.requests[request_id].idx > (
                     batch_size - 1
                 ):  # No more token generated for preempted request
                     self.resource_manager.reschedule_preempt_task(request_id)

From df775c2811c614862d80c7784d8103a02250099e Mon Sep 17 00:00:00 2001
From: kxz2002 <115912648+kxz2002@users.noreply.github.com>
Date: Mon, 29 Dec 2025 09:56:42 +0800
Subject: [PATCH 058/161] [BugFix] Fix process_response_dict to support async
 in serving_completion (#5758) (#5802)

* support process_response_dict async initial commit

* fixbug

* add unit test

* optimize
---
 .../entrypoints/openai/serving_completion.py  |  25 ++-
 .../openai/test_max_streaming_tokens.py       | 208 ++++++++++++++++++
 2 files changed, 226 insertions(+), 7 deletions(-)

diff --git a/fastdeploy/entrypoints/openai/serving_completion.py b/fastdeploy/entrypoints/openai/serving_completion.py
index fd4b9599598..fb3acb41ad8 100644
--- a/fastdeploy/entrypoints/openai/serving_completion.py
+++ b/fastdeploy/entrypoints/openai/serving_completion.py
@@ -15,6 +15,7 @@
 """
 
 import asyncio
+import inspect
 import itertools
 import time
 import traceback
@@ -73,6 +74,7 @@ def __init__(self, engine_client, models, pid, ips, max_waiting_time):
         else:
             self.master_ip = "0.0.0.0"
             self.is_master_ip = True
+        self._is_process_response_dict_async = None
         api_server_logger.info(f"master ip: {self.master_ip}")
 
     def _check_master(self):
@@ -310,10 +312,7 @@ async def completion_full_generator(
                         aggregated_prompt_logprobs_tensors[rid] = output_prompt_logprobs_tensors
 
                     aggregated_token_ids[rid].extend(data["outputs"]["token_ids"])
-
-                    self.engine_client.data_processor.process_response_dict(
-                        data, stream=False, include_stop_str_in_output=request.include_stop_str_in_output
-                    )
+                    await self._call_process_response_dict(data, request, stream=False)
                     output_tokens[rid] += len(data["outputs"]["token_ids"])
                     completion_batched_token_ids[rid].extend(data["outputs"]["token_ids"])
 
@@ -487,9 +486,7 @@ async def completion_stream_generator(
                             )
                         first_iteration[idx] = False
 
-                    self.engine_client.data_processor.process_response_dict(
-                        res, stream=True, include_stop_str_in_output=request.include_stop_str_in_output
-                    )
+                    await self._call_process_response_dict(res, request, stream=True)
                     if res["metrics"].get("first_token_time") is not None:
                         arrival_time = res["metrics"]["first_token_time"]
                         inference_start_time[idx] = res["metrics"]["inference_start_time"]
@@ -726,6 +723,20 @@ def request_output_to_completion_response(
             usage=usage,
         )
 
+    async def _call_process_response_dict(self, res, request, stream):
+        if self._is_process_response_dict_async is None:
+            self._is_process_response_dict_async = inspect.iscoroutinefunction(
+                self.engine_client.data_processor.process_response_dict
+            )
+        if self._is_process_response_dict_async:
+            await self.engine_client.data_processor.process_response_dict(
+                res, stream=stream, include_stop_str_in_output=request.include_stop_str_in_output
+            )
+        else:
+            self.engine_client.data_processor.process_response_dict(
+                res, stream=stream, include_stop_str_in_output=request.include_stop_str_in_output
+            )
+
     def _create_completion_logprobs(
         self,
         output_top_logprobs,
diff --git a/tests/entrypoints/openai/test_max_streaming_tokens.py b/tests/entrypoints/openai/test_max_streaming_tokens.py
index ed11226c32e..26e91382502 100644
--- a/tests/entrypoints/openai/test_max_streaming_tokens.py
+++ b/tests/entrypoints/openai/test_max_streaming_tokens.py
@@ -1,3 +1,4 @@
+import inspect
 import json
 import unittest
 from unittest import IsolatedAsyncioTestCase
@@ -726,6 +727,213 @@ async def test_completion_stream_usage_fields(self, mock_logger):
             "reasoning_tokens count mismatch",
         )
 
+    @patch("fastdeploy.entrypoints.openai.serving_completion.api_server_logger")
+    async def test_completion_full_generator_async_process_response_dict(self, mock_logger):
+        final_response_data = [
+            {
+                "request_id": "test_request_id_0",
+                "outputs": {
+                    "token_ids": [7, 8, 9],
+                    "text": " world!",
+                },
+                "finished": True,
+                "metrics": {},
+            },
+            {
+                "request_id": "test_request_id_1",
+                "outputs": {
+                    "token_ids": [10, 11, 12],
+                    "text": " there!",
+                },
+                "finished": True,
+                "metrics": {},
+            },
+        ]
+
+        mock_response_queue = AsyncMock()
+        mock_response_queue.get.side_effect = [
+            [final_response_data[0]],
+            [final_response_data[1]],
+        ]
+
+        mock_dealer = Mock()
+        mock_dealer.write = Mock()
+
+        self.engine_client.connection_manager.get_connection.return_value = (mock_dealer, mock_response_queue)
+
+        expected_completion_response = Mock()
+        self.completion_serving.request_output_to_completion_response = Mock(return_value=expected_completion_response)
+
+        request = CompletionRequest(
+            model="test_model",
+            prompt="Hello",
+            max_tokens=10,
+            stream=False,
+            n=2,
+            echo=False,
+        )
+        num_choices = 2
+        request_id = "test_request_id"
+        created_time = 1655136000
+        model_name = "test_model"
+        prompt_batched_token_ids = [[1, 2, 3], [4, 5, 6]]
+        prompt_tokens_list = ["Hello", "Hello"]
+
+        self.engine_client.data_processor.process_response_dict = AsyncMock()
+
+        actual_response = await self.completion_serving.completion_full_generator(
+            request=request,
+            num_choices=num_choices,
+            request_id=request_id,
+            created_time=created_time,
+            model_name=model_name,
+            prompt_batched_token_ids=prompt_batched_token_ids,
+            prompt_tokens_list=prompt_tokens_list,
+            max_tokens_list=[100, 100],
+        )
+
+        self.assertEqual(actual_response, expected_completion_response)
+        self.assertTrue(inspect.iscoroutinefunction(self.engine_client.data_processor.process_response_dict))
+
+        self.engine_client.data_processor.process_response_dict.assert_awaited()
+
+        actual_call_times = self.engine_client.data_processor.process_response_dict.call_count
+        expected_call_times = len(final_response_data)
+        self.assertEqual(actual_call_times, expected_call_times)
+
+        call_args_list = self.engine_client.data_processor.process_response_dict.call_args_list
+        self.assertEqual(len(call_args_list), expected_call_times)
+
+        for idx, data in enumerate(final_response_data):
+            args, kwargs = call_args_list[idx]
+            self.assertEqual(args[0], data)
+            self.assertEqual(kwargs.get("stream"), False)
+            self.assertEqual(kwargs.get("include_stop_str_in_output"), request.include_stop_str_in_output)
+
+    @patch("fastdeploy.entrypoints.openai.serving_completion.api_server_logger")
+    async def test_completion_stream_generator_async_process_response_dict(self, mock_logger):
+        final_response_data = [
+            [
+                {
+                    "request_id": "test-request-id_0",
+                    "outputs": {
+                        "index": 0,
+                        "send_idx": 0,
+                        "token_ids": [1],
+                        "text": "a",
+                        "top_logprobs": {"a": 0.98, "b": 0.02},
+                        "draft_top_logprobs": {"a": 0.98, "b": 0.02},
+                    },
+                    "finished": False,
+                    "metrics": {
+                        "first_token_time": 1620000000,
+                        "inference_start_time": 1620000000,
+                        "engine_recv_latest_token_time": 1620000000,
+                    },
+                    "error_code": 200,
+                }
+            ],
+            [
+                {
+                    "request_id": "test-request-id_0",
+                    "outputs": {
+                        "index": 0,
+                        "send_idx": 1,
+                        "token_ids": [2],
+                        "text": "b",
+                        "top_logprobs": {"a": 0.98, "b": 0.02},
+                        "draft_top_logprobs": {"a": 0.98, "b": 0.02},
+                    },
+                    "finished": False,
+                    "metrics": {
+                        "first_token_time": 1620000000,
+                        "inference_start_time": 1620000000,
+                        "engine_recv_latest_token_time": 1620000000,
+                    },
+                    "error_code": 200,
+                }
+            ],
+            [
+                {
+                    "request_id": "test-request-id_0",
+                    "outputs": {
+                        "index": 0,
+                        "send_idx": 2,
+                        "token_ids": [7],
+                        "text": "g",
+                        "top_logprobs": {"a": 0.98, "b": 0.02},
+                        "draft_top_logprobs": {"a": 0.98, "b": 0.02},
+                    },
+                    "finished": True,
+                    "metrics": {
+                        "first_token_time": 1620000000,
+                        "inference_start_time": 1620000000,
+                        "engine_recv_latest_token_time": 1620000000,
+                    },
+                    "error_code": 200,
+                }
+            ],
+        ]
+
+        mock_response_queue = AsyncMock()
+        mock_response_queue.get.side_effect = final_response_data
+
+        mock_dealer = Mock()
+        mock_dealer.write = Mock()
+
+        self.engine_client.connection_manager.get_connection = AsyncMock(
+            return_value=(mock_dealer, mock_response_queue)
+        )
+
+        request = CompletionRequest(
+            model="test-model",
+            prompt="Hello",
+            stream=True,
+            max_streaming_response_tokens=3,
+            n=1,
+            echo=False,
+            max_tokens=100,
+        )
+
+        self.engine_client.data_processor.process_response_dict = AsyncMock()
+
+        generator = self.completion_serving.completion_stream_generator(
+            request=request,
+            num_choices=1,
+            request_id="test-request-id",
+            created_time=1620000000,
+            model_name="test-model",
+            prompt_batched_token_ids=[[1, 2, 3]],
+            prompt_tokens_list=["Hello"],
+            max_tokens_list=[100],
+        )
+
+        chunks = []
+        async for chunk in generator:
+            chunks.append(chunk)
+            if "[DONE]" in chunk:
+                break
+        self.assertGreater(len(chunks), 0)
+
+        self.assertTrue(inspect.iscoroutinefunction(self.engine_client.data_processor.process_response_dict))
+        self.engine_client.data_processor.process_response_dict.assert_awaited()
+
+        flat_response_data = []
+        for sub_list in final_response_data:
+            flat_response_data.extend(sub_list)
+        expected_call_times = len(flat_response_data)
+        actual_call_times = self.engine_client.data_processor.process_response_dict.call_count
+        self.assertEqual(actual_call_times, expected_call_times)
+
+        call_args_list = self.engine_client.data_processor.process_response_dict.call_args_list
+        self.assertEqual(len(call_args_list), expected_call_times)
+
+        for idx, data in enumerate(flat_response_data):
+            args, kwargs = call_args_list[idx]
+            self.assertEqual(args[0], data)
+            self.assertEqual(kwargs.get("stream"), True)
+            self.assertEqual(kwargs.get("include_stop_str_in_output"), request.include_stop_str_in_output)
+
 
 if __name__ == "__main__":
     unittest.main()

From a52c82a732742531f9485e929338624aae5726d0 Mon Sep 17 00:00:00 2001
From: Longzhi Wang <583087864@qq.com>
Date: Mon, 29 Dec 2025 13:45:22 +0800
Subject: [PATCH 059/161] [Model] support mode config for expert_dispatch
 (#5749)

---
 custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu b/custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu
index 79317afab48..213ca03e15f 100644
--- a/custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu
+++ b/custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu
@@ -53,6 +53,11 @@
       __VA_ARGS__                                                              \
       break;                                                                   \
     }                                                                          \
+    case 10: {                                                                 \
+      constexpr size_t NUM_EXPERTS_PER_RANK = 10;                              \
+      __VA_ARGS__                                                              \
+      break;                                                                   \
+    }                                                                          \
     case 16: {                                                                 \
       constexpr size_t NUM_EXPERTS_PER_RANK = 16;                              \
       __VA_ARGS__                                                              \

From b2bd2595af4bb1a29537b64563bed3a6047d0928 Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Mon, 29 Dec 2025 15:56:24 +0800
Subject: [PATCH 060/161] [Cherry-Pick][BugFix] Fix
 _disable_sequence_parallel_moe_if_needed#5740 (#5811)

---
 fastdeploy/config.py | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index 13c93279be1..d0a5beb041f 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1771,15 +1771,6 @@ def postprocess(self):
         if not current_platform.is_cuda():
             self.graph_opt_config.use_cudagraph = False
             logger.info("CUDAGraph currently only support on GPU!")
-        if self.parallel_config.use_sequence_parallel_moe and self.graph_opt_config.use_cudagraph:
-            if self.scheduler_config.max_num_seqs < self.parallel_config.tensor_parallel_size:
-                self.parallel_config.use_sequence_parallel_moe = False
-                logger.info(
-                    "Warning: sequence parallel moe do not support max_num_seqs < tensor_parallel_size when cudagraph enabled. We set use_sequence_parallel_moe to False."
-                )
-            else:
-                # It will hang when real batch_size < tp_size
-                self.graph_opt_config.filter_capture_size(tp_size=self.parallel_config.tensor_parallel_size)
 
         if self.scheduler_config.splitwise_role == "mixed":
             self._disable_sequence_parallel_moe_if_needed("Mixed")
@@ -1791,6 +1782,15 @@ def postprocess(self):
             self.model_config.moe_phase = MoEPhase(phase="decode")
         else:
             raise NotImplementedError
+        if self.parallel_config.use_sequence_parallel_moe and self.graph_opt_config.use_cudagraph:
+            if self.scheduler_config.max_num_seqs < self.parallel_config.tensor_parallel_size:
+                self.parallel_config.use_sequence_parallel_moe = False
+                logger.info(
+                    "Warning: sequence parallel moe do not support max_num_seqs < tensor_parallel_size when cudagraph enabled. We set use_sequence_parallel_moe to False."
+                )
+            else:
+                # It will hang when real batch_size < tp_size
+                self.graph_opt_config.filter_capture_size(tp_size=self.parallel_config.tensor_parallel_size)
 
         if ErnieArchitectures.is_ernie5_arch(self.model_config.architectures):
             # ernie5 model not support chunked_mm_input

From aff3e67ed9dd4e0f88509fd06cc0d4c978d32485 Mon Sep 17 00:00:00 2001
From: chen <103103266+ckl117@users.noreply.github.com>
Date: Mon, 29 Dec 2025 18:32:11 +0800
Subject: [PATCH 061/161] support glm fa3 (#5586) (#5810)

---
 .../append_attn/gqa_rope_write_cache.cu       | 238 ++++++++++++++++--
 1 file changed, 220 insertions(+), 18 deletions(-)

diff --git a/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu b/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu
index 804bbac4ea8..76f00189037 100644
--- a/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu
+++ b/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu
@@ -232,6 +232,179 @@ void gqa_rotary_qk_split_variable(
                            rms_norm_eps);
 }
 
+template <typename T, int VecSize = 1>
+__global__ void GQAVariableLengthNeoxPartialRotarySplitKernel(
+    const T *qkv,
+    const float *cos_emb,
+    const float *sin_emb,
+    const int *batch_id_per_token,
+    const int *cu_seqlens_q,
+    const int *seq_lens_encoder,
+    const int *seq_lens_decoder,
+    const int *cu_seqlens_k,
+    T *qkv_out,
+    T *q,
+    T *k,
+    T *v,
+    const int64_t elem_cnt,
+    const int q_num_head,
+    const int kv_num_head,
+    const int max_model_len,
+    const int head_dim,
+    const int rotary_dim) {
+  using LoadT = AlignedVector<T, VecSize>;
+  using LoadEmbT = AlignedVector<float, VecSize>;
+  LoadT src_vec;
+  LoadT src_vec_right;
+  LoadEmbT cos_emb_vec;
+  LoadEmbT sin_emb_vec;
+  int64_t global_warp_idx = blockDim.y * blockIdx.x + threadIdx.y;
+  int64_t all_warp_num = gridDim.x * blockDim.y;
+  const int half_rotary_dim = rotary_dim / 2;
+  const int half_headdim = head_dim / 2;
+  const int offset =
+      (q_num_head + kv_num_head * 2) * head_dim;  // for all q,k,v
+  const int all_head_num = elem_cnt / head_dim;
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+  cudaGridDependencySynchronize();
+#endif
+  for (int gloabl_hi = global_warp_idx; gloabl_hi < all_head_num;
+       gloabl_hi += all_warp_num) {
+    int64_t linear_index =
+        gloabl_hi * head_dim + threadIdx.x * VecSize;  // 全局index
+    const int token_idx =
+        linear_index / offset;  // token id(第几个token,不分qkv)
+    const int ori_bi = batch_id_per_token[token_idx];  // 第几个batch
+
+    int cache_kv_len = seq_lens_decoder[ori_bi];
+    // 这里其实是不需要处理的，但是由于FA3的bug，所以必须！
+    if (seq_lens_encoder[ori_bi] == 0) cache_kv_len = 0;
+
+    const int bias = linear_index % offset;
+    const int hi = bias / head_dim;
+    const int h_bias = bias % head_dim;
+
+    const int ori_seq_id =
+        (token_idx - cu_seqlens_q[ori_bi]) +
+        cache_kv_len;  // 在当前seq中的id(拼接了seq到一个batch的情况下有效)
+    const int64_t base_idx =
+        token_idx * (q_num_head + 2 * kv_num_head) * head_dim + hi * head_dim +
+        h_bias;
+    Load<T, VecSize>(&qkv[base_idx], &src_vec);
+    const int kv_write_idx = cu_seqlens_k[ori_bi] + ori_seq_id;
+    int64_t base_split_idx;
+    T *out_p = nullptr;
+    if (hi < q_num_head) {
+      base_split_idx =
+          token_idx * q_num_head * head_dim + hi * head_dim + h_bias;
+      out_p = q;
+    } else if (hi < q_num_head + kv_num_head) {
+      base_split_idx = kv_write_idx * kv_num_head * head_dim +
+                       (hi - q_num_head) * head_dim + h_bias;
+      out_p = k;
+    } else {
+      out_p = v;
+      base_split_idx = kv_write_idx * kv_num_head * head_dim +
+                       (hi - q_num_head - kv_num_head) * head_dim + h_bias;
+    }
+
+    if (hi < q_num_head + kv_num_head) {
+      if (h_bias < rotary_dim) {
+        int64_t emb_idx = ori_seq_id * half_rotary_dim;
+        if (h_bias < half_rotary_dim) {
+          Load<T, VecSize>(&qkv[base_idx + half_rotary_dim], &src_vec_right);
+          emb_idx += h_bias;
+        } else {
+          Load<T, VecSize>(&qkv[base_idx - half_rotary_dim], &src_vec_right);
+          emb_idx += h_bias - half_rotary_dim;
+        }
+        Load<float, VecSize>(&cos_emb[emb_idx], &cos_emb_vec);
+        Load<float, VecSize>(&sin_emb[emb_idx], &sin_emb_vec);
+#pragma unroll
+        for (int i = 0; i < VecSize; i++) {
+          const float input_left = static_cast<float>(src_vec[i]);
+          const float input_right = static_cast<float>(src_vec_right[i]);
+          const float cos_tmp = cos_emb_vec[i];
+          const float sin_tmp = sin_emb_vec[i];
+          if (h_bias < half_rotary_dim) {
+            src_vec[i] =
+                static_cast<T>(input_left * cos_tmp - input_right * sin_tmp);
+          } else {
+            src_vec[i] =
+                static_cast<T>(input_left * cos_tmp + input_right * sin_tmp);
+          }
+        }
+      }
+    }
+
+    Store<T, VecSize>(src_vec, &qkv_out[base_idx]);
+    Store<T, VecSize>(src_vec, &out_p[base_split_idx]);
+  }
+#if (defined(__CUDA_ARCH__) && (__CUDA_ARCH__ >= 900))
+  cudaTriggerProgrammaticLaunchCompletion();
+#endif
+}
+
+template <typename T>
+void gqa_neox_partial_rotary_qk_split_variable(
+    T *qkv_out,  // [token_num, 3, num_head, head_dim]
+    T *q,
+    T *k,
+    T *v,
+    const T *qkv_input,
+    const float *rotary_emb,  // [2, 1, seq_len, 1, head_dim / 4]
+    const int *batch_id_per_token,
+    const int *seq_lens_encoder,
+    const int *seq_lens_decoder,
+    const int *cu_seqlens_q,
+    const int *cu_seqlens_k,
+    const int token_num,
+    const int num_heads,
+    const int kv_num_heads,
+    const int max_model_len,
+    const int head_dim,
+    const int rotary_dim,
+    const cudaStream_t &stream) {
+  assert(head_dim == 128 && "head_dim must be 128");
+  int64_t elem_nums = token_num * (num_heads + 2 * kv_num_heads) * head_dim;
+
+  constexpr int HEAD_DIM = 128;
+  constexpr int PackSize = HEAD_DIM / kWarpSize;
+  assert(rotary_dim / 2 % PackSize == 0);
+  const int pack_num = elem_nums / PackSize;
+  const int blocksize = 128;
+  int grid_size = 1;
+  GetNumBlocks<128>(pack_num, &grid_size);
+  dim3 block_size(kWarpSize, blocksize / kWarpSize);
+
+  const float *cos_emb = rotary_emb;
+  const float *sin_emb = rotary_emb + max_model_len * rotary_dim / 2;
+  launchWithPdlWhenEnabled(
+      GQAVariableLengthNeoxPartialRotarySplitKernel<T, PackSize>,
+      grid_size,
+      block_size,
+      0,
+      stream,
+      qkv_input,
+      cos_emb,
+      sin_emb,
+      batch_id_per_token,
+      cu_seqlens_q,
+      seq_lens_encoder,
+      seq_lens_decoder,
+      cu_seqlens_k,
+      qkv_out,
+      q,
+      k,
+      v,
+      elem_nums,
+      num_heads,
+      kv_num_heads,
+      max_model_len,
+      head_dim,
+      rotary_dim);
+}
+
 template <typename T,
           typename CacheT,
           uint32_t HEAD_DIM,
@@ -1158,6 +1331,7 @@ std::vector<paddle::Tensor> GQARopeWriteCacheKernel(
   const int num_heads =
       qkv_dims[qkv_dims.size() - 1] / head_dim - 2 * kv_num_heads;
   const float softmax_scale = 1.f / sqrt(head_dim);
+  int rotary_dim = head_dim;
 
   PADDLE_ENFORCE_EQ(batch_id_per_token.dims().size(), 1);
   PADDLE_ENFORCE_EQ(batch_id_per_token.dims()[0], token_num);
@@ -1171,7 +1345,13 @@ std::vector<paddle::Tensor> GQARopeWriteCacheKernel(
     if (use_neox_rotary_style) {
       // Note(ZKK) Qwen3 like model
       // the [0,head_dim/2), [head_dim/2,head_dim) data are totally same!
-      PADDLE_ENFORCE_EQ(rotary_embs.dims()[4], head_dim);
+      if (rotary_embs.dims()[4] == head_dim) {
+        rotary_dim = head_dim;
+      } else {
+        // for glm partial rotary style
+        PADDLE_ENFORCE_EQ(rotary_embs.dims()[4], head_dim / 4);
+        rotary_dim = head_dim / 2;
+      }
     } else {
       PADDLE_ENFORCE_EQ(rotary_embs.dims()[4], head_dim / 2);
     }
@@ -1196,23 +1376,45 @@ std::vector<paddle::Tensor> GQARopeWriteCacheKernel(
       {kv_token_num, kv_num_heads, head_dim}, qkv.dtype(), qkv.place());
 
   if (use_neox_rotary_style) {
-    gqa_rotary_qk_split_variable_qwen3<data_t>(qkv_out.data<data_t>(),
-                                               q.data<data_t>(),
-                                               k.data<data_t>(),
-                                               v.data<data_t>(),
-                                               qkv.data<data_t>(),
-                                               rotary_embs.data<float>(),
-                                               batch_id_per_token.data<int>(),
-                                               seq_lens_encoder.data<int>(),
-                                               seq_lens_decoder.data<int>(),
-                                               cu_seqlens_q.data<int>(),
-                                               cu_seqlens_k.data<int>(),
-                                               token_num,
-                                               num_heads,
-                                               kv_num_heads,
-                                               max_seq_len,
-                                               head_dim,
-                                               stream);
+    if (rotary_dim == head_dim) {
+      gqa_rotary_qk_split_variable_qwen3<data_t>(qkv_out.data<data_t>(),
+                                                 q.data<data_t>(),
+                                                 k.data<data_t>(),
+                                                 v.data<data_t>(),
+                                                 qkv.data<data_t>(),
+                                                 rotary_embs.data<float>(),
+                                                 batch_id_per_token.data<int>(),
+                                                 seq_lens_encoder.data<int>(),
+                                                 seq_lens_decoder.data<int>(),
+                                                 cu_seqlens_q.data<int>(),
+                                                 cu_seqlens_k.data<int>(),
+                                                 token_num,
+                                                 num_heads,
+                                                 kv_num_heads,
+                                                 max_seq_len,
+                                                 head_dim,
+                                                 stream);
+    } else {
+      gqa_neox_partial_rotary_qk_split_variable<data_t>(
+          qkv_out.data<data_t>(),
+          q.data<data_t>(),
+          k.data<data_t>(),
+          v.data<data_t>(),
+          qkv.data<data_t>(),
+          rotary_embs.data<float>(),
+          batch_id_per_token.data<int>(),
+          seq_lens_encoder.data<int>(),
+          seq_lens_decoder.data<int>(),
+          cu_seqlens_q.data<int>(),
+          cu_seqlens_k.data<int>(),
+          token_num,
+          num_heads,
+          kv_num_heads,
+          max_seq_len,
+          head_dim,
+          rotary_dim,
+          stream);
+    }
   } else {
     gqa_rotary_qk_split_variable<data_t>(
         qkv_out.data<data_t>(),

From ca4ccf23975fd867429dfc73d950ef155339a28f Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Mon, 29 Dec 2025 23:35:31 +0800
Subject: [PATCH 062/161] [BugFix] fix shm opened but not closed in
 set_data_ipc (#5827)

---
 custom_ops/gpu_ops/set_data_ipc.cu    | 109 ++++++++++++--------------
 tests/ce/stable_cases/launch_model.sh |   1 +
 2 files changed, 49 insertions(+), 61 deletions(-)

diff --git a/custom_ops/gpu_ops/set_data_ipc.cu b/custom_ops/gpu_ops/set_data_ipc.cu
index b7336e5ae65..b8deb0e5d8f 100644
--- a/custom_ops/gpu_ops/set_data_ipc.cu
+++ b/custom_ops/gpu_ops/set_data_ipc.cu
@@ -12,14 +12,14 @@
 // See the License for the specific language governing permissions and
 // limitations under the License.
 
-#include "helper.h"
 #include "cuda_multiprocess.h"
+#include "helper.h"
 
-int sharedMemoryCreate(const char *name, size_t sz, sharedMemoryInfo *info) {
+int sharedMemoryCreate(const char* name, size_t sz, sharedMemoryInfo* info) {
 #if defined(WIN32) || defined(_WIN32) || defined(WIN64) || defined(_WIN64)
   info->size = sz;
-  info->shmHandle = CreateFileMapping(INVALID_HANDLE_VALUE, NULL,
-                                      PAGE_READWRITE, 0, (DWORD)sz, name);
+  info->shmHandle = CreateFileMapping(
+      INVALID_HANDLE_VALUE, NULL, PAGE_READWRITE, 0, (DWORD)sz, name);
   if (info->shmHandle == 0) {
     return GetLastError();
   }
@@ -42,20 +42,22 @@ int sharedMemoryCreate(const char *name, size_t sz, sharedMemoryInfo *info) {
 
   status = ftruncate(info->shmFd, sz);
   if (status != 0) {
-    return status;
+    return errno;
   }
 
   info->addr = mmap(0, sz, PROT_READ | PROT_WRITE, MAP_SHARED, info->shmFd, 0);
-  if (info->addr == NULL) {
+  if (info->addr == MAP_FAILED) {
     return errno;
   }
+  close(info->shmFd);
+  info->shmFd = -1;
 
   return 0;
 #endif
 }
 
 template <typename T>
-__global__ void set_data(T *input, int n) {
+__global__ void set_data(T* input, int n) {
   if (threadIdx.x == 0) {
     for (int i = 0; i < n; ++i) {
       *(input + i) = static_cast<T>(i);
@@ -65,7 +67,7 @@ __global__ void set_data(T *input, int n) {
 }
 
 template <typename T>
-__global__ void print_data(const T *input, int n) {
+__global__ void print_data(const T* input, int n) {
   if (threadIdx.x == 0) {
     for (int i = 0; i < n; ++i) {
       printf("input[%d]: %f\n", i, input[i]);
@@ -81,72 +83,57 @@ void set_data_ipc(const paddle::Tensor& tmp_input,
   typedef typename traits_::data_t data_t;
 
   sharedMemoryInfo info;
-  volatile shmStruct *shm = NULL;
+  volatile shmStruct* shm = NULL;
   if (sharedMemoryCreate(shm_name.c_str(), sizeof(*shm), &info) != 0) {
-      printf("Failed to create shared memory slab\n");
-      printf("Func sharedMemoryCreate. Shm_name: %s\n", shm_name.c_str());
-      exit(EXIT_FAILURE);
+    printf("Failed to create shared memory slab\n");
+    printf("Func sharedMemoryCreate. Shm_name: %s\n", shm_name.c_str());
+    exit(EXIT_FAILURE);
   }
-  shm = (volatile shmStruct *)info.addr;
-  memset((void *)shm, 0, sizeof(*shm));
+  shm = (volatile shmStruct*)info.addr;
+  memset((void*)shm, 0, sizeof(*shm));
 
-  void *data_ptr_now = reinterpret_cast<void*>(const_cast<data_t*>(tmp_input.data<data_t>()));
+  void* data_ptr_now =
+      reinterpret_cast<void*>(const_cast<data_t*>(tmp_input.data<data_t>()));
 #ifdef PADDLE_WITH_HIP
-  checkCudaErrors(hipIpcGetMemHandle((hipIpcMemHandle_t *)&shm->memHandle, data_ptr_now));
+  checkCudaErrors(
+      hipIpcGetMemHandle((hipIpcMemHandle_t*)&shm->memHandle, data_ptr_now));
 #else
-  checkCudaErrors(cudaIpcGetMemHandle((cudaIpcMemHandle_t *)&shm->memHandle, data_ptr_now));
+  checkCudaErrors(
+      cudaIpcGetMemHandle((cudaIpcMemHandle_t*)&shm->memHandle, data_ptr_now));
 #endif
-
-
 }
 
-void SetDataIpc(const paddle::Tensor& tmp_input,
-                const std::string& shm_name) {
-    std::vector<int64_t> shape = tmp_input.shape();
-
-    switch (tmp_input.type()) {
-      case paddle::DataType::BFLOAT16: {
-        return set_data_ipc<paddle::DataType::BFLOAT16>(
-          tmp_input,
-          shm_name
-        );
-      }
-      case paddle::DataType::FLOAT16: {
-        return set_data_ipc<paddle::DataType::FLOAT16>(
-          tmp_input,
-          shm_name
-        );
-      }
-      case paddle::DataType::FLOAT32: {
-        return set_data_ipc<paddle::DataType::FLOAT32>(
-          tmp_input,
-          shm_name
-        );
-      }
-      case paddle::DataType::INT8: {
-        return set_data_ipc<paddle::DataType::INT8>(
-          tmp_input,
-          shm_name
-        );
-      }
-      case paddle::DataType::UINT8: {
-        return set_data_ipc<paddle::DataType::UINT8>(
-          tmp_input,
-          shm_name
-        );
-      }
-      default: {
-          PD_THROW(
-              "NOT supported data type. "
-              "Only float16, bfloat16 and float32 are supported. ");
-          break;
-      }
+void SetDataIpc(const paddle::Tensor& tmp_input, const std::string& shm_name) {
+  std::vector<int64_t> shape = tmp_input.shape();
+
+  switch (tmp_input.type()) {
+    case paddle::DataType::BFLOAT16: {
+      return set_data_ipc<paddle::DataType::BFLOAT16>(tmp_input, shm_name);
     }
+    case paddle::DataType::FLOAT16: {
+      return set_data_ipc<paddle::DataType::FLOAT16>(tmp_input, shm_name);
+    }
+    case paddle::DataType::FLOAT32: {
+      return set_data_ipc<paddle::DataType::FLOAT32>(tmp_input, shm_name);
+    }
+    case paddle::DataType::INT8: {
+      return set_data_ipc<paddle::DataType::INT8>(tmp_input, shm_name);
+    }
+    case paddle::DataType::UINT8: {
+      return set_data_ipc<paddle::DataType::UINT8>(tmp_input, shm_name);
+    }
+    default: {
+      PD_THROW(
+          "NOT supported data type. "
+          "Only float16, bfloat16 and float32 are supported. ");
+      break;
+    }
+  }
 }
 
 PD_BUILD_STATIC_OP(set_data_ipc)
     .Inputs({"tmp_input"})
-    .Attrs({ "shm_name: std::string"})
+    .Attrs({"shm_name: std::string"})
     .Outputs({"tmp_input_out"})
     .SetInplaceMap({{"tmp_input", "tmp_input_out"}})
     .SetKernelFn(PD_KERNEL(SetDataIpc));
diff --git a/tests/ce/stable_cases/launch_model.sh b/tests/ce/stable_cases/launch_model.sh
index 570b37d6569..fb79d66b35b 100644
--- a/tests/ce/stable_cases/launch_model.sh
+++ b/tests/ce/stable_cases/launch_model.sh
@@ -40,6 +40,7 @@ python -m fastdeploy.entrypoints.openai.api_server \
        --max-num-seqs 1 \
        --gpu-memory-utilization 0.9 \
        --model "$MODEL_PATH" \
+       --no-shutdown-comm-group-if-worker-idle \
        --load-strategy ipc_snapshot \
        --dynamic-load-weight &
 

From 834502711a660ee18af6b8b9297fc63f38577240 Mon Sep 17 00:00:00 2001
From: tianhaodongbd <137985359+tianhaodongbd@users.noreply.github.com>
Date: Tue, 30 Dec 2025 12:23:11 +0800
Subject: [PATCH 063/161] [RL] add lm_head_fp32 in RolloutModelConfig (#5824)

---
 fastdeploy/rl/rollout_config.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/fastdeploy/rl/rollout_config.py b/fastdeploy/rl/rollout_config.py
index 47db59a1c09..a9c2ed027b0 100644
--- a/fastdeploy/rl/rollout_config.py
+++ b/fastdeploy/rl/rollout_config.py
@@ -67,6 +67,7 @@ def __init__(
         eplb_config: str = {},
         routing_replay_config: str = None,
         load_choices: str = "default_v1",
+        lm_head_fp32: bool = False,
     ):
         # Required parameters
         self.model = model_name_or_path
@@ -117,6 +118,7 @@ def __init__(
         self.eplb_config = eplb_config
         self.routing_replay_config = routing_replay_config
         self.load_choices = load_choices
+        self.lm_head_fp32 = lm_head_fp32
 
     def __str__(self):
         return "\n".join(f"{k}: {v}" for k, v in self.__dict__.items())

From 0d29f6df032e1db81a5deffe7003d6f6cb5d9fcd Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Tue, 30 Dec 2025 12:45:03 +0800
Subject: [PATCH 064/161] [Cherry-Pick][BugFix] Fix entropy bugs (#5818)
 (#5819)

* [Speculative Decoding] Fix attn_mask_offset for multi-step MTP in mixed and PD-split modes (#5738)

* fix attn_mask_offset in mtp with multi-step and pd-split-mode

* fix xpu operater register

* update pmtp multi-step mtp strategy in d-split -mode

* add note

* fix xpu register

* fix entropy bugs

* Revert "[Speculative Decoding] Fix attn_mask_offset for multi-step MTP in mixed and PD-split modes (#5738)"

This reverts commit ba0d35a52e8775300a1459bfcaa39056df570525.

* fix ut

* fix

---------

Co-authored-by: freeliuzc <lzc842650834@gmail.com>
---
 fastdeploy/model_executor/entropy_utils.py | 12 ++++++++++--
 fastdeploy/worker/gpu_model_runner.py      |  2 +-
 scripts/calculate_avg_entropy.py           | 15 ++++++++++++++-
 tests/model_executor/test_entropy_utils.py | 12 ++++++------
 4 files changed, 31 insertions(+), 10 deletions(-)

diff --git a/fastdeploy/model_executor/entropy_utils.py b/fastdeploy/model_executor/entropy_utils.py
index c9fc431b441..2794e5b722b 100644
--- a/fastdeploy/model_executor/entropy_utils.py
+++ b/fastdeploy/model_executor/entropy_utils.py
@@ -46,7 +46,11 @@ def get_entropy(logits):
     for i in range(real_bsz):
         for _ in range(real_seq_lens[i]):
             share_inputs["entropy_list"][i].append(entropy.pop(0))
-        if share_inputs["stop_flags"][i] and len(share_inputs["entropy_list"][i]) != 0:
+        if (
+            share_inputs["stop_flags"][i]
+            and share_inputs["seq_lens_decoder"][i] != 0
+            and len(share_inputs["entropy_list"][i]) != 0
+        ):
             data_processor_logger.info(
                 f"req_id: {share_inputs['req_ids'][i]}, entropy: {sum(share_inputs['entropy_list'][i])/len(share_inputs['entropy_list'][i])}"
             )
@@ -92,7 +96,11 @@ def get_entropy(logits):
     for i in range(real_bsz):
         for _ in range(share_inputs["accept_num"][i]):
             share_inputs["entropy_list"][i].append(entropy.pop(0))
-        if share_inputs["stop_flags"][i] and len(share_inputs["entropy_list"][i]) != 0:
+        if (
+            share_inputs["stop_flags"][i]
+            and share_inputs["seq_lens_decoder"][i] != 0
+            and len(share_inputs["entropy_list"][i]) != 0
+        ):
             data_processor_logger.info(
                 f"req_id: {share_inputs['req_ids'][i]}, entropy: {sum(share_inputs['entropy_list'][i])/len(share_inputs['entropy_list'][i])}"
             )
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index a33594d826b..3e138cb589a 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -598,7 +598,6 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
         for i in range(req_len):
             request = req_dicts[i]
             idx = request.idx
-            self.share_inputs["req_ids"][idx] = str(request.request_id)
 
             if hasattr(request, "pooling_params") and request.pooling_params is not None:
                 batch_pooling_params.append(request.pooling_params)
@@ -606,6 +605,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
             logits_info = None
             prefill_tokens = []
             if request.task_type.value == RequestType.PREFILL.value:  # prefill task
+                self.share_inputs["req_ids"][idx] = str(request.request_id)
                 # guided decoding
                 if (
                     request.guided_json is not None
diff --git a/scripts/calculate_avg_entropy.py b/scripts/calculate_avg_entropy.py
index f24c976cd57..e2e272d0c5e 100644
--- a/scripts/calculate_avg_entropy.py
+++ b/scripts/calculate_avg_entropy.py
@@ -1,4 +1,5 @@
 import argparse
+import glob
 import os
 import re
 from typing import List, Optional
@@ -40,8 +41,20 @@ def main():
     parser.add_argument("--log-dir", type=str, required=True)
     parser.add_argument("--drop-ratio", "-d", type=float, default=0.1)
     parser.add_argument("--verbose", "-v", action="store_true")
+    parser.add_argument("--start-id", "-s", type=int)
+    parser.add_argument("--end-id", "-e", type=int)
     args = parser.parse_args()
-    entropy_values = extract_entropy_values(os.path.join(args.log_dir, "data_processor.log"))
+
+    log_files = glob.glob(os.path.join(args.log_dir, "data_processor.log.*"))
+    if not log_files:
+        print(f"No log files found in {args.log_dir}")
+        return
+
+    entropy_values = []
+    for log_file in log_files:
+        entropy_values.extend(extract_entropy_values(log_file))
+    if args.start_id and args.end_id:
+        entropy_values = entropy_values[args.start_id : args.end_id]
     average_entropy, filtered_vals = calculate_average(entropy_values, args.drop_ratio)
 
     print(f"{len(entropy_values)} entropy values were found")
diff --git a/tests/model_executor/test_entropy_utils.py b/tests/model_executor/test_entropy_utils.py
index 1135a77f5ae..18fd8b1a8b4 100644
--- a/tests/model_executor/test_entropy_utils.py
+++ b/tests/model_executor/test_entropy_utils.py
@@ -28,6 +28,7 @@ def test_basic_functionality(self):
         share_inputs = {
             "seq_lens_this_time": paddle.to_tensor([[1], [0], [15]], dtype="int32"),
             "seq_lens_encoder": paddle.to_tensor([[0], [0], [15]], dtype="int32"),
+            "seq_lens_decoder": paddle.to_tensor([[30], [0], [15]], dtype="int32"),
             "entropy_list": [[], [], []],
             "stop_flags": paddle.to_tensor([[False], [True], [False]], dtype="bool"),
             "req_ids": ["req_1", "req_2", "req_3"],
@@ -55,6 +56,7 @@ def test_temperature_effect(self):
         share_inputs = {
             "seq_lens_this_time": paddle.to_tensor([[1], [0], [15]], dtype="int32"),
             "seq_lens_encoder": paddle.to_tensor([[0], [0], [15]], dtype="int32"),
+            "seq_lens_decoder": paddle.to_tensor([[30], [0], [15]], dtype="int32"),
             "entropy_list": [[], [], []],
             "stop_flags": paddle.to_tensor([[False], [True], [False]], dtype="bool"),
             "req_ids": ["req_1", "req_2", "req_3"],
@@ -82,6 +84,7 @@ def test_entropy_list_clear(self):
         share_inputs = {
             "seq_lens_this_time": paddle.to_tensor([[1], [0], [15]], dtype="int32"),
             "seq_lens_encoder": paddle.to_tensor([[0], [0], [15]], dtype="int32"),
+            "seq_lens_decoder": paddle.to_tensor([[30], [0], [15]], dtype="int32"),
             "entropy_list": [[], [], []],
             "stop_flags": paddle.to_tensor([[True], [True], [False]], dtype="bool"),
             "req_ids": ["req_1", "req_2", "req_3"],
@@ -111,6 +114,7 @@ def test_basic_functionality(self):
         share_inputs = {
             "seq_lens_this_time": paddle.to_tensor([[2], [2], [0], [15]], dtype="int32"),
             "seq_lens_encoder": paddle.to_tensor([[0], [0], [0], [15]], dtype="int32"),
+            "seq_lens_decoder": paddle.to_tensor([[30], [30], [0], [15]], dtype="int32"),
             "entropy_list": [[], [], [], []],
             "stop_flags": paddle.to_tensor([[False], [False], [True], [False]], dtype="bool"),
             "req_ids": ["req_1", "req_2", "req_3", "req_4"],
@@ -130,8 +134,6 @@ def test_basic_functionality(self):
 
         speculate_calculate_logits_entropy(logits, share_inputs, temperature)
 
-        print(share_inputs["entropy_list"])
-
         self.assertEqual(len(share_inputs["entropy_list"][0]), 2)
         self.assertEqual(len(share_inputs["entropy_list"][1]), 1)
         self.assertEqual(len(share_inputs["entropy_list"][2]), 0)
@@ -145,6 +147,7 @@ def test_temperature_effect(self):
         share_inputs = {
             "seq_lens_this_time": paddle.to_tensor([[2], [2], [0], [15]], dtype="int32"),
             "seq_lens_encoder": paddle.to_tensor([[0], [0], [0], [15]], dtype="int32"),
+            "seq_lens_decoder": paddle.to_tensor([[30], [30], [0], [15]], dtype="int32"),
             "entropy_list": [[], [], [], []],
             "stop_flags": paddle.to_tensor([[False], [False], [True], [False]], dtype="bool"),
             "req_ids": ["req_1", "req_2", "req_3", "req_4"],
@@ -164,8 +167,6 @@ def test_temperature_effect(self):
 
         speculate_calculate_logits_entropy(logits, share_inputs, temperature)
 
-        print(share_inputs["entropy_list"])
-
         self.assertEqual(len(share_inputs["entropy_list"][0]), 2)
         self.assertEqual(len(share_inputs["entropy_list"][1]), 1)
         self.assertEqual(len(share_inputs["entropy_list"][2]), 0)
@@ -179,6 +180,7 @@ def test_entropy_list_clear(self):
         share_inputs = {
             "seq_lens_this_time": paddle.to_tensor([[2], [2], [0], [15]], dtype="int32"),
             "seq_lens_encoder": paddle.to_tensor([[0], [0], [0], [15]], dtype="int32"),
+            "seq_lens_decoder": paddle.to_tensor([[30], [30], [0], [15]], dtype="int32"),
             "entropy_list": [[], [], [], []],
             "stop_flags": paddle.to_tensor([[True], [False], [True], [False]], dtype="bool"),
             "req_ids": ["req_1", "req_2", "req_3", "req_4"],
@@ -198,8 +200,6 @@ def test_entropy_list_clear(self):
 
         speculate_calculate_logits_entropy(logits, share_inputs, temperature)
 
-        print(share_inputs["entropy_list"])
-
         self.assertEqual(len(share_inputs["entropy_list"][0]), 0)
         self.assertEqual(len(share_inputs["entropy_list"][1]), 1)
         self.assertEqual(len(share_inputs["entropy_list"][2]), 0)

From a247260deb409b84793d7c2355e427104547f544 Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Tue, 30 Dec 2025 21:31:21 +0800
Subject: [PATCH 065/161] eb5 mm skip prefix cache (#5839)

---
 .../engine/sched/resource_manager_v1.py       | 19 ++++++++++++++++---
 1 file changed, 16 insertions(+), 3 deletions(-)

diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index 1106b56f9fe..eedc37174e3 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -32,6 +32,7 @@
     EncoderCacheManager,
     ProcessorCacheManager,
 )
+from fastdeploy.config import ErnieArchitectures
 from fastdeploy.engine.request import (
     ImagePosition,
     Request,
@@ -882,9 +883,21 @@ def get_prefix_cached_blocks(self, request: Request):
         """
         try:
             cache_prepare_time = time.time()
-            (common_block_ids, matched_token_num, hit_info) = self.cache_manager.request_match_blocks(
-                request, self.config.cache_config.block_size
-            )
+            if self._is_mm_request(request) and ErnieArchitectures.is_ernie5_arch(
+                self.config.model_config.architectures
+            ):
+                # For multimodal requests using Ernie 5 series models, skip prefix cache.
+                hit_info = {
+                    "gpu_cache_blocks": 0,
+                    "cpu_cache_blocks": 0,
+                    "gpu_match_token_num": 0,
+                    "cpu_match_token_num": 0,
+                }
+                common_block_ids, matched_token_num = [], 0
+            else:
+                (common_block_ids, matched_token_num, hit_info) = self.cache_manager.request_match_blocks(
+                    request, self.config.cache_config.block_size
+                )
 
             matched_block_num = len(common_block_ids)
             no_cache_block_num = self.cache_manager.get_required_block_num(

From f33e6423278352d8c2236d7dc3f2cf305c1017d5 Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Wed, 31 Dec 2025 10:43:44 +0800
Subject: [PATCH 066/161] [Cherry-Pick][Speculative Decoding] Optimize draft
 logprob (#5842) (#5843)

* optimize draft logprob

* fix ut
---
 fastdeploy/config.py                          |  2 ++
 .../model_executor/layers/sample/sampler.py   | 23 +++++++++++++------
 fastdeploy/output/token_processor.py          |  3 ++-
 fastdeploy/spec_decode/mtp.py                 |  3 ++-
 tests/output/test_process_batch_output.py     |  2 ++
 5 files changed, 24 insertions(+), 9 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index d0a5beb041f..ca4bce32c8f 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -704,6 +704,8 @@ def __init__(
 
         self.num_extra_cache_layer = 0
 
+        self.enable_draft_logprob: bool = False
+
         for key, value in args.items():
             if hasattr(self, key):
                 setattr(self, key, value)
diff --git a/fastdeploy/model_executor/layers/sample/sampler.py b/fastdeploy/model_executor/layers/sample/sampler.py
index a9d14ce9949..eb7f9a20572 100644
--- a/fastdeploy/model_executor/layers/sample/sampler.py
+++ b/fastdeploy/model_executor/layers/sample/sampler.py
@@ -659,7 +659,11 @@ def compute_logprobs(
         top_p_logprob = None
         top_p_token_mask = None
 
-        if top_p_normalized_logprobs is not None and share_inputs is not None:
+        if (
+            top_p_normalized_logprobs is not None
+            and share_inputs is not None
+            and sampling_metadata.top_p_normalized_logprobs_flag
+        ):
             real_token_top_p = (
                 sampling_metadata.top_p[:real_bsz].squeeze(1).repeat_interleave(batch_token_num).unsqueeze(1)
             )
@@ -836,9 +840,9 @@ def forward_cuda(
         logprobs_tensors = None
         token_ids = share_inputs["accept_tokens"]
         if num_logprobs is not None:
-            token_ids = paddle.concat(
-                [share_inputs["accept_tokens"][i, : share_inputs["accept_num"][i]] for i in range(real_bsz)]
-            )
+            idx = paddle.arange(share_inputs["accept_tokens"].shape[1], dtype="int32")
+            mask = idx < share_inputs["accept_num"].unsqueeze(1)
+            token_ids = paddle.masked_select(share_inputs["accept_tokens"], mask)
             logprobs_tensors = self.gather_logprobs(raw_logprobs, num_logprobs, token_ids=token_ids)
 
         sampler_output = SamplerOutput(
@@ -939,6 +943,7 @@ def __init__(self, fd_config: FDConfig):
         else:
             raise NotImplementedError
         self.logprobs_mode = fd_config.model_config.logprobs_mode
+        self.enable_draft_logprob = fd_config.speculative_config.enable_draft_logprob
 
     def pre_process(self, skip_idx_list: List[int] = []):
         """pre process before running"""
@@ -991,7 +996,11 @@ def compute_logprobs(
         top_p_logprob = None
         top_p_token_mask = None
 
-        if top_p_normalized_logprobs is not None and share_inputs is not None:
+        if (
+            top_p_normalized_logprobs is not None
+            and share_inputs is not None
+            and sampling_metadata.top_p_normalized_logprobs_flag
+        ):
             real_token_top_p = (
                 sampling_metadata.top_p[:real_bsz]
                 .squeeze(1)
@@ -1068,7 +1077,7 @@ def forward_cuda(
         """ """
         num_logprobs = sampling_metadata.max_num_logprobs
         real_bsz = share_inputs["seq_lens_this_time"].shape[0]
-        if num_logprobs is not None and share_inputs["substep"] == 0:
+        if self.enable_draft_logprob and num_logprobs is not None and share_inputs["substep"] == 0:
             real_token_num = share_inputs["batch_token_num"][:real_bsz].sum()
             if self.logprobs_mode == "raw_logprobs":
                 raw_logprobs = self.compute_logprobs(
@@ -1099,7 +1108,7 @@ def forward_cuda(
 
         token_ids = None
         logprobs_tensors = None
-        if num_logprobs is not None and share_inputs["substep"] == 0:
+        if self.enable_draft_logprob and num_logprobs is not None and share_inputs["substep"] == 0:
             token_ids = paddle.empty(real_token_num, dtype="int64")
             speculate_insert_first_token(
                 token_ids,
diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
index 080ba82bf88..cbfca2c067b 100644
--- a/fastdeploy/output/token_processor.py
+++ b/fastdeploy/output/token_processor.py
@@ -79,6 +79,7 @@ def __init__(self, cfg, cached_generated_tokens, engine_worker_queue, split_conn
 
         self.speculative_decoding = self.cfg.speculative_config.method is not None
         self.use_logprobs = self.cfg.model_config.enable_logprob
+        self.enable_draft_logprob = self.cfg.speculative_config.enable_draft_logprob
 
         if self.speculative_decoding:
             if self.use_logprobs:
@@ -420,7 +421,7 @@ def postprocess(self, batch_result: List[RequestOutput], mtype=3):
             batch_result (list): batch results
         """
         try:
-            if self.cfg.speculative_config.method and self.use_logprobs:
+            if self.cfg.speculative_config.method and self.use_logprobs and self.enable_draft_logprob:
                 if mtype == 3:  # target
                     finished_batch_result, unfinished_batch_result = [], []
                     for r in batch_result:
diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index dd7aba6c4a3..02a35fe4039 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -94,6 +94,7 @@ def __init__(
         self.mtp_strategy = self.speculative_config.mtp_strategy
         self.hybrid_mode = self.mtp_strategy == "with_ngram" and self.max_draft_token_num > self.num_model_steps
         self.enable_logprob = self.model_config.enable_logprob
+        self.enable_draft_logprob = self.speculative_config.enable_draft_logprob
 
         # [mixed, prefill, decoder]
         self.role = self.scheduler_config.splitwise_role
@@ -942,7 +943,7 @@ def _propose_cuda(self, step_use_cudagraph: bool = False, is_dummy_run: bool = F
 
                 # 4. Compute logits, Sample
                 logits = self.model.compute_logits(hidden_states)
-                if self.enable_logprob and substep == 0:
+                if self.enable_logprob and self.enable_draft_logprob and substep == 0:
                     first_token_logits = self.model.compute_logits(self.model_inputs["first_token_hidden_states"])
 
                     speculate_get_logits(
diff --git a/tests/output/test_process_batch_output.py b/tests/output/test_process_batch_output.py
index ab964efb679..46fed90fb05 100644
--- a/tests/output/test_process_batch_output.py
+++ b/tests/output/test_process_batch_output.py
@@ -117,6 +117,7 @@ def setup_token_processor(self, speculative_decoding=False, use_logprobs=False):
         cfg.speculative_config.method = "mtp" if speculative_decoding else None
         cfg.speculative_config.num_speculative_tokens = 1
         cfg.model_config.enable_logprob = use_logprobs
+        cfg.speculative_config.enable_draft_logprob = True
 
         processor = TokenProcessor.__new__(TokenProcessor)
         processor.cfg = cfg
@@ -134,6 +135,7 @@ def setup_token_processor(self, speculative_decoding=False, use_logprobs=False):
         processor.number_of_output_tokens = 0
         processor.prefill_result_status = {}
         processor.use_logprobs = use_logprobs
+        processor.enable_draft_logprob = cfg.speculative_config.enable_draft_logprob
         processor.num_draft_tokens = 0
         processor.num_accepted_tokens = 0
         processor.num_emitted_tokens = 0

From 638009387da1f4c5c9e034db0cea74fd7c4610e9 Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Wed, 31 Dec 2025 15:08:34 +0800
Subject: [PATCH 067/161] [Cherry-Pick] [BugFix] fix cache manager not launched
 in case of mtp or blockwise fp8 (#5840) (#5841)

* [BugFix] fix cache manager not launched in case of mtp or blockwise fp8

* [fix] fix mtp cache in mtp.py

* [fix] fix gpu ops import

* [fix] fix mtp layer idx
---
 fastdeploy/spec_decode/mtp.py         | 28 ++++++++++++++++++++++++++-
 fastdeploy/worker/gpu_model_runner.py |  2 ++
 2 files changed, 29 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index 02a35fe4039..279e4cd42d8 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -65,6 +65,7 @@
         speculate_get_logits,
         speculate_save_output_topk,
         update_attn_mask_offsets,
+        set_data_ipc,
     )
     from fastdeploy.model_executor.pre_and_post_process import pre_process, rebuild_padding
 
@@ -210,6 +211,9 @@ def initialize_kv_cache(self, main_model_num_blocks, profile: bool = False):
                 self.num_main_model_layers,
                 self.num_main_model_layers + self.model_config.num_hidden_layers,
             ):
+                logger.info(
+                    f"..attaching kv cache for mtp layer {i}: key:{key_cache_shape}, value:{value_cache_shape}"
+                )
                 key_cache = paddle.empty(shape=[], dtype=cache_type)
                 key_cache_name = f"key_caches_{i}_rank{local_rank}.device{self.device_id}"
                 val_cache_name = f"value_caches_{i}_rank{local_rank}.device{self.device_id}"
@@ -233,28 +237,50 @@ def initialize_kv_cache(self, main_model_num_blocks, profile: bool = False):
 
             self.model_inputs["caches"] = cache_kvs_list
         else:
-            for i in range(self.model_config.num_hidden_layers):
+            for i in range(
+                self.num_main_model_layers,
+                self.num_main_model_layers + self.model_config.num_hidden_layers,
+            ):
+                logger.info(f"..creating kv cache for mtp layer {i}: key:{key_cache_shape}, value:{value_cache_shape}")
                 self.cache_kvs[f"key_caches_{i}"] = paddle.full(
                     shape=key_cache_shape,
                     fill_value=0,
                     dtype=cache_type,
                 )
+                set_data_ipc(
+                    self.cache_kvs[f"key_caches_{i}"], f"key_caches_{i}_rank{local_rank}.device{self.device_id}"
+                )
+
                 self.cache_kvs[f"value_caches_{i}"] = paddle.full(
                     shape=value_cache_shape,
                     fill_value=0,
                     dtype=cache_type,
                 )
+                set_data_ipc(
+                    self.cache_kvs[f"value_caches_{i}"], f"value_caches_{i}_rank{local_rank}.device{self.device_id}"
+                )
+
                 if kv_cache_quant_type == "block_wise_fp8":
                     self.cache_kvs[f"key_cache_scales_{i}"] = paddle.full(
                         shape=kv_cache_scale_shape,
                         fill_value=0,
                         dtype=paddle.get_default_dtype(),
                     )
+                    set_data_ipc(
+                        self.cache_kvs[f"key_cache_scales_{i}"],
+                        f"key_cache_scales_{i}_rank{local_rank}.device{self.device_id}",
+                    )
+
                     self.cache_kvs[f"value_cache_scales_{i}"] = paddle.full(
                         shape=kv_cache_scale_shape,
                         fill_value=0,
                         dtype=paddle.get_default_dtype(),
                     )
+                    set_data_ipc(
+                        self.cache_kvs[f"value_cache_scales_{i}"],
+                        f"value_cache_scales_{i}_rank{local_rank}.device{self.device_id}",
+                    )
+
             self.model_inputs["caches"] = list(self.cache_kvs.values())
             for value in self.cache_kvs.values():
                 del value
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 3e138cb589a..2928db33f7a 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -1617,10 +1617,12 @@ def initialize_kv_cache(self, profile: bool = False) -> None:
                     key_cache_scales = paddle.full(
                         shape=kv_cache_scale_shape, fill_value=0, dtype=paddle.get_default_dtype()
                     )
+                    set_data_ipc(key_cache_scales, key_cache_scales_name)
                     if value_cache_shape:
                         val_cache_scales = paddle.full(
                             shape=kv_cache_scale_shape, fill_value=0, dtype=paddle.get_default_dtype()
                         )
+                        set_data_ipc(val_cache_scales, value_cache_scales_name)
                         cache_kvs_list.extend([key_cache_scales, val_cache_scales])
                     else:
                         cache_kvs_list.extend([key_cache_scales])

From 20024b889c69f8d4018916815760345dbc75b91e Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Wed, 31 Dec 2025 17:29:49 +0800
Subject: [PATCH 068/161] [Cherry-Pick][BugFix] cp skip_mm_revert(#5848)
 (#5849)

* cp skip_mm_revert

* update test
---
 .../cache_manager/prefix_cache_manager.py     |  6 ++++--
 .../engine/sched/resource_manager_v1.py       | 19 +++----------------
 tests/v1/cache_manager/test_revert_blocks.py  |  1 +
 3 files changed, 8 insertions(+), 18 deletions(-)

diff --git a/fastdeploy/cache_manager/prefix_cache_manager.py b/fastdeploy/cache_manager/prefix_cache_manager.py
index 4c40e91112c..4142aeccaa2 100644
--- a/fastdeploy/cache_manager/prefix_cache_manager.py
+++ b/fastdeploy/cache_manager/prefix_cache_manager.py
@@ -1284,8 +1284,10 @@ def _revert_match_blocks(
         cpu_match_token_num: int,
         swap_node_ids: list,
     ):
-        position = request.multimodal_inputs["mm_positions"][chunk_idx]
-        revert_tokens = matched_token_num - position.offset
+        # position = request.multimodal_inputs["mm_positions"][chunk_idx]
+        # revert_tokens = matched_token_num - position.offset
+        # TODO(chengyanfu): fix when is_chunked_mm_input=True, revert all matched tokens
+        revert_tokens = matched_token_num
         match_block_ids = [node.block_id for node in matche_nodes]
         logger.warning(
             f"match_block: req_id {request.request_id} revert tokens: {revert_tokens} from matched nodes: {match_block_ids}"
diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index eedc37174e3..1106b56f9fe 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -32,7 +32,6 @@
     EncoderCacheManager,
     ProcessorCacheManager,
 )
-from fastdeploy.config import ErnieArchitectures
 from fastdeploy.engine.request import (
     ImagePosition,
     Request,
@@ -883,21 +882,9 @@ def get_prefix_cached_blocks(self, request: Request):
         """
         try:
             cache_prepare_time = time.time()
-            if self._is_mm_request(request) and ErnieArchitectures.is_ernie5_arch(
-                self.config.model_config.architectures
-            ):
-                # For multimodal requests using Ernie 5 series models, skip prefix cache.
-                hit_info = {
-                    "gpu_cache_blocks": 0,
-                    "cpu_cache_blocks": 0,
-                    "gpu_match_token_num": 0,
-                    "cpu_match_token_num": 0,
-                }
-                common_block_ids, matched_token_num = [], 0
-            else:
-                (common_block_ids, matched_token_num, hit_info) = self.cache_manager.request_match_blocks(
-                    request, self.config.cache_config.block_size
-                )
+            (common_block_ids, matched_token_num, hit_info) = self.cache_manager.request_match_blocks(
+                request, self.config.cache_config.block_size
+            )
 
             matched_block_num = len(common_block_ids)
             no_cache_block_num = self.cache_manager.get_required_block_num(
diff --git a/tests/v1/cache_manager/test_revert_blocks.py b/tests/v1/cache_manager/test_revert_blocks.py
index 8e3e864c669..0cc3def4ae7 100644
--- a/tests/v1/cache_manager/test_revert_blocks.py
+++ b/tests/v1/cache_manager/test_revert_blocks.py
@@ -117,6 +117,7 @@ def test_is_chunked_mm_input_after_last_chunk(self):
         self.assertEqual(idx, 0)
 
 
+@unittest.skip("Skip TestRevertMatchBlocks")
 class TestRevertMatchBlocks(unittest.TestCase):
     def setUp(self):
         self.block_size = 64

From 9a7eb33fd416c7574931b7e04e91d5757bcaa4f6 Mon Sep 17 00:00:00 2001
From: chen <103103266+ckl117@users.noreply.github.com>
Date: Wed, 31 Dec 2025 19:54:14 +0800
Subject: [PATCH 069/161] [Cherry-Pick][Optimization] Optimization for
 gather_logprob by 10GB (#5817)(#5846) (#5834)

* [Optimization] Optimization for gather_logprob by 10GB (#5817)

* opt logprobs gather_logprob,reduce device memory usage by 10GB when token_num=8k

* only cuda run triton op (#5846)
---
 .../model_executor/layers/sample/logprobs.py  | 82 +++++++++++++++++++
 .../model_executor/layers/sample/sampler.py   |  7 +-
 .../layers/test_batched_count_greater_than.py | 46 +++++++++++
 3 files changed, 132 insertions(+), 3 deletions(-)
 create mode 100644 fastdeploy/model_executor/layers/sample/logprobs.py
 create mode 100644 tests/layers/test_batched_count_greater_than.py

diff --git a/fastdeploy/model_executor/layers/sample/logprobs.py b/fastdeploy/model_executor/layers/sample/logprobs.py
new file mode 100644
index 00000000000..affaf10346c
--- /dev/null
+++ b/fastdeploy/model_executor/layers/sample/logprobs.py
@@ -0,0 +1,82 @@
+"""
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+
+import paddle
+import triton
+import triton.language as tl
+
+from fastdeploy.platforms import current_platform
+
+
+@triton.jit
+def count_greater_kernel(
+    x_ptr,  # [num_tokens, n_elements]
+    y_ptr,  # [num_tokens, 1]
+    out_ptr,  # [num_tokens, 1]
+    n_elements,
+    BLOCK_SIZE: tl.constexpr,
+):
+    b = tl.program_id(0)
+    sum_val = 0.0
+    y = tl.load(y_ptr + b * 1 + 0)
+    for col_start_idx in range(0, tl.cdiv(n_elements, BLOCK_SIZE)):
+        col_ids = col_start_idx * BLOCK_SIZE + tl.arange(0, BLOCK_SIZE)
+        col_mask = col_ids < n_elements
+        x = tl.load(x_ptr + b * n_elements + col_ids, mask=col_mask, other=-float("inf"))
+        compare_mask = x >= y
+        cmp_mask = tl.where(compare_mask & col_mask, 1, 0)
+        sum_val += tl.sum(cmp_mask, axis=0)
+    tl.store(out_ptr + b, sum_val.to(tl.int64))
+
+
+def batched_count_greater_than(x: paddle.Tensor, y: paddle.Tensor) -> paddle.Tensor:
+    """
+    Triton implementation: (x >= y).sum(-1)
+
+    Args:
+        x (paddle.Tensor): 2D tensor，shape [num_tokens, n_elements]，float32.
+        y (paddle.Tensor): 2D tensor，shape [num_tokens, 1]，float32.
+
+    Returns:
+        paddle.Tensor: 1D tensor，shape [num_tokens].
+    """
+    assert x.dim() == 2, f"x must be 2D, got {x.dim()}D"
+    assert y.dim() == 2 and y.shape[1] == 1, f"y must be 2D with shape [num_tokens, 1], got {y.shape}"
+    assert x.shape[0] == y.shape[0], f"shape[0] mismatch: x has {x.shape[0]}, y has {y.shape[0]}"
+    assert x.dtype == y.dtype, f"dtype mismatch: x is {x.dtype}, y is {y.dtype}"
+
+    if current_platform.is_cuda():
+
+        num_tokens, n_elements = x.shape
+        dtype = paddle.int64
+
+        out = paddle.empty([num_tokens], dtype=dtype, device=x.place)
+
+        config = {"BLOCK_SIZE": 4096, "num_warps": 16}
+        grid = (num_tokens,)
+
+        count_greater_kernel[grid](
+            x_ptr=x,
+            y_ptr=y,
+            out_ptr=out,
+            n_elements=n_elements,
+            BLOCK_SIZE=config["BLOCK_SIZE"],
+            num_warps=config["num_warps"],
+        )
+    else:
+        out = (x >= y).sum(-1)
+
+    return out
diff --git a/fastdeploy/model_executor/layers/sample/sampler.py b/fastdeploy/model_executor/layers/sample/sampler.py
index eb7f9a20572..afc8b725ce4 100644
--- a/fastdeploy/model_executor/layers/sample/sampler.py
+++ b/fastdeploy/model_executor/layers/sample/sampler.py
@@ -30,6 +30,7 @@
 from fastdeploy.model_executor.layers.sample.early_stopper import (
     get_early_stopper_cls_from_stragegy,
 )
+from fastdeploy.model_executor.layers.sample.logprobs import batched_count_greater_than
 from fastdeploy.model_executor.layers.sample.meta_data import SamplingMetadata
 from fastdeploy.model_executor.layers.sample.ops import (
     apply_penalty_multi_scores,
@@ -466,7 +467,7 @@ def gather_logprobs(
         token_logprobs = paddle.take_along_axis(logprobs, token_ids, axis=-1)
 
         # Compute the ranks of the actual token.
-        token_ranks = (logprobs >= token_logprobs).sum(-1)
+        token_ranks = batched_count_greater_than(logprobs, token_logprobs)
 
         if num_logprobs >= 1:
             # Find the topK values.
@@ -713,7 +714,7 @@ def gather_logprobs(
         token_logprobs = paddle.take_along_axis(logprobs, token_ids, axis=-1)
 
         # Compute the ranks of the actual token.
-        token_ranks = (logprobs >= token_logprobs).sum(-1)
+        token_ranks = batched_count_greater_than(logprobs, token_logprobs)
 
         if num_logprobs >= 1:
             # Find the topK values.
@@ -1054,7 +1055,7 @@ def gather_logprobs(
         token_logprobs = paddle.take_along_axis(logprobs, token_ids, axis=-1)
 
         # Compute the ranks of the actual token.
-        token_ranks = (logprobs >= token_logprobs).sum(-1)
+        token_ranks = batched_count_greater_than(logprobs, token_logprobs)
 
         if num_logprobs >= 1:
             # Find the topK values.
diff --git a/tests/layers/test_batched_count_greater_than.py b/tests/layers/test_batched_count_greater_than.py
new file mode 100644
index 00000000000..97ded31089e
--- /dev/null
+++ b/tests/layers/test_batched_count_greater_than.py
@@ -0,0 +1,46 @@
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+import unittest
+
+import numpy as np
+import paddle
+
+from fastdeploy.model_executor.layers.sample.logprobs import batched_count_greater_than
+
+
+class TestBatchedCountGreaterThan(unittest.TestCase):
+    def setUp(self) -> None:
+        pass
+
+    def naive_impl(self, x, y):
+        return (x >= y).sum(-1)
+
+    def test_batched_count_greater_than(self):
+        vocab_size_list = [151552, 566]
+        test_token_nums = [1, 32, 128, 1024, 8192]
+        for idx, num_tokens in enumerate(test_token_nums):
+            for vocab_size in vocab_size_list:
+                x = paddle.randn([num_tokens, vocab_size], dtype="float32")
+                y = paddle.randn([num_tokens, 1], dtype="float32")
+                x[0, 0] = -float("inf")
+                y[0, 0] = -float("inf")
+                out = self.naive_impl(x, y)
+                out_triton = batched_count_greater_than(x, y)
+                self.assertTrue(np.allclose(out.numpy(), out_triton.numpy()))
+
+        return out
+
+
+if __name__ == "__main__":
+    unittest.main()

From 3e04e438124a86505b2364d5b79928302e554aff Mon Sep 17 00:00:00 2001
From: ddchenhao66 <165133255+ddchenhao66@users.noreply.github.com>
Date: Sun, 4 Jan 2026 11:35:21 +0800
Subject: [PATCH 070/161] [Cherry-Pick][XPU]MAX_BSZ aligns gpu settings and
 disable prefix cache in OCR VL (#5845)

---
 .../src/ops/get_output_msg_with_topk.cc       |  4 +--
 .../src/ops/save_output_msg_with_topk.cc      |  4 +--
 .../xpu_ops/src/ops/save_with_output_msg.cc   | 27 +++++++------------
 fastdeploy/output/token_processor.py          |  9 +++----
 4 files changed, 17 insertions(+), 27 deletions(-)

diff --git a/custom_ops/xpu_ops/src/ops/get_output_msg_with_topk.cc b/custom_ops/xpu_ops/src/ops/get_output_msg_with_topk.cc
index f00313e8718..afff264ddc3 100644
--- a/custom_ops/xpu_ops/src/ops/get_output_msg_with_topk.cc
+++ b/custom_ops/xpu_ops/src/ops/get_output_msg_with_topk.cc
@@ -23,8 +23,8 @@
 #define PD_BUILD_STATIC_OP(name) PD_BUILD_OP(static_op_##name)
 #endif
 
-#define MAX_BSZ 128
-#define K 5
+#define MAX_BSZ 512
+#define K 20
 
 struct msgdata {
   long mtype;
diff --git a/custom_ops/xpu_ops/src/ops/save_output_msg_with_topk.cc b/custom_ops/xpu_ops/src/ops/save_output_msg_with_topk.cc
index 596eb4763c4..07122503209 100644
--- a/custom_ops/xpu_ops/src/ops/save_output_msg_with_topk.cc
+++ b/custom_ops/xpu_ops/src/ops/save_output_msg_with_topk.cc
@@ -23,8 +23,8 @@
 #define PD_BUILD_STATIC_OP(name) PD_BUILD_OP(static_op_##name)
 #endif
 
-#define MAX_BSZ 128
-#define K 5
+#define MAX_BSZ 512
+#define K 20
 // #define SAVE_WITH_OUTPUT_DEBUG
 
 struct msgdata {
diff --git a/custom_ops/xpu_ops/src/ops/save_with_output_msg.cc b/custom_ops/xpu_ops/src/ops/save_with_output_msg.cc
index 7e1bb881569..f46336426f6 100644
--- a/custom_ops/xpu_ops/src/ops/save_with_output_msg.cc
+++ b/custom_ops/xpu_ops/src/ops/save_with_output_msg.cc
@@ -17,19 +17,12 @@
 #include <sys/ipc.h>
 #include <sys/msg.h>
 #include <sys/types.h>
+#include "msg_utils.h"
 #include "paddle/extension.h"
 
-#define MAX_BSZ 256
-
-// #define SAVE_WITH_OUTPUT_DEBUG
-struct msgdata {
-  long mtype;
-  int mtext[MAX_BSZ + 2];  // stop_flag, bsz, tokens
-};
-
 // #define SAVE_WITH_OUTPUT_DEBUG
-void SaveOutMmsg(const paddle::Tensor &x,
-                 const paddle::Tensor &not_need_stop,
+void SaveOutMmsg(const paddle::Tensor& x,
+                 const paddle::Tensor& not_need_stop,
                  int64_t rank_id,
                  int msg_queue_id,
                  bool save_each_rank) {
@@ -37,10 +30,10 @@ void SaveOutMmsg(const paddle::Tensor &x,
     return;
   }
   auto x_cpu = x.copy_to(paddle::CPUPlace(), false);
-  int64_t *x_data = x_cpu.data<int64_t>();
+  int64_t* x_data = x_cpu.data<int64_t>();
   static struct msgdata msg_sed;
 
-  if (const char *inference_msg_queue_id_env_p =
+  if (const char* inference_msg_queue_id_env_p =
           std::getenv("INFERENCE_MSG_QUEUE_ID")) {
     std::string inference_msg_queue_id_env_str(inference_msg_queue_id_env_p);
     int inference_msg_queue_id_from_env =
@@ -57,7 +50,7 @@ void SaveOutMmsg(const paddle::Tensor &x,
 #endif
   }
   int inference_msg_id_from_env = 1;
-  if (const char *inference_msg_id_env_p = std::getenv("INFERENCE_MSG_ID")) {
+  if (const char* inference_msg_id_env_p = std::getenv("INFERENCE_MSG_ID")) {
     std::string inference_msg_id_env_str(inference_msg_id_env_p);
     inference_msg_id_from_env = std::stoi(inference_msg_id_env_str);
     if (inference_msg_id_from_env == 2) {
@@ -111,15 +104,15 @@ void SaveOutMmsg(const paddle::Tensor &x,
   return;
 }
 
-void SaveOutMmsgStatic(const paddle::Tensor &x,
-                       const paddle::Tensor &not_need_stop,
+void SaveOutMmsgStatic(const paddle::Tensor& x,
+                       const paddle::Tensor& not_need_stop,
                        int64_t rank_id,
                        bool save_each_rank) {
   SaveOutMmsg(x, not_need_stop, rank_id, 1, save_each_rank);
 }
 
-void SaveOutMmsgDynamic(const paddle::Tensor &x,
-                        const paddle::Tensor &not_need_stop,
+void SaveOutMmsgDynamic(const paddle::Tensor& x,
+                        const paddle::Tensor& not_need_stop,
                         int64_t rank_id,
                         int msg_queue_id,
                         bool save_each_rank) {
diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
index cbfca2c067b..fc2f6ca3c89 100644
--- a/fastdeploy/output/token_processor.py
+++ b/fastdeploy/output/token_processor.py
@@ -49,12 +49,9 @@
 MAX_DRAFT_TOKENS = 6
 SPECULATE_MAX_BSZ = 256
 
-if current_platform.is_xpu():
-    MAX_BSZ = 128
-    K = 5
-else:
-    MAX_BSZ = 512
-    K = 20
+
+MAX_BSZ = 512
+K = 20
 
 
 class TokenProcessor:

From 180e6f96d444106d2c009754887b85a0fd2754df Mon Sep 17 00:00:00 2001
From: Jiaxin Sui <95567040+plusNew001@users.noreply.github.com>
Date: Sun, 4 Jan 2026 16:26:07 +0800
Subject: [PATCH 071/161] [XPU][CI]Release ci update (#5687)

* Update PaddlePaddle installation and dependencies script

* Update dependency versions in download_dependencies.sh
---
 custom_ops/xpu_ops/download_dependencies.sh | 4 ++--
 scripts/run_xpu_ci_pytest.sh                | 8 ++++----
 2 files changed, 6 insertions(+), 6 deletions(-)

diff --git a/custom_ops/xpu_ops/download_dependencies.sh b/custom_ops/xpu_ops/download_dependencies.sh
index ad6d4d2dea6..f684ec4cb11 100644
--- a/custom_ops/xpu_ops/download_dependencies.sh
+++ b/custom_ops/xpu_ops/download_dependencies.sh
@@ -12,8 +12,8 @@ rm -rf "$THIRDPARTY_DIR"
 mkdir -p "$THIRDPARTY_DIR" || exit 1
 
 if [ "$1" == "stable" ]; then
-    version_xvllm="20251017"
-    version_xtdk="3.4.0.1"
+    version_xvllm="20251219"
+    version_xtdk="4.4.41.1"
 else
     version_xvllm="latest"
     version_xtdk="latest"
diff --git a/scripts/run_xpu_ci_pytest.sh b/scripts/run_xpu_ci_pytest.sh
index a7175350be0..f57e096f71e 100644
--- a/scripts/run_xpu_ci_pytest.sh
+++ b/scripts/run_xpu_ci_pytest.sh
@@ -72,14 +72,14 @@ echo "卸载旧版本..."
 python -m pip uninstall paddlepaddle-xpu -y
 python -m pip uninstall fastdeploy-xpu -y
 
-# 安装PaddlePaddle
-echo "安装PaddlePaddle..."
-python -m pip install --pre paddlepaddle-xpu -i https://www.paddlepaddle.org.cn/packages/nightly/xpu-p800/
+# 安装PaddlePaddle Release分支安装对应的paddle
+echo "安装release分支PaddlePaddle..."
+python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Xpu-P800-SelfBuiltPypiUse/latest/paddlepaddle_xpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
 # ============ 编译项目 ============
 
 echo "============================编译项目============================"
-bash custom_ops/xpu_ops/download_dependencies.sh develop
+bash custom_ops/xpu_ops/download_dependencies.sh stable
 export CLANG_PATH=$(pwd)/custom_ops/xpu_ops/third_party/xtdk
 export XVLLM_PATH=$(pwd)/custom_ops/xpu_ops/third_party/xvllm
 bash build.sh || exit 1

From 2a71e427f93841c17a0744c7f543b76f82beaec5 Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Sun, 4 Jan 2026 17:10:03 +0800
Subject: [PATCH 072/161] [Cherry-Pick][CI] Fix archive URL injection and add
 retry(#5725,#5828) (#5832)

---
 .github/workflows/_accuracy_test.yml      | 62 +++++++++++------
 .github/workflows/_base_test.yml          | 83 +++++++++++++++++------
 .github/workflows/_build_linux.yml        | 24 ++++++-
 .github/workflows/_logprob_test_linux.yml | 54 ++++++++++-----
 .github/workflows/_pre_ce_test.yml        | 62 +++++++++++------
 .github/workflows/_stable_test.yml        | 62 +++++++++++------
 .github/workflows/_unit_test_coverage.yml | 63 +++++++++++------
 .github/workflows/ci_image_update.yml     |  4 +-
 .github/workflows/publish_job.yml         |  2 +-
 tests/ce/stable_cases/launch_model.sh     | 20 +++---
 10 files changed, 295 insertions(+), 141 deletions(-)

diff --git a/.github/workflows/_accuracy_test.yml b/.github/workflows/_accuracy_test.yml
index 2dfd68aa9d9..4efb008da17 100644
--- a/.github/workflows/_accuracy_test.yml
+++ b/.github/workflows/_accuracy_test.yml
@@ -39,29 +39,47 @@ jobs:
           docker_image: ${{ inputs.DOCKER_IMAGE }}
           fd_archive_url: ${{ inputs.FASTDEPLOY_ARCHIVE_URL }}
         run: |
-            set -x
-            REPO="https://github.com/${{ github.repository }}.git"
-            FULL_REPO="${{ github.repository }}"
-            REPO_NAME="${FULL_REPO##*/}"
-            BASE_BRANCH="${{ github.base_ref }}"
-            docker pull ${docker_image}
-            # Clean the repository directory before starting
-            docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
-            -e "REPO_NAME=${REPO_NAME}" \
-            ${docker_image} /bin/bash -c '
-              if [ -d ${REPO_NAME} ]; then
-                echo "Directory ${REPO_NAME} exists, removing it..."
-                rm -rf ${REPO_NAME}*
+          set -x
+          REPO="https://github.com/${{ github.repository }}.git"
+          FULL_REPO="${{ github.repository }}"
+          REPO_NAME="${FULL_REPO##*/}"
+          BASE_BRANCH="${{ github.base_ref }}"
+          docker pull ${docker_image}
+          # Clean the repository directory before starting
+          docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
+          -e "REPO_NAME=${REPO_NAME}" \
+          ${docker_image} /bin/bash -c '
+            CLEAN_RETRIES=3
+            CLEAN_COUNT=0
+
+            while [ $CLEAN_COUNT -lt $CLEAN_RETRIES ]; do
+              echo "Attempt $((CLEAN_COUNT+1)) to remove ${REPO_NAME}* ..."
+              rm -rf "${REPO_NAME}"* || true
+              sleep 2
+
+              # Check if anything matching ${REPO_NAME}* still exists
+              if ! ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                echo "All ${REPO_NAME}* removed successfully"
+                break
               fi
-            '
 
-            wget -q --no-proxy ${fd_archive_url}
-            tar -xf FastDeploy.tar.gz
-            rm -rf FastDeploy.tar.gz
-            cd FastDeploy
-            git config --global user.name "FastDeployCI"
-            git config --global user.email "fastdeploy_ci@example.com"
-            git log -n 3 --oneline
+              CLEAN_COUNT=$((CLEAN_COUNT + 1))
+            done
+
+            if ls "${REPO_NAME}"* >/dev/null 2>&1; then
+              echo "ERROR: Failed to clean ${REPO_NAME}* after multiple attempts"
+              ls -ld "${REPO_NAME}"*
+              exit 1
+            fi
+          '
+
+          wget -q --no-proxy ${fd_archive_url}
+          tar -xf FastDeploy.tar.gz
+          rm -rf FastDeploy.tar.gz
+          cd FastDeploy
+          git config --global user.name "FastDeployCI"
+          git config --global user.email "fastdeploy_ci@example.com"
+          git log -n 3 --oneline
 
       - name: Run FastDeploy Base Tests
         shell: bash
@@ -150,7 +168,7 @@ jobs:
           python -m pip install ${fastdeploy_wheel_url}
           python -m pip install pytest
 
-          wget https://paddle-qa.bj.bcebos.com/zhengtianyu/tools/llm-deploy-linux-amd64
+          wget --no-proxy https://paddle-qa.bj.bcebos.com/zhengtianyu/tools/llm-deploy-linux-amd64
           chmod +x ./llm-deploy-linux-amd64
           ./llm-deploy-linux-amd64 -python python3.10 \
           -model_name ERNIE-4.5-0.3B-Paddle \
diff --git a/.github/workflows/_base_test.yml b/.github/workflows/_base_test.yml
index d5dffb02d3e..b9299eb0af4 100644
--- a/.github/workflows/_base_test.yml
+++ b/.github/workflows/_base_test.yml
@@ -39,29 +39,72 @@ jobs:
           docker_image: ${{ inputs.DOCKER_IMAGE }}
           fd_archive_url: ${{ inputs.FASTDEPLOY_ARCHIVE_URL }}
         run: |
-            set -x
-            REPO="https://github.com/${{ github.repository }}.git"
-            FULL_REPO="${{ github.repository }}"
-            REPO_NAME="${FULL_REPO##*/}"
-            BASE_BRANCH="${{ github.base_ref }}"
-            docker pull ${docker_image}
-            # Clean the repository directory before starting
-            docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
-            -e "REPO_NAME=${REPO_NAME}" \
-            ${docker_image} /bin/bash -c '
-              if [ -d ${REPO_NAME} ]; then
-                echo "Directory ${REPO_NAME} exists, removing it..."
-                rm -rf ${REPO_NAME}*
+          set -x
+          REPO="https://github.com/${{ github.repository }}.git"
+          FULL_REPO="${{ github.repository }}"
+          REPO_NAME="${FULL_REPO##*/}"
+          BASE_BRANCH="${{ github.base_ref }}"
+          docker pull ${docker_image}
+          # Clean the repository directory before starting
+          docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
+          -e "REPO_NAME=${REPO_NAME}" \
+          ${docker_image} /bin/bash -c '
+              CLEAN_RETRIES=3
+              CLEAN_COUNT=0
+
+              while [ $CLEAN_COUNT -lt $CLEAN_RETRIES ]; do
+                echo "Attempt $((CLEAN_COUNT+1)) to remove ${REPO_NAME}* ..."
+                rm -rf "${REPO_NAME}"* || true
+                sleep 2
+
+                # Check if anything matching ${REPO_NAME}* still exists
+                if ! ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                  echo "All ${REPO_NAME}* removed successfully"
+                  break
+                fi
+
+                CLEAN_COUNT=$((CLEAN_COUNT + 1))
+              done
+
+              if ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                echo "ERROR: Failed to clean ${REPO_NAME}* after multiple attempts"
+                ls -ld "${REPO_NAME}"*
+                exit 1
               fi
             '
 
-            wget -q --no-proxy ${fd_archive_url}
-            tar -xf FastDeploy.tar.gz
-            rm -rf FastDeploy.tar.gz
-            cd FastDeploy
-            git config --global user.name "FastDeployCI"
-            git config --global user.email "fastdeploy_ci@example.com"
-            git log -n 3 --oneline
+          # Download with retry and validation
+          MAX_RETRIES=3
+          RETRY_COUNT=0
+          while [ $RETRY_COUNT -lt $MAX_RETRIES ]; do
+            if wget -q --no-proxy ${fd_archive_url} && [ -f FastDeploy.tar.gz ] && [ -s FastDeploy.tar.gz ]; then
+              echo "Download successful, file size: $(stat -c%s FastDeploy.tar.gz) bytes"
+              break
+            else
+              RETRY_COUNT=$((RETRY_COUNT + 1))
+              echo "Download failed or file is empty, retry $RETRY_COUNT/$MAX_RETRIES..."
+              rm -f FastDeploy.tar.gz
+              sleep 2
+            fi
+          done
+
+          if [ ! -f FastDeploy.tar.gz ] || [ ! -s FastDeploy.tar.gz ]; then
+            echo "ERROR: Failed to download FastDeploy.tar.gz after $MAX_RETRIES attempts"
+            exit 1
+          fi
+
+          # Verify tar.gz integrity before extraction
+          if ! tar -tzf FastDeploy.tar.gz > /dev/null 2>&1; then
+            echo "ERROR: FastDeploy.tar.gz is corrupted or incomplete"
+            exit 1
+          fi
+
+          tar -xf FastDeploy.tar.gz
+          rm -rf FastDeploy.tar.gz
+          cd FastDeploy
+          git config --global user.name "FastDeployCI"
+          git config --global user.email "fastdeploy_ci@example.com"
+          git log -n 3 --oneline
 
       - name: Run FastDeploy Base Tests
         shell: bash
diff --git a/.github/workflows/_build_linux.yml b/.github/workflows/_build_linux.yml
index d723e4b2ac5..58775271d92 100644
--- a/.github/workflows/_build_linux.yml
+++ b/.github/workflows/_build_linux.yml
@@ -76,9 +76,27 @@ jobs:
             docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
             -e "REPO_NAME=${REPO_NAME}" \
             ${docker_image} /bin/bash -c '
-              if [ -d ${REPO_NAME} ]; then
-                echo "Directory ${REPO_NAME} exists, removing it..."
-                rm -rf ${REPO_NAME}*
+              CLEAN_RETRIES=3
+              CLEAN_COUNT=0
+
+              while [ $CLEAN_COUNT -lt $CLEAN_RETRIES ]; do
+                echo "Attempt $((CLEAN_COUNT+1)) to remove ${REPO_NAME}* ..."
+                rm -rf "${REPO_NAME}"* || true
+                sleep 2
+
+                # Check if anything matching ${REPO_NAME}* still exists
+                if ! ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                  echo "All ${REPO_NAME}* removed successfully"
+                  break
+                fi
+
+                CLEAN_COUNT=$((CLEAN_COUNT + 1))
+              done
+
+              if ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                echo "ERROR: Failed to clean ${REPO_NAME}* after multiple attempts"
+                ls -ld "${REPO_NAME}"*
+                exit 1
               fi
             '
 
diff --git a/.github/workflows/_logprob_test_linux.yml b/.github/workflows/_logprob_test_linux.yml
index 8ca3c7d7f64..ca2c2ba1178 100644
--- a/.github/workflows/_logprob_test_linux.yml
+++ b/.github/workflows/_logprob_test_linux.yml
@@ -40,21 +40,43 @@ jobs:
           docker_image: ${{ inputs.DOCKER_IMAGE }}
           paddletest_archive_url: ${{ inputs.PADDLETEST_ARCHIVE_URL }}
         run: |
-            docker pull ${docker_image}
-            # Clean the repository directory before starting
-            docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
-            -e "REPO_NAME=${REPO_NAME}" \
-            -e "BASE_BRANCH=${BASE_BRANCH}" \
-            ${docker_image} /bin/bash -c '
-            rm -rf /workspace/*
-            '
-            wget -q --no-proxy ${paddletest_archive_url}
-            tar -xf PaddleTest.tar.gz
-            rm -rf PaddleTest.tar.gz
-            cd PaddleTest
-            git config --global user.name "FastDeployCI"
-            git config --global user.email "fastdeploy_ci@example.com"
-            git log -n 3 --oneline
+          docker pull ${docker_image}
+          # Clean the repository directory before starting
+          docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
+          -e "REPO_NAME=${REPO_NAME}" \
+          -e "BASE_BRANCH=${BASE_BRANCH}" \
+          ${docker_image} /bin/bash -c '
+            CLEAN_RETRIES=3
+            CLEAN_COUNT=0
+
+            while [ $CLEAN_COUNT -lt $CLEAN_RETRIES ]; do
+              echo "Attempt $((CLEAN_COUNT+1)) to remove /workspace/* ..."
+              rm -rf /workspace/* || true
+              sleep 2
+
+              # Check if anything matching /workspace/* still exists
+              if ! ls /workspace/* >/dev/null 2>&1; then
+                echo "All /workspace/* removed successfully"
+                break
+              fi
+
+              CLEAN_COUNT=$((CLEAN_COUNT + 1))
+            done
+
+            if ls /workspace/* >/dev/null 2>&1; then
+              echo "ERROR: Failed to clean /workspace/* after multiple attempts"
+              ls -ld /workspace/*
+              exit 1
+            fi
+          '
+          wget -q --no-proxy ${paddletest_archive_url}
+          tar -xf PaddleTest.tar.gz
+          rm -rf PaddleTest.tar.gz
+          cd PaddleTest
+          git config --global user.name "FastDeployCI"
+          git config --global user.email "fastdeploy_ci@example.com"
+          git log -n 3 --oneline
+
       - name: logprob test
         shell: bash
         env:
@@ -140,7 +162,7 @@ jobs:
 
           python -m pip install ${fastdeploy_wheel_url}
 
-          wget https://paddle-qa.bj.bcebos.com/zhengtianyu/tools/llm-deploy-linux-amd64
+          wget --no-proxy https://paddle-qa.bj.bcebos.com/zhengtianyu/tools/llm-deploy-linux-amd64
           chmod +x ./llm-deploy-linux-amd64
           ./llm-deploy-linux-amd64 -python python3.10 \
           -model_name ERNIE-4.5-0.3B-Paddle \
diff --git a/.github/workflows/_pre_ce_test.yml b/.github/workflows/_pre_ce_test.yml
index 4db32567796..70a01aa7d98 100644
--- a/.github/workflows/_pre_ce_test.yml
+++ b/.github/workflows/_pre_ce_test.yml
@@ -41,29 +41,47 @@ jobs:
           docker_image: ${{ inputs.DOCKER_IMAGE }}
           fd_archive_url: ${{ inputs.FASTDEPLOY_ARCHIVE_URL }}
         run: |
-            set -x
-            REPO="https://github.com/${{ github.repository }}.git"
-            FULL_REPO="${{ github.repository }}"
-            REPO_NAME="${FULL_REPO##*/}"
-            BASE_BRANCH="${{ github.base_ref }}"
-            docker pull ${docker_image}
-            # Clean the repository directory before starting
-            docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
-            -e "REPO_NAME=${REPO_NAME}" \
-            ${docker_image} /bin/bash -c '
-              if [ -d ${REPO_NAME} ]; then
-                echo "Directory ${REPO_NAME} exists, removing it..."
-                rm -rf ${REPO_NAME}*
+          set -x
+          REPO="https://github.com/${{ github.repository }}.git"
+          FULL_REPO="${{ github.repository }}"
+          REPO_NAME="${FULL_REPO##*/}"
+          BASE_BRANCH="${{ github.base_ref }}"
+          docker pull ${docker_image}
+          # Clean the repository directory before starting
+          docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
+          -e "REPO_NAME=${REPO_NAME}" \
+          ${docker_image} /bin/bash -c '
+            CLEAN_RETRIES=3
+            CLEAN_COUNT=0
+
+            while [ $CLEAN_COUNT -lt $CLEAN_RETRIES ]; do
+              echo "Attempt $((CLEAN_COUNT+1)) to remove ${REPO_NAME}* ..."
+              rm -rf "${REPO_NAME}"* || true
+              sleep 2
+
+              # Check if anything matching ${REPO_NAME}* still exists
+              if ! ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                echo "All ${REPO_NAME}* removed successfully"
+                break
               fi
-            '
-
-            wget -q --no-proxy ${fd_archive_url}
-            tar -xf FastDeploy.tar.gz
-            rm -rf FastDeploy.tar.gz
-            cd FastDeploy
-            git config --global user.name "FastDeployCI"
-            git config --global user.email "fastdeploy_ci@example.com"
-            git log -n 3 --oneline
+
+              CLEAN_COUNT=$((CLEAN_COUNT + 1))
+            done
+
+            if ls "${REPO_NAME}"* >/dev/null 2>&1; then
+              echo "ERROR: Failed to clean ${REPO_NAME}* after multiple attempts"
+              ls -ld "${REPO_NAME}"*
+              exit 1
+            fi
+          '
+
+          wget -q --no-proxy ${fd_archive_url}
+          tar -xf FastDeploy.tar.gz
+          rm -rf FastDeploy.tar.gz
+          cd FastDeploy
+          git config --global user.name "FastDeployCI"
+          git config --global user.email "fastdeploy_ci@example.com"
+          git log -n 3 --oneline
 
       - name: Run CI unittest
         env:
diff --git a/.github/workflows/_stable_test.yml b/.github/workflows/_stable_test.yml
index f39b90767e8..ebf8297ed86 100644
--- a/.github/workflows/_stable_test.yml
+++ b/.github/workflows/_stable_test.yml
@@ -39,29 +39,47 @@ jobs:
           docker_image: ${{ inputs.DOCKER_IMAGE }}
           fd_archive_url: ${{ inputs.FASTDEPLOY_ARCHIVE_URL }}
         run: |
-            set -x
-            REPO="https://github.com/${{ github.repository }}.git"
-            FULL_REPO="${{ github.repository }}"
-            REPO_NAME="${FULL_REPO##*/}"
-            BASE_BRANCH="${{ github.base_ref }}"
-            docker pull ${docker_image}
-            # Clean the repository directory before starting
-            docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
-            -e "REPO_NAME=${REPO_NAME}" \
-            ${docker_image} /bin/bash -c '
-              if [ -d ${REPO_NAME} ]; then
-                echo "Directory ${REPO_NAME} exists, removing it..."
-                rm -rf ${REPO_NAME}*
+          set -x
+          REPO="https://github.com/${{ github.repository }}.git"
+          FULL_REPO="${{ github.repository }}"
+          REPO_NAME="${FULL_REPO##*/}"
+          BASE_BRANCH="${{ github.base_ref }}"
+          docker pull ${docker_image}
+          # Clean the repository directory before starting
+          docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
+          -e "REPO_NAME=${REPO_NAME}" \
+          ${docker_image} /bin/bash -c '
+            CLEAN_RETRIES=3
+            CLEAN_COUNT=0
+
+            while [ $CLEAN_COUNT -lt $CLEAN_RETRIES ]; do
+              echo "Attempt $((CLEAN_COUNT+1)) to remove ${REPO_NAME}* ..."
+              rm -rf "${REPO_NAME}"* || true
+              sleep 2
+
+              # Check if anything matching ${REPO_NAME}* still exists
+              if ! ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                echo "All ${REPO_NAME}* removed successfully"
+                break
               fi
-            '
-
-            wget -q --no-proxy ${fd_archive_url}
-            tar -xf FastDeploy.tar.gz
-            rm -rf FastDeploy.tar.gz
-            cd FastDeploy
-            git config --global user.name "FastDeployCI"
-            git config --global user.email "fastdeploy_ci@example.com"
-            git log -n 3 --oneline
+
+              CLEAN_COUNT=$((CLEAN_COUNT + 1))
+            done
+
+            if ls "${REPO_NAME}"* >/dev/null 2>&1; then
+              echo "ERROR: Failed to clean ${REPO_NAME}* after multiple attempts"
+              ls -ld "${REPO_NAME}"*
+              exit 1
+            fi
+          '
+
+          wget -q --no-proxy ${fd_archive_url}
+          tar -xf FastDeploy.tar.gz
+          rm -rf FastDeploy.tar.gz
+          cd FastDeploy
+          git config --global user.name "FastDeployCI"
+          git config --global user.email "fastdeploy_ci@example.com"
+          git log -n 3 --oneline
 
       - name: Run FastDeploy Stable Tests
         shell: bash
diff --git a/.github/workflows/_unit_test_coverage.yml b/.github/workflows/_unit_test_coverage.yml
index 3559cc66505..beb07739c5d 100644
--- a/.github/workflows/_unit_test_coverage.yml
+++ b/.github/workflows/_unit_test_coverage.yml
@@ -55,29 +55,48 @@ jobs:
           docker_image: ${{ inputs.DOCKER_IMAGE }}
           fd_archive_url: ${{ inputs.FASTDEPLOY_ARCHIVE_URL }}
         run: |
-            set -x
-            REPO="https://github.com/${{ github.repository }}.git"
-            FULL_REPO="${{ github.repository }}"
-            REPO_NAME="${FULL_REPO##*/}"
-            BASE_BRANCH="${{ github.base_ref }}"
-            docker pull ${docker_image}
-            # Clean the repository directory before starting
-            docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
-            -e "REPO_NAME=${REPO_NAME}" \
-            ${docker_image} /bin/bash -c '
-              if [ -d ${REPO_NAME} ]; then
-                echo "Directory ${REPO_NAME} exists, removing it..."
-                rm -rf ${REPO_NAME}*
+          set -x
+          REPO="https://github.com/${{ github.repository }}.git"
+          FULL_REPO="${{ github.repository }}"
+          REPO_NAME="${FULL_REPO##*/}"
+          BASE_BRANCH="${{ github.base_ref }}"
+          docker pull ${docker_image}
+          # Clean the repository directory before starting
+          docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
+          -e "REPO_NAME=${REPO_NAME}" \
+          ${docker_image} /bin/bash -c '
+            CLEAN_RETRIES=3
+            CLEAN_COUNT=0
+
+            while [ $CLEAN_COUNT -lt $CLEAN_RETRIES ]; do
+              echo "Attempt $((CLEAN_COUNT+1)) to remove ${REPO_NAME}* ..."
+              rm -rf "${REPO_NAME}"* || true
+              sleep 2
+
+              # Check if anything matching ${REPO_NAME}* still exists
+              if ! ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                echo "All ${REPO_NAME}* removed successfully"
+                break
               fi
-            '
-
-            wget -q --no-proxy ${fd_archive_url}
-            tar -xf FastDeploy.tar.gz
-            rm -rf FastDeploy.tar.gz
-            cd FastDeploy
-            git config --global user.name "FastDeployCI"
-            git config --global user.email "fastdeploy_ci@example.com"
-            git log -n 3 --oneline
+
+              CLEAN_COUNT=$((CLEAN_COUNT + 1))
+            done
+
+            if ls "${REPO_NAME}"* >/dev/null 2>&1; then
+              echo "ERROR: Failed to clean ${REPO_NAME}* after multiple attempts"
+              ls -ld "${REPO_NAME}"*
+              exit 1
+            fi
+          '
+
+          wget -q --no-proxy ${fd_archive_url}
+          tar -xf FastDeploy.tar.gz
+          rm -rf FastDeploy.tar.gz
+          cd FastDeploy
+          git config --global user.name "FastDeployCI"
+          git config --global user.email "fastdeploy_ci@example.com"
+          git log -n 3 --oneline
+
       - name: Run FastDeploy Unit Tests and Coverage
         shell: bash
         env:
diff --git a/.github/workflows/ci_image_update.yml b/.github/workflows/ci_image_update.yml
index bc40f71ced0..da1256e204c 100644
--- a/.github/workflows/ci_image_update.yml
+++ b/.github/workflows/ci_image_update.yml
@@ -142,9 +142,9 @@ jobs:
     needs: [clone,build_sm8090,ci_image_build]
     uses: ./.github/workflows/_stable_test.yml
     with:
-      DOCKER_IMAGE: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleqa:fastdeploy-ciuse-cuda126-dailyupdate
+      DOCKER_IMAGE: ${{ needs.ci_image_build.outputs.docker_name_precheck }}
       FASTDEPLOY_ARCHIVE_URL: ${{ needs.clone.outputs.repo_archive_url }}
-      FASTDEPLOY_WHEEL_URL: ${{ needs.build.outputs.wheel_path }}
+      FASTDEPLOY_WHEEL_URL: ${{ needs.build_sm8090.outputs.wheel_path }}
       MODEL_CACHE_DIR: "/ssd2/actions-runner/ModelData"
 
   publish_pre_check:
diff --git a/.github/workflows/publish_job.yml b/.github/workflows/publish_job.yml
index 45b1331c725..f27afe5ebe8 100644
--- a/.github/workflows/publish_job.yml
+++ b/.github/workflows/publish_job.yml
@@ -287,11 +287,11 @@ jobs:
         shell: bash
         env:
           docker_image: ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/paddleqa:fastdeploy-ciuse-cuda126-dailyupdate
-          fd_archive_url: ${{ env.FASTDEPLOY_ARCHIVE_URL }}
         run: |
           set -x
           FULL_REPO="${{ github.repository }}"
           REPO_NAME="${FULL_REPO##*/}"
+          fd_archive_url="${{ needs.clone.outputs.repo_archive_url }}"
 
           # Clean the repository directory before starting
           docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
diff --git a/tests/ce/stable_cases/launch_model.sh b/tests/ce/stable_cases/launch_model.sh
index fb79d66b35b..1021aa2b8f1 100644
--- a/tests/ce/stable_cases/launch_model.sh
+++ b/tests/ce/stable_cases/launch_model.sh
@@ -5,31 +5,28 @@ FD_ENGINE_QUEUE_PORT=${FD_ENGINE_QUEUE_PORT:-8181}
 FD_METRICS_PORT=${FD_METRICS_PORT:-8182}
 FD_CACHE_QUEUE_PORT=${FD_CACHE_QUEUE_PORT:-8183}
 
-
-
 if [ -z "$MODEL_PATH" ]; then
-  echo "❌ 用法: $0 <模型路径>"
+  echo "❌ Usage: $0 <model_path>"
   exit 1
 fi
 
 if [ ! -d "$MODEL_PATH" ]; then
-  echo "❌ 错误：模型目录不存在: $MODEL_PATH"
+  echo "❌ Error: Model directory does not exist: $MODEL_PATH"
   exit 1
 fi
 
-echo "使用模型: $MODEL_PATH"
-
+echo "Using model: $MODEL_PATH"
 
-# 清理日志
+# Clean logs
 rm -rf log/*
 mkdir -p log
 
-# 环境变量
+# Environment variables
 export CUDA_VISIBLE_DEVICES=0,1
 export INFERENCE_MSG_QUEUE_ID=${FD_INFERENCE_MSG_QUEUE_ID:-7679}
 export ENABLE_V1_KVCACHE_SCHEDULER=1
 
-
+echo "Starting API server"
 python -m fastdeploy.entrypoints.openai.api_server \
        --tensor-parallel-size 2 \
        --port ${FD_API_PORT} \
@@ -48,12 +45,13 @@ success=0
 
 for i in $(seq 1 300); do
     if (echo > /dev/tcp/127.0.0.1/$FD_API_PORT) >/dev/null 2>&1; then
-        echo "API server is up on port $FD_API_PORT on iteration $i"
+        echo "API server is up on port $FD_API_PORT at iteration $i"
         success=1
         break
     fi
     sleep 1
 done
+
 if [ $success -eq 0 ]; then
-    echo "超时: API 服务在 300 秒内未启动 (端口 $FD_API_PORT)"
+    echo "Timeout: API server did not start within 300 seconds (port $FD_API_PORT)"
 fi

From 9de6ae375c35e09b511aeb44acdb6a04c0bcfbd1 Mon Sep 17 00:00:00 2001
From: Copilot <198982749+Copilot@users.noreply.github.com>
Date: Mon, 5 Jan 2026 09:45:19 +0800
Subject: [PATCH 073/161] [Cherry-Pick][APIServer][Feature] Add configurable
 worker health check timeout via FD_WORKER_ALIVE_TIMEOUT(#5865) (#5867)

* Initial plan

* Cherry-pick PR #5865: Add configurable worker health check timeout via FD_WORKER_ALIVE_TIMEOUT

Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>

---------

Co-authored-by: copilot-swe-agent[bot] <198982749+Copilot@users.noreply.github.com>
Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>
---
 docs/usage/environment_variables.md                 | 3 +++
 docs/zh/usage/environment_variables.md              | 6 +++++-
 fastdeploy/entrypoints/openai/serving_chat.py       | 5 +++--
 fastdeploy/entrypoints/openai/serving_completion.py | 5 +++--
 fastdeploy/envs.py                                  | 2 ++
 5 files changed, 16 insertions(+), 5 deletions(-)

diff --git a/docs/usage/environment_variables.md b/docs/usage/environment_variables.md
index c4c319f83aa..b0c63e8c64e 100644
--- a/docs/usage/environment_variables.md
+++ b/docs/usage/environment_variables.md
@@ -88,5 +88,8 @@ environment_variables: dict[str, Callable[[], Any]] = {
 
     # Count for cache_transfer_manager process error
     "FD_CACHE_PROC_ERROR_COUNT": lambda: int(os.getenv("FD_CACHE_PROC_ERROR_COUNT", "10")),
+
+    # Worker process health check timeout when waiting for responses in seconds (default: 30)
+    "FD_WORKER_ALIVE_TIMEOUT": lambda: int(os.getenv("FD_WORKER_ALIVE_TIMEOUT", "30")),
 }
 ```
diff --git a/docs/zh/usage/environment_variables.md b/docs/zh/usage/environment_variables.md
index b0a162a8aa8..119f9fb38bc 100644
--- a/docs/zh/usage/environment_variables.md
+++ b/docs/zh/usage/environment_variables.md
@@ -87,5 +87,9 @@ environment_variables: dict[str, Callable[[], Any]] = {
     "FD_CACHE_PROC_EXIT_TIMEOUT": lambda: int(os.getenv("FD_CACHE_PROC_EXIT_TIMEOUT", "600")),
 
     # cache_transfer_manager 进程残留时连续错误阈值
-    "FD_CACHE_PROC_ERROR_COUNT": lambda: int(os.getenv("FD_CACHE_PROC_ERROR_COUNT", "10")),}
+    "FD_CACHE_PROC_ERROR_COUNT": lambda: int(os.getenv("FD_CACHE_PROC_ERROR_COUNT", "10")),
+
+    # Worker 进程响应等待时的健康检查超时时间（秒），默认 30 秒
+    "FD_WORKER_ALIVE_TIMEOUT": lambda: int(os.getenv("FD_WORKER_ALIVE_TIMEOUT", "30")),
+}
 ```
diff --git a/fastdeploy/entrypoints/openai/serving_chat.py b/fastdeploy/entrypoints/openai/serving_chat.py
index b9daa74fb9f..6c1d63a0070 100644
--- a/fastdeploy/entrypoints/openai/serving_chat.py
+++ b/fastdeploy/entrypoints/openai/serving_chat.py
@@ -24,6 +24,7 @@
 
 import numpy as np
 
+import fastdeploy.envs as envs
 from fastdeploy.entrypoints.openai.protocol import (
     ChatCompletionRequest,
     ChatCompletionResponse,
@@ -264,7 +265,7 @@ async def chat_completion_stream_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health()
+                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
                         if not status:
                             if choices:
                                 chunk.choices = choices
@@ -557,7 +558,7 @@ async def chat_completion_full_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health()
+                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
                         if not status:
                             raise ValueError(f"Engine is not healthy: {msg}")
                         else:
diff --git a/fastdeploy/entrypoints/openai/serving_completion.py b/fastdeploy/entrypoints/openai/serving_completion.py
index fb3acb41ad8..b7b1220a777 100644
--- a/fastdeploy/entrypoints/openai/serving_completion.py
+++ b/fastdeploy/entrypoints/openai/serving_completion.py
@@ -25,6 +25,7 @@
 
 import numpy as np
 
+import fastdeploy.envs as envs
 from fastdeploy.engine.request import RequestOutput
 from fastdeploy.entrypoints.openai.protocol import (
     CompletionLogprobs,
@@ -280,7 +281,7 @@ async def completion_full_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health()
+                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
                         if not status:
                             raise ValueError(f"Engine is not healthy: {msg}")
                         else:
@@ -436,7 +437,7 @@ async def completion_stream_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health()
+                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
                         if not status:
                             raise ValueError(f"Engine is not healthy: {msg}")
                         else:
diff --git a/fastdeploy/envs.py b/fastdeploy/envs.py
index 93f135d09da..15282fe9c0e 100644
--- a/fastdeploy/envs.py
+++ b/fastdeploy/envs.py
@@ -151,6 +151,8 @@
     # "Number of tokens in the group for Mixture of Experts (MoE) computation processing on HPU"
     "FD_HPU_CHUNK_SIZE": lambda: int(os.getenv("FD_HPU_CHUNK_SIZE", "64")),
     "FD_PREFILL_WAIT_DECODE_RESOURCE_SECONDS": lambda: int(os.getenv("FD_PREFILL_WAIT_DECODE_RESOURCE_SECONDS", "30")),
+    # Timeout for worker process health check in seconds
+    "FD_WORKER_ALIVE_TIMEOUT": lambda: int(os.getenv("FD_WORKER_ALIVE_TIMEOUT", "30")),
 }
 
 
From d624c5288b1da097aaf877573f734dfbea7d69f4 Mon Sep 17 00:00:00 2001
From: tianhaodongbd <137985359+tianhaodongbd@users.noreply.github.com>
Date: Mon, 5 Jan 2026 18:09:14 +0800
Subject: [PATCH 074/161] [RL] Change 'model' to the instance variable
 'tmp_model' (#5873)

---
 fastdeploy/rl/rollout_model.py | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/fastdeploy/rl/rollout_model.py b/fastdeploy/rl/rollout_model.py
index 279d58db3ab..ac2bb1127a6 100644
--- a/fastdeploy/rl/rollout_model.py
+++ b/fastdeploy/rl/rollout_model.py
@@ -90,12 +90,13 @@ def load_weights(self, weights_iterator):
         with quantization_context:
             with context:
                 model_cls = ModelRegistry.get_class(architectures)
-                model = model_cls(self.fd_config)
-            model.eval()
-            model.load_weights(weights_iterator)
+                self.tmp_model = model_cls(self.fd_config)
+            self.tmp_model.eval()
+            self.tmp_model.load_weights(weights_iterator)
             if self.fd_config.speculative_config.model_type != "mtp":
-                process_final_after_loading(model, self.fd_config)
-        self.rollout_model = model
+                process_final_after_loading(self.tmp_model, self.fd_config)
+        self.rollout_model = self.tmp_model
+        self.tmp_model = None
 
     def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
         """Get parameter name mappings between rollout and training models."""

From 0ee63913d994f00d96affb97ef3c5e2714891733 Mon Sep 17 00:00:00 2001
From: chen <103103266+ckl117@users.noreply.github.com>
Date: Mon, 5 Jan 2026 18:56:25 +0800
Subject: [PATCH 075/161] support fa3 qwen-vl rope (#5869) (#5877)

---
 .../append_attn/gqa_rope_write_cache.cu       | 36 ++++++++++---------
 custom_ops/gpu_ops/append_attn/qwen3_rope.h   | 10 ++++--
 2 files changed, 26 insertions(+), 20 deletions(-)

diff --git a/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu b/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu
index 76f00189037..7221ccf4720 100644
--- a/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu
+++ b/custom_ops/gpu_ops/append_attn/gqa_rope_write_cache.cu
@@ -1377,23 +1377,25 @@ std::vector<paddle::Tensor> GQARopeWriteCacheKernel(
 
   if (use_neox_rotary_style) {
     if (rotary_dim == head_dim) {
-      gqa_rotary_qk_split_variable_qwen3<data_t>(qkv_out.data<data_t>(),
-                                                 q.data<data_t>(),
-                                                 k.data<data_t>(),
-                                                 v.data<data_t>(),
-                                                 qkv.data<data_t>(),
-                                                 rotary_embs.data<float>(),
-                                                 batch_id_per_token.data<int>(),
-                                                 seq_lens_encoder.data<int>(),
-                                                 seq_lens_decoder.data<int>(),
-                                                 cu_seqlens_q.data<int>(),
-                                                 cu_seqlens_k.data<int>(),
-                                                 token_num,
-                                                 num_heads,
-                                                 kv_num_heads,
-                                                 max_seq_len,
-                                                 head_dim,
-                                                 stream);
+      gqa_rotary_qk_split_variable_qwen3<data_t>(
+          qkv_out.data<data_t>(),
+          q.data<data_t>(),
+          k.data<data_t>(),
+          v.data<data_t>(),
+          qkv.data<data_t>(),
+          rotary_embs.data<float>(),
+          batch_id_per_token.data<int>(),
+          seq_lens_encoder.data<int>(),
+          seq_lens_decoder.data<int>(),
+          cu_seqlens_q.data<int>(),
+          cu_seqlens_k.data<int>(),
+          token_num,
+          num_heads,
+          kv_num_heads,
+          rope_3d ? rotary_embs.dims()[3] : rotary_embs.dims()[2],
+          head_dim,
+          rope_3d,
+          stream);
     } else {
       gqa_neox_partial_rotary_qk_split_variable<data_t>(
           qkv_out.data<data_t>(),
diff --git a/custom_ops/gpu_ops/append_attn/qwen3_rope.h b/custom_ops/gpu_ops/append_attn/qwen3_rope.h
index b86e23b95cb..6c6325c335f 100644
--- a/custom_ops/gpu_ops/append_attn/qwen3_rope.h
+++ b/custom_ops/gpu_ops/append_attn/qwen3_rope.h
@@ -23,7 +23,8 @@ __global__ void GQAVariableLengthRotarySplitKernel_Qwen3(
     const int q_num_head,
     const int kv_num_head,
     const int max_model_len,
-    const int head_dim) {
+    const int head_dim,
+    const bool rope_3d) {
   using LoadT = AlignedVector<T, VecSize>;
   using LoadEmbT = AlignedVector<float, VecSize>;
   LoadEmbT cos_emb_vec;
@@ -84,7 +85,8 @@ __global__ void GQAVariableLengthRotarySplitKernel_Qwen3(
     }
 
     // TODO check this correct or not
-    int64_t new_emb_idx = emb_idx;
+    int64_t new_emb_idx =
+        rope_3d ? emb_idx + ori_bi * 2 * max_model_len * head_dim : emb_idx;
 
     if (hi < q_num_head + kv_num_head) {
       Load<float, VecSize>(&cos_emb[new_emb_idx], &cos_emb_vec);
@@ -126,6 +128,7 @@ void gqa_rotary_qk_split_variable_qwen3(T *qkv_out,
                                         const int kv_num_heads,
                                         const int max_model_len,
                                         const int head_dim,
+                                        const bool rope_3d,
                                         const cudaStream_t &stream) {
   assert(head_dim == 128 && "head_dim must be 128");
 
@@ -163,5 +166,6 @@ void gqa_rotary_qk_split_variable_qwen3(T *qkv_out,
       num_heads,
       kv_num_heads,
       max_model_len,
-      head_dim);
+      head_dim,
+      rope_3d);
 }

From c9a806de0270bf0c22e14862839cdd74a32e47c8 Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Mon, 5 Jan 2026 19:43:55 +0800
Subject: [PATCH 076/161] fix speculate metrics bug (#5875)

---
 fastdeploy/engine/request.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/fastdeploy/engine/request.py b/fastdeploy/engine/request.py
index 5eff092df36..439f92596bb 100644
--- a/fastdeploy/engine/request.py
+++ b/fastdeploy/engine/request.py
@@ -499,6 +499,7 @@ def to_dict(self):
             "llm_engine_recv_req_timestamp": self.llm_engine_recv_req_timestamp,
             "llm_engine_send_req_to_engine_timestamp": self.llm_engine_send_req_to_engine_timestamp,
             "llm_engine_recv_token_timestamp": self.llm_engine_recv_token_timestamp,
+            "speculate_metrics": self.speculate_metrics,
         }
 
     @classmethod

From dcb0ccededef976f63d3a4547ad9a54cd0fa1873 Mon Sep 17 00:00:00 2001
From: freeliuzc <lzc842650834@gmail.com>
Date: Mon, 5 Jan 2026 23:59:17 +0800
Subject: [PATCH 077/161] [Speculative Decoding] Fix attn_mask_offset for
 multi-step MTP in mixed and PD-split modes (#5738) (#5793)

* fix attn_mask_offset in mtp with multi-step and pd-split-mode

* fix xpu operater register

* update pmtp multi-step mtp strategy in d-split -mode

* add note

* fix xpu register

Co-authored-by: Yuanle Liu <yuanlehome@163.com>
---
 custom_ops/gpu_ops/cpp_extensions.cc          |   2 +
 .../draft_model/draft_model_preprocess.cu     | 345 ++++++++++--------
 .../src/ops/mtp/draft_model_preprocess.cc     |   4 +
 custom_ops/xpu_ops/src/ops/pybind/pybind.cc   |   4 +
 fastdeploy/spec_decode/mtp.py                 |  12 +-
 .../operators/test_draft_model_preprocess.py  |  32 +-
 6 files changed, 227 insertions(+), 172 deletions(-)

diff --git a/custom_ops/gpu_ops/cpp_extensions.cc b/custom_ops/gpu_ops/cpp_extensions.cc
index 85c7d229a70..b3a3ded1a2f 100644
--- a/custom_ops/gpu_ops/cpp_extensions.cc
+++ b/custom_ops/gpu_ops/cpp_extensions.cc
@@ -885,6 +885,8 @@ void DraftModelPreprocess(const paddle::Tensor& draft_tokens,
                           const paddle::Tensor& is_block_step,
                           const paddle::Tensor& batch_drop,
                           const paddle::Tensor& pre_ids,
+                          const paddle::Tensor& mask_rollback,
+                          const paddle::Tensor& recompute_token_num,
                           const paddle::Tensor& accept_tokens,
                           const paddle::Tensor& accept_num,
                           const paddle::Tensor& base_model_seq_lens_this_time,
diff --git a/custom_ops/gpu_ops/speculate_decoding/draft_model/draft_model_preprocess.cu b/custom_ops/gpu_ops/speculate_decoding/draft_model/draft_model_preprocess.cu
index 051d20a0324..ea9063640e0 100644
--- a/custom_ops/gpu_ops/speculate_decoding/draft_model/draft_model_preprocess.cu
+++ b/custom_ops/gpu_ops/speculate_decoding/draft_model/draft_model_preprocess.cu
@@ -15,33 +15,34 @@
 #include "helper.h"
 #include "paddle/extension.h"
 
-
 #define DISPATCH_BLOCKSIZE(BLOCK_SIZE, ...) \
-  do {                                     \
-    constexpr int BlockSize = BLOCK_SIZE;  \
-    __VA_ARGS__;                           \
+  do {                                      \
+    constexpr int BlockSize = BLOCK_SIZE;   \
+    __VA_ARGS__;                            \
   } while (0)
 
-#define DISPATCH_TRUNCATE_FIRST_TOKEN(truncate_first_token, TRUNCATE_FIRST_TOKEN, ...) \
-  do {                                                                                 \
-    if (truncate_first_token) {                                                        \
-      constexpr bool TRUNCATE_FIRST_TOKEN = true;                                     \
-      __VA_ARGS__;                                                                     \
-    } else {                                                                           \
-      constexpr bool TRUNCATE_FIRST_TOKEN = false;                                    \
-      __VA_ARGS__;                                                                     \
-    }                                                                                  \
+#define DISPATCH_TRUNCATE_FIRST_TOKEN(               \
+    truncate_first_token, TRUNCATE_FIRST_TOKEN, ...) \
+  do {                                               \
+    if (truncate_first_token) {                      \
+      constexpr bool TRUNCATE_FIRST_TOKEN = true;    \
+      __VA_ARGS__;                                   \
+    } else {                                         \
+      constexpr bool TRUNCATE_FIRST_TOKEN = false;   \
+      __VA_ARGS__;                                   \
+    }                                                \
   } while (0)
 
-#define DISPATCH_KVCACHE_SCHEDULER(kvcache_scheduler_v1, KVCACHE_SCHEDULER_V1, ...) \
-  do {                                                                              \
-    if (kvcache_scheduler_v1) {                                                     \
-      constexpr bool KVCACHE_SCHEDULER_V1 = true;                                   \
-      __VA_ARGS__;                                                                  \
-    } else {                                                                        \
-      constexpr bool KVCACHE_SCHEDULER_V1 = false;                                  \
-      __VA_ARGS__;                                                                  \
-    }                                                                               \
+#define DISPATCH_KVCACHE_SCHEDULER(                  \
+    kvcache_scheduler_v1, KVCACHE_SCHEDULER_V1, ...) \
+  do {                                               \
+    if (kvcache_scheduler_v1) {                      \
+      constexpr bool KVCACHE_SCHEDULER_V1 = true;    \
+      __VA_ARGS__;                                   \
+    } else {                                         \
+      constexpr bool KVCACHE_SCHEDULER_V1 = false;   \
+      __VA_ARGS__;                                   \
+    }                                                \
   } while (0)
 
 #define DISPATCH_SPLITWISE_PREFILL(splitwise_prefill, SPLITWISE_PREFILL, ...) \
@@ -55,8 +56,9 @@
     }                                                                         \
   } while (0)
 
-
-template <int THREADBLOCK_SIZE, bool TRUNCATE_FIRST_TOKEN, bool KVCACHE_SCHEDULER_V1>
+template <int THREADBLOCK_SIZE,
+          bool TRUNCATE_FIRST_TOKEN,
+          bool KVCACHE_SCHEDULER_V1>
 __global__ void process_splitwise_prefill(
     int64_t* draft_tokens,
     int64_t* input_ids,
@@ -123,10 +125,9 @@ __global__ void process_splitwise_prefill(
   }
 }
 
-
-
-
-template <int THREADBLOCK_SIZE, bool TRUNCATE_FIRST_TOKEN, bool KVCACHE_SCHEDULER_V1>
+template <int THREADBLOCK_SIZE,
+          bool TRUNCATE_FIRST_TOKEN,
+          bool KVCACHE_SCHEDULER_V1>
 __global__ void draft_model_preprocess_kernel(
     int64_t* draft_tokens,
     int64_t* input_ids,
@@ -139,6 +140,8 @@ __global__ void draft_model_preprocess_kernel(
     bool* is_block_step,
     bool* batch_drop,
     int64_t* pre_ids,
+    int* mask_rollback,
+    int* recompute_token_num,
     const int64_t* accept_tokens,
     const int* accept_num,
     const int* base_model_seq_lens_this_time,
@@ -170,7 +173,8 @@ __global__ void draft_model_preprocess_kernel(
     auto* base_model_draft_tokens_now =
         base_model_draft_tokens + tid * base_model_draft_tokens_len;
     auto base_model_seq_len_decoder = base_model_seq_lens_decoder[tid];
-    const int32_t base_model_seq_len_this_time = base_model_seq_lens_this_time[tid];
+    const int32_t base_model_seq_len_this_time =
+        base_model_seq_lens_this_time[tid];
     auto* pre_ids_now = pre_ids + tid * pre_ids_len;
 #pragma unroll
     for (int i = 1; i < base_model_draft_tokens_len; i++) {
@@ -180,7 +184,7 @@ __global__ void draft_model_preprocess_kernel(
     // 1. process block_step situation
     //    -- In v0 mode, block_step will drop mtp query.
     //    -- In v1 mode, block_step will continue to infer.
-    if constexpr(KVCACHE_SCHEDULER_V1) {
+    if constexpr (KVCACHE_SCHEDULER_V1) {
       if (base_model_stop_flags[tid] && base_model_is_block_step[tid]) {
         stop_flags[tid] = true;
         is_block_step[tid] = true;
@@ -213,7 +217,7 @@ __global__ void draft_model_preprocess_kernel(
         }
       } else {  // decode generation
         if constexpr (KVCACHE_SCHEDULER_V1) {
-        // 3. try to recover mtp infer in V1 mode
+          // 3. try to recover mtp infer in V1 mode
           if (!base_model_is_block_step[tid] && is_block_step[tid]) {
             is_block_step[tid] = false;
           }
@@ -221,16 +225,24 @@ __global__ void draft_model_preprocess_kernel(
         if (stop_flags[tid]) {
           stop_flags[tid] = false;
           // TODO: check
-          seq_lens_decoder[tid] = base_model_seq_len_decoder - base_model_seq_len_this_time;
-          step_idx[tid] = base_model_step_idx[tid] - base_model_seq_len_this_time;
+          seq_lens_decoder[tid] =
+              base_model_seq_len_decoder - base_model_seq_len_this_time;
+          step_idx[tid] =
+              base_model_step_idx[tid] - base_model_seq_len_this_time;
         } else {
           // 2: Last base model generated token and first MTP token
-          seq_lens_decoder[tid] -= num_model_step - 1;
-          step_idx[tid] -= num_model_step - 1;
+          const int recompute_token_num_now = recompute_token_num[tid];
+          seq_lens_decoder[tid] -= recompute_token_num_now;
+          step_idx[tid] -= recompute_token_num_now;
+          mask_rollback[tid] += recompute_token_num_now;
+          // NOTE(liuzichang): Used for PD-split mode and future dynamic
+          // strategies.
+          recompute_token_num[tid] = num_model_step - 1;
         }
         for (int i = 0; i < accept_num_now; i++) {
           draft_tokens_now[i] = accept_tokens_now[i];
-          const int pre_id_pos = base_model_step_idx[tid] - (accept_num_now - i);
+          const int pre_id_pos =
+              base_model_step_idx[tid] - (accept_num_now - i);
           const int64_t accept_token = accept_tokens_now[i];
           pre_ids_now[pre_id_pos] = accept_token;
         }
@@ -250,103 +262,107 @@ __global__ void draft_model_preprocess_kernel(
   }
 }
 
-
-void DispatchRunner(
-    const cudaStream_t &stream,
-    int64_t* draft_tokens,
-    int64_t* input_ids,
-    bool* stop_flags,
-    int* seq_lens_this_time,
-    int* seq_lens_encoder,
-    int* seq_lens_decoder,
-    int64_t* step_idx,
-    bool* not_need_stop,
-    bool* is_block_step,
-    bool* batch_drop,
-    int64_t* pre_ids,
-    const int64_t* accept_tokens,
-    const int* accept_num,
-    const int* base_model_seq_lens_this_time,
-    const int* base_model_seq_lens_encoder,
-    const int* base_model_seq_lens_decoder,
-    const int64_t* base_model_step_idx,
-    const bool* base_model_stop_flags,
-    const bool* base_model_is_block_step,
-    int64_t* base_model_draft_tokens,
-    const int bsz,
-    const int num_model_step,
-    const int accept_tokens_len,
-    const int draft_tokens_len,
-    const int input_ids_len,
-    const int base_model_draft_tokens_len,
-    const int pre_ids_len,
-    const bool truncate_first_token,
-    const bool splitwise_prefill,
-    const bool kvcache_scheduler_v1) {
+void DispatchRunner(const cudaStream_t& stream,
+                    int64_t* draft_tokens,
+                    int64_t* input_ids,
+                    bool* stop_flags,
+                    int* seq_lens_this_time,
+                    int* seq_lens_encoder,
+                    int* seq_lens_decoder,
+                    int64_t* step_idx,
+                    bool* not_need_stop,
+                    bool* is_block_step,
+                    bool* batch_drop,
+                    int64_t* pre_ids,
+                    int* mask_rollback,
+                    int* recompute_token_num,
+                    const int64_t* accept_tokens,
+                    const int* accept_num,
+                    const int* base_model_seq_lens_this_time,
+                    const int* base_model_seq_lens_encoder,
+                    const int* base_model_seq_lens_decoder,
+                    const int64_t* base_model_step_idx,
+                    const bool* base_model_stop_flags,
+                    const bool* base_model_is_block_step,
+                    int64_t* base_model_draft_tokens,
+                    const int bsz,
+                    const int num_model_step,
+                    const int accept_tokens_len,
+                    const int draft_tokens_len,
+                    const int input_ids_len,
+                    const int base_model_draft_tokens_len,
+                    const int pre_ids_len,
+                    const bool truncate_first_token,
+                    const bool splitwise_prefill,
+                    const bool kvcache_scheduler_v1) {
   DISPATCH_BLOCKSIZE(512, {
     DISPATCH_TRUNCATE_FIRST_TOKEN(truncate_first_token, TRUNCATE_FIRST_TOKEN, {
       DISPATCH_KVCACHE_SCHEDULER(kvcache_scheduler_v1, KVCACHE_SCHEDULER_V1, {
         DISPATCH_SPLITWISE_PREFILL(splitwise_prefill, SPLITWISE_PREFILL, {
           if constexpr (SPLITWISE_PREFILL) {
-            process_splitwise_prefill<BlockSize, TRUNCATE_FIRST_TOKEN, KVCACHE_SCHEDULER_V1>
-                <<<1, BlockSize, 0, stream>>>(
-                    draft_tokens,
-                    input_ids,
-                    stop_flags,
-                    seq_lens_this_time,
-                    seq_lens_encoder,
-                    seq_lens_decoder,
-                    step_idx,
-                    not_need_stop,
-                    is_block_step,
-                    batch_drop,
-                    pre_ids,
-                    accept_tokens,
-                    accept_num,
-                    base_model_seq_lens_this_time,
-                    base_model_seq_lens_encoder,
-                    base_model_seq_lens_decoder,
-                    base_model_step_idx,
-                    base_model_stop_flags,
-                    base_model_is_block_step,
-                    base_model_draft_tokens,
-                    bsz,
-                    num_model_step,
-                    accept_tokens_len,
-                    draft_tokens_len,
-                    input_ids_len,
-                    base_model_draft_tokens_len,
-                    pre_ids_len);
+            process_splitwise_prefill<BlockSize,
+                                      TRUNCATE_FIRST_TOKEN,
+                                      KVCACHE_SCHEDULER_V1>
+                <<<1, BlockSize, 0, stream>>>(draft_tokens,
+                                              input_ids,
+                                              stop_flags,
+                                              seq_lens_this_time,
+                                              seq_lens_encoder,
+                                              seq_lens_decoder,
+                                              step_idx,
+                                              not_need_stop,
+                                              is_block_step,
+                                              batch_drop,
+                                              pre_ids,
+                                              accept_tokens,
+                                              accept_num,
+                                              base_model_seq_lens_this_time,
+                                              base_model_seq_lens_encoder,
+                                              base_model_seq_lens_decoder,
+                                              base_model_step_idx,
+                                              base_model_stop_flags,
+                                              base_model_is_block_step,
+                                              base_model_draft_tokens,
+                                              bsz,
+                                              num_model_step,
+                                              accept_tokens_len,
+                                              draft_tokens_len,
+                                              input_ids_len,
+                                              base_model_draft_tokens_len,
+                                              pre_ids_len);
           } else {
-            draft_model_preprocess_kernel<BlockSize, TRUNCATE_FIRST_TOKEN, KVCACHE_SCHEDULER_V1>
-                <<<1, BlockSize, 0, stream>>>(
-                    draft_tokens,
-                    input_ids,
-                    stop_flags,
-                    seq_lens_this_time,
-                    seq_lens_encoder,
-                    seq_lens_decoder,
-                    step_idx,
-                    not_need_stop,
-                    is_block_step,
-                    batch_drop,
-                    pre_ids,
-                    accept_tokens,
-                    accept_num,
-                    base_model_seq_lens_this_time,
-                    base_model_seq_lens_encoder,
-                    base_model_seq_lens_decoder,
-                    base_model_step_idx,
-                    base_model_stop_flags,
-                    base_model_is_block_step,
-                    base_model_draft_tokens,
-                    bsz,
-                    num_model_step,
-                    accept_tokens_len,
-                    draft_tokens_len,
-                    input_ids_len,
-                    base_model_draft_tokens_len,
-                    pre_ids_len);
+            draft_model_preprocess_kernel<BlockSize,
+                                          TRUNCATE_FIRST_TOKEN,
+                                          KVCACHE_SCHEDULER_V1>
+                <<<1, BlockSize, 0, stream>>>(draft_tokens,
+                                              input_ids,
+                                              stop_flags,
+                                              seq_lens_this_time,
+                                              seq_lens_encoder,
+                                              seq_lens_decoder,
+                                              step_idx,
+                                              not_need_stop,
+                                              is_block_step,
+                                              batch_drop,
+                                              pre_ids,
+                                              mask_rollback,
+                                              recompute_token_num,
+                                              accept_tokens,
+                                              accept_num,
+                                              base_model_seq_lens_this_time,
+                                              base_model_seq_lens_encoder,
+                                              base_model_seq_lens_decoder,
+                                              base_model_step_idx,
+                                              base_model_stop_flags,
+                                              base_model_is_block_step,
+                                              base_model_draft_tokens,
+                                              bsz,
+                                              num_model_step,
+                                              accept_tokens_len,
+                                              draft_tokens_len,
+                                              input_ids_len,
+                                              base_model_draft_tokens_len,
+                                              pre_ids_len);
           }
         });
       });
@@ -365,6 +381,8 @@ void DraftModelPreprocess(const paddle::Tensor& draft_tokens,
                           const paddle::Tensor& is_block_step,
                           const paddle::Tensor& batch_drop,
                           const paddle::Tensor& pre_ids,
+                          const paddle::Tensor& mask_rollback,
+                          const paddle::Tensor& recompute_token_num,
                           const paddle::Tensor& accept_tokens,
                           const paddle::Tensor& accept_num,
                           const paddle::Tensor& base_model_seq_lens_this_time,
@@ -389,38 +407,39 @@ void DraftModelPreprocess(const paddle::Tensor& draft_tokens,
   auto not_need_stop_gpu =
       not_need_stop.copy_to(seq_lens_this_time.place(), false);
 
-  DispatchRunner(
-      cu_stream,
-      const_cast<int64_t*>(draft_tokens.data<int64_t>()),
-      const_cast<int64_t*>(input_ids.data<int64_t>()),
-      const_cast<bool*>(stop_flags.data<bool>()),
-      const_cast<int*>(seq_lens_this_time.data<int>()),
-      const_cast<int*>(seq_lens_encoder.data<int>()),
-      const_cast<int*>(seq_lens_decoder.data<int>()),
-      const_cast<int64_t*>(step_idx.data<int64_t>()),
-      const_cast<bool*>(not_need_stop_gpu.data<bool>()),
-      const_cast<bool*>(is_block_step.data<bool>()),
-      const_cast<bool*>(batch_drop.data<bool>()),
-      const_cast<int64_t*>(pre_ids.data<int64_t>()),
-      accept_tokens.data<int64_t>(),
-      accept_num.data<int>(),
-      base_model_seq_lens_this_time.data<int>(),
-      base_model_seq_lens_encoder.data<int>(),
-      base_model_seq_lens_decoder.data<int>(),
-      base_model_step_idx.data<int64_t>(),
-      base_model_stop_flags.data<bool>(),
-      base_model_is_block_step.data<bool>(),
-      const_cast<int64_t*>(base_model_draft_tokens.data<int64_t>()),
-      real_bsz,
-      num_model_step,
-      accept_tokens_len,
-      draft_tokens_len,
-      input_ids_len,
-      base_model_draft_tokens_len,
-      pre_ids_len,
-      truncate_first_token,
-      splitwise_prefill,
-      kvcache_scheduler_v1);
+  DispatchRunner(cu_stream,
+                 const_cast<int64_t*>(draft_tokens.data<int64_t>()),
+                 const_cast<int64_t*>(input_ids.data<int64_t>()),
+                 const_cast<bool*>(stop_flags.data<bool>()),
+                 const_cast<int*>(seq_lens_this_time.data<int>()),
+                 const_cast<int*>(seq_lens_encoder.data<int>()),
+                 const_cast<int*>(seq_lens_decoder.data<int>()),
+                 const_cast<int64_t*>(step_idx.data<int64_t>()),
+                 const_cast<bool*>(not_need_stop_gpu.data<bool>()),
+                 const_cast<bool*>(is_block_step.data<bool>()),
+                 const_cast<bool*>(batch_drop.data<bool>()),
+                 const_cast<int64_t*>(pre_ids.data<int64_t>()),
+                 const_cast<int*>(mask_rollback.data<int>()),
+                 const_cast<int*>(recompute_token_num.data<int>()),
+                 accept_tokens.data<int64_t>(),
+                 accept_num.data<int>(),
+                 base_model_seq_lens_this_time.data<int>(),
+                 base_model_seq_lens_encoder.data<int>(),
+                 base_model_seq_lens_decoder.data<int>(),
+                 base_model_step_idx.data<int64_t>(),
+                 base_model_stop_flags.data<bool>(),
+                 base_model_is_block_step.data<bool>(),
+                 const_cast<int64_t*>(base_model_draft_tokens.data<int64_t>()),
+                 real_bsz,
+                 num_model_step,
+                 accept_tokens_len,
+                 draft_tokens_len,
+                 input_ids_len,
+                 base_model_draft_tokens_len,
+                 pre_ids_len,
+                 truncate_first_token,
+                 splitwise_prefill,
+                 kvcache_scheduler_v1);
 
   auto not_need_stop_cpu =
       not_need_stop_gpu.copy_to(not_need_stop.place(), false);
@@ -428,7 +447,6 @@ void DraftModelPreprocess(const paddle::Tensor& draft_tokens,
   not_need_stop_data[0] = not_need_stop_cpu.data<bool>()[0];
 }
 
-
 PD_BUILD_STATIC_OP(draft_model_preprocess)
     .Inputs({"draft_tokens",
              "input_ids",
@@ -441,6 +459,8 @@ PD_BUILD_STATIC_OP(draft_model_preprocess)
              "is_block_step",
              "batch_drop",
              "pre_ids",
+             "mask_rollback",
+             "recompute_token_num",
              "accept_tokens",
              "accept_num",
              "base_model_seq_lens_this_time",
@@ -460,7 +480,10 @@ PD_BUILD_STATIC_OP(draft_model_preprocess)
               "not_need_stop_out",
               "batch_drop_out",
               "pre_ids_out"})
-    .Attrs({"num_model_step: int", "truncate_first_token: bool", "splitwise_prefill: bool", "kvcache_scheduler_v1: bool"})
+    .Attrs({"num_model_step: int",
+            "truncate_first_token: bool",
+            "splitwise_prefill: bool",
+            "kvcache_scheduler_v1: bool"})
     .SetInplaceMap({{"draft_tokens", "draft_tokens_out"},
                     {"input_ids", "input_ids_out"},
                     {"stop_flags", "stop_flags_out"},
diff --git a/custom_ops/xpu_ops/src/ops/mtp/draft_model_preprocess.cc b/custom_ops/xpu_ops/src/ops/mtp/draft_model_preprocess.cc
index a4cf8e68748..bf2f09b9342 100644
--- a/custom_ops/xpu_ops/src/ops/mtp/draft_model_preprocess.cc
+++ b/custom_ops/xpu_ops/src/ops/mtp/draft_model_preprocess.cc
@@ -33,6 +33,8 @@ void DraftModelPreprocess(const paddle::Tensor& draft_tokens,
                           const paddle::Tensor& is_block_step,
                           const paddle::Tensor& batch_drop,
                           const paddle::Tensor& pre_ids,
+                          const paddle::Tensor& mask_rollback,
+                          const paddle::Tensor& recompute_token_num,
                           const paddle::Tensor& accept_tokens,
                           const paddle::Tensor& accept_num,
                           const paddle::Tensor& base_model_seq_lens_this_time,
@@ -114,6 +116,8 @@ PD_BUILD_STATIC_OP(draft_model_preprocess)
              "is_block_step",
              "batch_drop",
              "pre_ids",
+             "mask_rollback",
+             "recompute_token_num",
              "accept_tokens",
              "accept_num",
              "base_model_seq_lens_this_time",
diff --git a/custom_ops/xpu_ops/src/ops/pybind/pybind.cc b/custom_ops/xpu_ops/src/ops/pybind/pybind.cc
index 0400aa02d7d..74d8d829580 100644
--- a/custom_ops/xpu_ops/src/ops/pybind/pybind.cc
+++ b/custom_ops/xpu_ops/src/ops/pybind/pybind.cc
@@ -292,6 +292,8 @@ void DraftModelPreprocess(const paddle::Tensor& draft_tokens,
                           const paddle::Tensor& is_block_step,
                           const paddle::Tensor& batch_drop,
                           const paddle::Tensor& pre_ids,
+                          const paddle::Tensor& mask_rollback,
+                          const paddle::Tensor& recompute_token_num,
                           const paddle::Tensor& accept_tokens,
                           const paddle::Tensor& accept_num,
                           const paddle::Tensor& base_model_seq_lens_this_time,
@@ -659,6 +661,8 @@ PYBIND11_MODULE(fastdeploy_ops, m) {
         py::arg("is_block_step"),
         py::arg("batch_drop"),
         py::arg("pre_ids"),
+        py::arg("mask_rollback"),
+        py::arg("recompute_token_num"),
         py::arg("accept_tokens"),
         py::arg("accept_num"),
         py::arg("base_model_seq_lens_this_time"),
diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index 279e4cd42d8..50700658ed4 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -520,6 +520,12 @@ def _init_model_inputs(self):
             shape=[self.max_num_seqs + 1], fill_value=0, dtype="int32"
         )
         self.model_inputs["mask_rollback"] = paddle.full([self.max_num_seqs, 1], 0, dtype="int32")
+        # NOTE(liuzichang): In speculative decoding, accepted tokens' KV cache is recomputed
+        # using the target model's hidden states.
+        self.model_inputs["recompute_token_num"] = paddle.full(
+            [self.max_num_seqs, 1], self.num_model_steps - 1, dtype="int32"
+        )
+
         # attn_mask
         if self.enable_mm:
             self.model_inputs["attn_mask_offsets"] = paddle.full(
@@ -589,7 +595,9 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int):
                     self.fd_config.scheduler_config.splitwise_role == "decode"
                 ):  # In PD, we continue to decode after P generates first token
                     self.model_inputs["seq_lens_encoder"][idx : idx + 1] = 0
-                    # P-D split need rollback one step
+                    self.model_inputs["recompute_token_num"][idx : idx + 1] = 0
+                    # NOTE(liuzichang):
+                    # extra 1 : P-D split need rollback one step
                     self.model_inputs["mask_rollback"][idx : idx + 1] = 1
 
                 # has_prefill_task = True
@@ -794,6 +802,8 @@ def _prepare_inputs(self, full_hidden_states):
             self.model_inputs["batch_drop"],
             self.model_inputs["is_block_step"],
             self.model_inputs["pre_ids"],
+            self.model_inputs["mask_rollback"],
+            self.model_inputs["recompute_token_num"],
             self.target_model_inputs["accept_tokens"],
             self.target_model_inputs["accept_num"],
             self.target_model_inputs["seq_lens_this_time"],
diff --git a/tests/operators/test_draft_model_preprocess.py b/tests/operators/test_draft_model_preprocess.py
index 8bd735111a6..5a4e418d317 100644
--- a/tests/operators/test_draft_model_preprocess.py
+++ b/tests/operators/test_draft_model_preprocess.py
@@ -87,6 +87,8 @@ def draft_model_preprocess_kernel(
     is_block_step,
     batch_drop,
     pre_ids,
+    mask_rollback,
+    recompute_token_num,
     accept_tokens,
     accept_num,
     base_model_seq_lens_this_time,
@@ -114,6 +116,7 @@ def draft_model_preprocess_kernel(
         base_model_seq_len_decoder = base_model_seq_lens_decoder[tid]
         base_model_seq_len_this_time = base_model_seq_lens_this_time[tid]
         pre_ids_now = pre_ids[tid]
+        recompute_token_num_now = recompute_token_num[tid]
 
         base_model_draft_tokens_now[1:base_model_draft_tokens_len] = -1
 
@@ -156,8 +159,10 @@ def draft_model_preprocess_kernel(
                     step_idx[tid] = base_model_step_idx[tid] - base_model_seq_len_this_time
                 else:
                     # 2: Last base model generated token and first MTP token
-                    seq_lens_decoder[tid] -= num_model_step - 1
-                    step_idx[tid] -= num_model_step - 1
+                    seq_lens_decoder[tid] -= recompute_token_num_now
+                    step_idx[tid] -= recompute_token_num_now
+                    mask_rollback[tid] += recompute_token_num_now
+                    recompute_token_num[tid] = num_model_step - 1
 
                 for i in range(accept_num_now):
                     draft_tokens_now[i] = accept_tokens_now[i]
@@ -187,6 +192,8 @@ def DispatchRunner(
     is_block_step,
     batch_drop,
     pre_ids,
+    mask_rollback,
+    recompute_token_num,
     accept_tokens,
     accept_num,
     base_model_seq_lens_this_time,
@@ -244,6 +251,8 @@ def DispatchRunner(
             is_block_step,
             batch_drop,
             pre_ids,
+            mask_rollback,
+            recompute_token_num,
             accept_tokens,
             accept_num,
             base_model_seq_lens_this_time,
@@ -273,6 +282,8 @@ def draft_model_preprocess_ref(
     is_block_step,
     batch_drop,
     pre_ids,
+    mask_rollback,
+    recompute_token_num,
     accept_tokens,
     accept_num,
     base_model_seq_lens_this_time,
@@ -301,6 +312,8 @@ def draft_model_preprocess_ref(
         is_block_step,
         batch_drop,
         pre_ids,
+        mask_rollback,
+        recompute_token_num,
         accept_tokens,
         accept_num,
         base_model_seq_lens_this_time,
@@ -318,7 +331,7 @@ def draft_model_preprocess_ref(
     )
 
 
-class TestDraftModelPreprocess:
+class TestDraftModelPreprocess(unittest.TestCase):
     def _run_tests(self):
         paddle.seed(2022)
 
@@ -343,6 +356,8 @@ def _run_tests(self):
         not_need_stop = paddle.zeros([1], dtype="bool").cpu()
         is_block_step = paddle.zeros([bsz], dtype="bool")
         batch_drop = paddle.zeros([bsz], dtype="bool")
+        mask_rollback = paddle.zeros([bsz], dtype="int32")
+        recompute_token_num = paddle.zeros([bsz], dtype="int32")
 
         # Output tensors
         accept_tokens = paddle.randint(0, 100, [bsz, 100], dtype="int64")
@@ -371,6 +386,8 @@ def _run_tests(self):
             is_block_step,
             batch_drop,
             pre_ids,
+            mask_rollback,
+            recompute_token_num,
             accept_tokens,
             accept_num,
             base_model_seq_lens_this_time,
@@ -393,13 +410,8 @@ def _run_tests(self):
 
     def test_draft_model_preprocess(self):
         results1, results2 = self._run_tests()
-        np.testing.assert_allclose(results1[0], results2[0])  # draft_tokens
-        np.testing.assert_allclose(results1[1], results2[1])  # input_ids
-        np.testing.assert_allclose(results1[2], results2[2])  # stop_flags
-        np.testing.assert_allclose(results1[3], results2[3])  # seq_lens_this_time
-        np.testing.assert_allclose(results1[11], results2[11])  # accept_tokens
-        np.testing.assert_allclose(results1[12], results2[12])  # accept_num
-        np.testing.assert_allclose(results1[7], results2[7])  # not_need_stop
+        for i in range(12):
+            np.testing.assert_equal(results1[i].numpy(), results2[i].numpy())
 
 
 if __name__ == "__main__":

From 0f008b8bd115492ced6c6b818e21e55fa8b8c883 Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Tue, 6 Jan 2026 10:40:41 +0800
Subject: [PATCH 078/161] [Cherry-Pick][OPs] ep_moe_expert_dispatch.cu dispatch
 num_experts_per_rank 5 (#5889)

---
 custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu | 5 +++++
 1 file changed, 5 insertions(+)

diff --git a/custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu b/custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu
index 213ca03e15f..7124b684d67 100644
--- a/custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu
+++ b/custom_ops/gpu_ops/moe/ep_moe_expert_dispatch.cu
@@ -38,6 +38,11 @@
       __VA_ARGS__                                                              \
       break;                                                                   \
     }                                                                          \
+    case 5: {                                                                  \
+      constexpr size_t NUM_EXPERTS_PER_RANK = 5;                               \
+      __VA_ARGS__                                                              \
+      break;                                                                   \
+    }                                                                          \
     case 6: {                                                                  \
       constexpr size_t NUM_EXPERTS_PER_RANK = 6;                               \
       __VA_ARGS__                                                              \

From f3ebd644464ea5503e6a38529af8f4042138dc9d Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Tue, 6 Jan 2026 11:05:45 +0800
Subject: [PATCH 079/161] [Cherry-Pick] [KVCache] launch cache transfer
 processes only if hierarchical cache or kv cache storage is enabled (#5871)
 (#5859)

* [fix] temporarily forbid cpu cache in update/clear api

* [fix] stop launching cache transfer manager unless hierarchical cache is enabled
---
 .../cache_manager/prefix_cache_manager.py     |  78 +++++++-------
 fastdeploy/entrypoints/engine_client.py       | 100 +++++++++---------
 2 files changed, 89 insertions(+), 89 deletions(-)

diff --git a/fastdeploy/cache_manager/prefix_cache_manager.py b/fastdeploy/cache_manager/prefix_cache_manager.py
index 4142aeccaa2..5c0cc7cc5ad 100644
--- a/fastdeploy/cache_manager/prefix_cache_manager.py
+++ b/fastdeploy/cache_manager/prefix_cache_manager.py
@@ -254,37 +254,38 @@ def launch_cache_manager(
                 val_shape_str = str(val_cache_shape)
             val_cache_arg_str = f" --value_cache_shape {val_shape_str}"
 
-        for i in range(tensor_parallel_size):
-            launch_cmd = (
-                "FLAGS_allocator_strategy=auto_growth "
-                + visible_devices
-                + " NCCL_MAX_NCHANNELS=1 NCCL_BUFFSIZE=0"
-                + f" FD_ENABLE_SWAP_SPACE_CLEARING={envs.FD_ENABLE_SWAP_SPACE_CLEARING}"
-                + f" {sys.executable} {py_path}"
-                + f" --device_id {int(device_ids[i])}"
-                + f" --rank {i}"
-                + f" --splitwise_role {self.splitwise_role}"
-                + f" --num_layers {cache_config.model_cfg.num_hidden_layers}"
-                + f" --mp_num {tensor_parallel_size}"
-                + f" --cache_dtype {cache_config.cache_dtype}"
-                + f" --key_cache_shape {key_cache_shape}"
-                + val_cache_arg_str
-                + f" --cache_queue_port {cache_config.cache_queue_port}"
-                + f" --enable_splitwise {int(self.enable_splitwise)}"
-                + f" --pod_ip {pod_ip}"
-                + f" --engine_worker_queue_port {engine_worker_queue_port}"
-                + f" --num_cpu_blocks {cache_config.num_cpu_blocks}"
-                + f" --engine_pid {pid_suffix}"
-                + f" --default_dtype '{self.config.model_config.dtype}'"
-                + f" --protocol {cache_config.cache_transfer_protocol}"
-                + f" --local_data_parallel_id {self.local_data_parallel_id}"
-                + f" --rdma_port {cache_config.rdma_comm_ports[i] if cache_config.rdma_comm_ports is not None else '0'}"
-                + f" --speculative_config '{self.speculative_config.to_json_string()}'"
-                + (" --create_cache_tensor" if create_cache_tensor else "")
-                + f" >{log_dir}/launch_cache_transfer_manager_tprank{i}.log 2>&1"
-            )
-            logger.info(f"Launch cache transfer manager, command:{launch_cmd}")
-            cache_manager_processes.append(subprocess.Popen(launch_cmd, shell=True, preexec_fn=os.setsid))
+        if self.cache_config.enable_hierarchical_cache:
+            for i in range(tensor_parallel_size):
+                launch_cmd = (
+                    "FLAGS_allocator_strategy=auto_growth "
+                    + visible_devices
+                    + " NCCL_MAX_NCHANNELS=1 NCCL_BUFFSIZE=0"
+                    + f" FD_ENABLE_SWAP_SPACE_CLEARING={envs.FD_ENABLE_SWAP_SPACE_CLEARING}"
+                    + f" {sys.executable} {py_path}"
+                    + f" --device_id {int(device_ids[i])}"
+                    + f" --rank {i}"
+                    + f" --splitwise_role {self.splitwise_role}"
+                    + f" --num_layers {cache_config.model_cfg.num_hidden_layers}"
+                    + f" --mp_num {tensor_parallel_size}"
+                    + f" --cache_dtype {cache_config.cache_dtype}"
+                    + f" --key_cache_shape {key_cache_shape}"
+                    + val_cache_arg_str
+                    + f" --cache_queue_port {cache_config.cache_queue_port}"
+                    + f" --enable_splitwise {int(self.enable_splitwise)}"
+                    + f" --pod_ip {pod_ip}"
+                    + f" --engine_worker_queue_port {engine_worker_queue_port}"
+                    + f" --num_cpu_blocks {cache_config.num_cpu_blocks}"
+                    + f" --engine_pid {pid_suffix}"
+                    + f" --default_dtype '{self.config.model_config.dtype}'"
+                    + f" --protocol {cache_config.cache_transfer_protocol}"
+                    + f" --local_data_parallel_id {self.local_data_parallel_id}"
+                    + f" --rdma_port {cache_config.rdma_comm_ports[i] if cache_config.rdma_comm_ports is not None else '0'}"
+                    + f" --speculative_config '{self.speculative_config.to_json_string()}'"
+                    + (" --create_cache_tensor" if create_cache_tensor else "")
+                    + f" >{log_dir}/launch_cache_transfer_manager_tprank{i}.log 2>&1"
+                )
+                logger.info(f"Launch cache transfer manager, command:{launch_cmd}")
+                cache_manager_processes.append(subprocess.Popen(launch_cmd, shell=True, preexec_fn=os.setsid))
 
         logger.info("PrefixCacheManager is waiting for kv cache to be initialized.")
         while np.sum(self.cache_ready_signal.value) != tensor_parallel_size:
@@ -294,13 +295,14 @@ def launch_cache_manager(
             while np.sum(self.swap_space_ready_signal.value) != tensor_parallel_size:
                 time.sleep(1)
 
-        exit_code = cache_manager_processes[-1].poll()
-        if exit_code is None:
-            logger.info("Launch cache transfer manager successful")
-        else:
-            logger.info(
-                "Launch cache transfer manager failed, see launch_cache_transfer_manager.log for more information"
-            )
+        if cache_manager_processes:
+            exit_code = cache_manager_processes[-1].poll()
+            if exit_code is None:
+                logger.info("Launch cache transfer manager successful")
+            else:
+                logger.info(
+                    "Launch cache transfer manager failed, see launch_cache_transfer_manager.log for more information"
+                )
 
         # Start additional threads
         if cache_config.enable_hierarchical_cache and self.num_cpu_blocks > 0:
diff --git a/fastdeploy/entrypoints/engine_client.py b/fastdeploy/entrypoints/engine_client.py
index 7d387acc609..0998ce4a8b4 100644
--- a/fastdeploy/entrypoints/engine_client.py
+++ b/fastdeploy/entrypoints/engine_client.py
@@ -33,7 +33,6 @@
 from fastdeploy.input.preprocess import InputPreprocessor
 from fastdeploy.inter_communicator import (
     IPCSignal,
-    KVCacheStatus,
     ModelWeightsStatus,
     PrefixTreeStatus,
     RearrangeExpertStatus,
@@ -548,6 +547,28 @@ def update_model_weight(self, timeout=300):
         2 : worker update finish and notify client
         """
         with self.clear_update_lock:
+            if self.fd_config.cache_config.enable_hierarchical_cache:
+                return False, "hierarchical cache updating is not supported"
+
+            # if self.enable_prefix_caching or self.enable_splitwise:
+            #     # kv_cache_status_signal: CLEARED -> UPDATING -> NORMAL
+            #     if self.kv_cache_status_signal.value[0] == KVCacheStatus.CLEARED:
+            #         self.kv_cache_status_signal.value[0] = KVCacheStatus.UPDATING
+            #         api_server_logger.info(f"Start to update kv cache {self.kv_cache_status_signal.value[0]}")
+            #         while self.kv_cache_status_signal.value[0] != KVCacheStatus.NORMAL:
+            #             api_server_logger.info(f"..updating kv cache {self.kv_cache_status_signal.value[0]}")
+            #             time.sleep(1)
+
+            if self.enable_prefix_caching:
+                # prefix_tree_status_signal: CLEARED -> UPDATING -> NORMAL
+                if self.prefix_tree_status_signal.value[0] == PrefixTreeStatus.CLEARED:
+                    self.prefix_tree_status_signal.value[0] = PrefixTreeStatus.UPDATING
+                    api_server_logger.info(f"Start to update prefix tree {self.prefix_tree_status_signal.value[0]}")
+                    while self.prefix_tree_status_signal.value[0] != PrefixTreeStatus.NORMAL:
+                        api_server_logger.info(f"..updating prefix tree {self.prefix_tree_status_signal.value[0]}")
+                        time.sleep(1)
+
+            # model_weights_status_signal: CLEARED -> UPDATING -> NORMAL
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.NORMAL:
                 return True, ""
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.UPDATING:
@@ -556,34 +577,13 @@ def update_model_weight(self, timeout=300):
                 return False, "worker is clearing model weight, cannot update now"
 
             self.model_weights_status_signal.value[0] = ModelWeightsStatus.UPDATING
-            if self.enable_prefix_caching or self.enable_splitwise:
-                self.kv_cache_status_signal.value[0] = KVCacheStatus.UPDATING
-            if self.enable_prefix_caching:
-                self.prefix_tree_status_signal.value[0] = PrefixTreeStatus.UPDATING
-            api_server_logger.info(f"start update model weight {self.model_weights_status_signal.value}")
-            all_updated = False
-            while timeout >= 0 and not all_updated:
-                api_server_logger.info(
-                    f"Updating model weights.. "
-                    f"model_weights_status: {self.model_weights_status_signal.value[0]}, "
-                    f"prefix_tree_status: {self.prefix_tree_status_signal.value[0]}, "
-                    f"kv_cache_status: {self.kv_cache_status_signal.value[0]} "
-                )
-                weight_updated = self.model_weights_status_signal.value[0] == ModelWeightsStatus.NORMAL
-                cache_updated = self.kv_cache_status_signal.value[0] == KVCacheStatus.NORMAL
-                prefix_updated = self.prefix_tree_status_signal.value[0] == PrefixTreeStatus.NORMAL
-                if self.enable_prefix_caching or self.enable_splitwise:
-                    if self.enable_prefix_caching:
-                        all_updated = weight_updated and cache_updated and prefix_updated
-                    else:
-                        all_updated = weight_updated and cache_updated
-                else:
-                    all_updated = weight_updated
+            api_server_logger.info(f"Start to update model weight {self.model_weights_status_signal.value[0]}")
+            while timeout >= 0 and self.model_weights_status_signal.value[0] != ModelWeightsStatus.NORMAL:
+                api_server_logger.info(f"..updating model weights {self.model_weights_status_signal.value[0]}")
                 time.sleep(1)
                 timeout -= 1
             if timeout < 0:
                 return False, "Update model weight timeout"
-            time.sleep(1)
             return True, ""
 
     def clear_load_weight(self, timeout=300):
@@ -594,6 +594,27 @@ def clear_load_weight(self, timeout=300):
         """
 
         with self.clear_update_lock:
+            if self.fd_config.cache_config.enable_hierarchical_cache:
+                return False, "hierarchical cache clearing is not supported"
+            # if self.enable_prefix_caching or self.enable_splitwise:
+            #     # kv_cache_status_signal: NORMAL -> CLEARING -> CLEARED
+            #     if self.kv_cache_status_signal.value[0] ==  KVCacheStatus.NORMAL:
+            #         self.kv_cache_status_signal.value[0] = KVCacheStatus.CLEARING
+            #         api_server_logger.info(f"Start to clear kv cache {self.kv_cache_status_signal.value[0]}")
+            #         while self.kv_cache_status_signal.value[0] != KVCacheStatus.CLEARED:
+            #             api_server_logger.info(f"..clearing kv cache {self.kv_cache_status_signal.value[0]}")
+            #             time.sleep(1)
+
+            if self.enable_prefix_caching:
+                # prefix_tree_status_signal: NORMAL -> CLEARING -> CLEARED
+                if self.prefix_tree_status_signal.value[0] == PrefixTreeStatus.NORMAL:
+                    self.prefix_tree_status_signal.value[0] = PrefixTreeStatus.CLEARING
+                    api_server_logger.info(f"Start to clear prefix tree {self.prefix_tree_status_signal.value[0]}")
+                    while self.prefix_tree_status_signal.value[0] != PrefixTreeStatus.CLEARED:
+                        api_server_logger.info(f"..clearing prefix tree {self.prefix_tree_status_signal.value[0]}")
+                        time.sleep(1)
+
+            # model_weights_status_signal: NORMAL -> CLEARING -> CLEARED
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.CLEARED:
                 return True, ""
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.CLEARING:
@@ -602,36 +623,13 @@ def clear_load_weight(self, timeout=300):
                 return False, "worker is updating model weight, cannot clear now"
 
             self.model_weights_status_signal.value[0] = ModelWeightsStatus.CLEARING
-            if self.enable_prefix_caching or self.enable_splitwise:
-                self.kv_cache_status_signal.value[0] = KVCacheStatus.CLEARING
-            if self.enable_prefix_caching:
-                self.prefix_tree_status_signal.value[0] = PrefixTreeStatus.CLEARING
-
-            api_server_logger.info(f"start clear model weight {self.model_weights_status_signal.value}")
-            all_cleared = False
-            while timeout >= 0 and not all_cleared:
-                api_server_logger.info(
-                    f"Clearing model weights.. "
-                    f"model_weights_status: {self.model_weights_status_signal.value[0]}, "
-                    f"prefix_tree_status: {self.prefix_tree_status_signal.value[0]}, "
-                    f"kv_cache_status: {self.kv_cache_status_signal.value[0]} "
-                )
-                weight_cleared = self.model_weights_status_signal.value[0] == ModelWeightsStatus.CLEARED
-                cache_cleared = self.kv_cache_status_signal.value[0] == KVCacheStatus.CLEARED
-                prefix_cleared = self.prefix_tree_status_signal.value[0] == PrefixTreeStatus.CLEARED
-                if self.enable_prefix_caching or self.enable_splitwise:
-                    if self.enable_prefix_caching:
-                        all_cleared = weight_cleared and cache_cleared and prefix_cleared
-                    else:
-                        all_cleared = weight_cleared and cache_cleared
-                else:
-                    all_cleared = weight_cleared
+            api_server_logger.info(f"Start to clear model weight {self.model_weights_status_signal.value[0]}")
+            while timeout >= 0 and self.model_weights_status_signal.value[0] != ModelWeightsStatus.CLEARED:
+                api_server_logger.info(f"..clearing model weights {self.model_weights_status_signal.value[0]}")
                 time.sleep(1)
                 timeout -= 1
-
             if timeout < 0:
                 return False, "Clear model weight timeout"
-            time.sleep(1)
             return True, ""
 
     def check_model_weight_status(self):

From 682e1ab2d0b18f26b0eb1fe7c9d4f62fd23de7bf Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Tue, 6 Jan 2026 14:19:38 +0800
Subject: [PATCH 080/161] [Cherry-Pick] [BugFix] fix mtp cache attaching for pd
 disaggregation (#5884) (#5885)

* [fix] fix mtp cache attaching for pd disaggregation

* [fix] fix port
---
 fastdeploy/spec_decode/mtp.py | 27 ++++++++++++++++++++++++++-
 1 file changed, 26 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index 50700658ed4..c90e5eafd5e 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -15,6 +15,7 @@
 """
 
 import os
+import time
 from typing import List
 
 import numpy as np
@@ -24,6 +25,7 @@
 from fastdeploy import envs
 from fastdeploy.config import FDConfig
 from fastdeploy.engine.request import Request, RequestType
+from fastdeploy.inter_communicator import IPCSignal
 from fastdeploy.model_executor.forward_meta import ForwardMeta
 from fastdeploy.model_executor.layers.attention import get_attention_backend
 from fastdeploy.model_executor.layers.attention.base_attention_backend import (
@@ -205,7 +207,30 @@ def initialize_kv_cache(self, main_model_num_blocks, profile: bool = False):
         if kv_cache_quant_type == "block_wise_fp8":
             kv_cache_scale_shape = [key_cache_shape[0], key_cache_shape[1], key_cache_shape[2]]
         local_rank = self.local_rank % self.parallel_config.tensor_parallel_size
-        if not profile and self.scheduler_config.splitwise_role != "mixed":
+
+        cache_ready_signal_data = np.zeros(shape=[self.parallel_config.tensor_parallel_size], dtype=np.int32)
+        cache_ready_signal = IPCSignal(
+            name="cache_ready_signal",
+            array=cache_ready_signal_data,
+            dtype=np.int32,
+            suffix=self.parallel_config.engine_worker_queue_port,
+            create=False,
+        )
+
+        # Check if gpu runner needs to create kv cache
+        # 1. During profiling, it creates its own kv cache.
+        # 2. GPU runner creates kv cache tensor unless p/d disaggregation is enabled.
+        create_cache_tensor = profile or self.scheduler_config.splitwise_role == "mixed"
+
+        if not create_cache_tensor:
+            logger.info(f"Waiting for cache managers to create kv cache.. {cache_ready_signal.value}")
+            while cache_ready_signal.value[local_rank] != 1:
+                time.sleep(1)
+            logger.info(f"OK! Stop waiting. {cache_ready_signal.value}")
+
+        logger.info(f"Initializing kv cache for all layers. {cache_ready_signal.value}")
+
+        if not create_cache_tensor:
             cache_kvs_list = []
             for i in range(
                 self.num_main_model_layers,

From 44e44abf1e3894ef535eb65954710b581d646d99 Mon Sep 17 00:00:00 2001
From: gaoziyuan <88373061+gzy19990617@users.noreply.github.com>
Date: Tue, 6 Jan 2026 15:14:26 +0800
Subject: [PATCH 081/161] [Bugfix]fix model weight signal tensor num (#5899)

* [Bugfix]fix model weight signal tensor num

* fix
---
 fastdeploy/worker/worker_process.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 1f243be54a0..2072556a9f7 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -287,7 +287,8 @@ def update_weights_from_tensor(self, mmap_infos):
     def _broadcast_model_weights_signal(self, src: int, group) -> int:
         model_weights_signal_tensor = paddle.full(shape=[1], fill_value=self.model_weights_signal[0], dtype="int32")
         paddle.distributed.broadcast(model_weights_signal_tensor, src=src, group=group)
-        return model_weights_signal_tensor.item()
+        value = model_weights_signal_tensor.numpy()[0]
+        return int(value)
 
     def _tp_barrier_wait(self):
         if current_platform.is_xpu():

From 3002334b6def699e19d0a455d4db3018b98bf518 Mon Sep 17 00:00:00 2001
From: yinwei <yinwei_hust@163.com>
Date: Wed, 7 Jan 2026 10:33:40 +0800
Subject: [PATCH 082/161] [Cherry-Pick] [XPU]Cherry-pick Support ZMQ
 logprobs(#5628) (#5852)

* update

* delete min_tokens

---------

Co-authored-by: qw86972190 <127910106+qw86972190@users.noreply.github.com>
Co-authored-by: root <root@gajl-bbc-onlinec-com-1498355.gajl.baidu.com>
---
 .../xpu_pre_and_post_process.py               |  94 +++++++++++---
 fastdeploy/worker/xpu_model_runner.py         | 120 +++++++++++++++++-
 2 files changed, 191 insertions(+), 23 deletions(-)

diff --git a/fastdeploy/model_executor/xpu_pre_and_post_process.py b/fastdeploy/model_executor/xpu_pre_and_post_process.py
index 2673af27684..60620ce7671 100644
--- a/fastdeploy/model_executor/xpu_pre_and_post_process.py
+++ b/fastdeploy/model_executor/xpu_pre_and_post_process.py
@@ -14,15 +14,18 @@
 # limitations under the License.
 """
 
-from typing import Dict, Optional
+import queue
+from typing import Dict, List, Optional
 
+import numpy as np
 import paddle
 
 from fastdeploy import envs
 from fastdeploy.model_executor.forward_meta import XPUForwardMeta
 from fastdeploy.model_executor.layers.sample.sampler import Sampler
+from fastdeploy.output.stream_transfer_data import DecoderState, StreamTransferData
 from fastdeploy.platforms import current_platform
-from fastdeploy.worker.output import ModelOutputData
+from fastdeploy.worker.output import LogprobsTensors, ModelOutputData
 
 if current_platform.is_xpu():
     from fastdeploy.model_executor.ops.xpu import (
@@ -49,6 +52,43 @@
     )
 
 
+def _build_stream_transfer_data(
+    output_tokens: paddle.Tensor,
+    pooler_outputs: List = None,
+    logprobs: Optional[LogprobsTensors] = None,
+    prompt_logprobs_list: Optional[LogprobsTensors] = None,
+):
+    """Split output_tokens and output"""
+    stream_transfer_datas = []
+    if output_tokens is not None:
+        output_tokens = output_tokens.reshape([-1]).numpy()
+        output_tokens_lists = np.split(output_tokens, output_tokens.shape[0])
+
+        for bid, output_token_per_sample in enumerate(output_tokens_lists):
+            stream_transfer_data = StreamTransferData(
+                decoder_state=DecoderState.TEXT, tokens=output_token_per_sample, batch_id=bid
+            )
+            if logprobs:
+                stream_transfer_data.logprobs = logprobs.slice_rows(bid, bid + 1)
+            if prompt_logprobs_list:
+                stream_transfer_data.prompt_logprobs = prompt_logprobs_list[bid]
+            stream_transfer_datas.append(stream_transfer_data)
+    elif pooler_outputs is not None:
+        for bid, pooler_output in enumerate(pooler_outputs):
+            if pooler_output is None:
+                continue
+            if pooler_output.dtype == paddle.bfloat16:
+                pooler_output = pooler_output.astype("float32")
+
+            pooler_output = pooler_output.numpy()
+
+            stream_transfer_data = StreamTransferData(
+                decoder_state=DecoderState.TEXT, pooler_output=pooler_output, batch_id=bid
+            )
+            stream_transfer_datas.append(stream_transfer_data)
+    return stream_transfer_datas
+
+
 def xpu_pre_process(
     input_ids: paddle.Tensor,
     seq_lens_this_time: int,
@@ -217,6 +257,8 @@ def xpu_post_process_normal(
     share_inputs: Dict[str, paddle.Tensor],
     block_size: int = 64,
     skip_save_output: bool = False,
+    save_each_rank: bool = False,
+    async_output_queue: queue.Queue = None,
     think_end_id: int = None,
     line_break_id: int = None,
 ) -> None:
@@ -314,27 +356,37 @@ def xpu_post_process_normal(
     # 3. Transmit the model's output and stop generation signal via message queue.
     #    In the future, we will abandon this approach.
     if not skip_save_output:
-        if sampler_output.logprobs_tensors is None:
-            save_output(
-                sampled_token_ids,
-                model_output.not_need_stop,
-                model_output.mp_rank,
-                False,  # use_ep
-            )
+        if envs.FD_USE_GET_SAVE_OUTPUT_V1:
+            if save_each_rank or model_output.mp_rank == 0:
+                output = _build_stream_transfer_data(
+                    sampled_token_ids,
+                    logprobs=sampler_output.logprobs_tensors,
+                    prompt_logprobs_list=model_output.prompt_logprobs_list,
+                )
+                if async_output_queue is not None:
+                    async_output_queue.put(output)
         else:
-            if save_output_topk is None:
-                raise ImportError(
-                    "save_output_topk operator is not available. "
-                    "Please rebuild the XPU operators with the new get_output_msg_with_topk.cc and save_output_msg_with_topk.cc files."
+            if sampler_output.logprobs_tensors is None:
+                save_output(
+                    sampled_token_ids,
+                    model_output.not_need_stop,
+                    model_output.mp_rank,
+                    False,  # use_ep
+                )
+            else:
+                if save_output_topk is None:
+                    raise ImportError(
+                        "save_output_topk operator is not available. "
+                        "Please rebuild the XPU operators with the new get_output_msg_with_topk.cc and save_output_msg_with_topk.cc files."
+                    )
+                save_output_topk(
+                    sampled_token_ids,
+                    sampler_output.logprobs_tensors.logprob_token_ids,
+                    sampler_output.logprobs_tensors.logprobs,
+                    sampler_output.logprobs_tensors.selected_token_ranks,
+                    model_output.not_need_stop,
+                    model_output.mp_rank,
                 )
-            save_output_topk(
-                sampled_token_ids,
-                sampler_output.logprobs_tensors.logprob_token_ids,
-                sampler_output.logprobs_tensors.logprobs,
-                sampler_output.logprobs_tensors.selected_token_ranks,
-                model_output.not_need_stop,
-                model_output.mp_rank,
-            )
 
 
 def xpu_post_process_specualate(
diff --git a/fastdeploy/worker/xpu_model_runner.py b/fastdeploy/worker/xpu_model_runner.py
index 07dd0a3c883..99688ba425e 100644
--- a/fastdeploy/worker/xpu_model_runner.py
+++ b/fastdeploy/worker/xpu_model_runner.py
@@ -15,19 +15,22 @@
 """
 
 import os
+import queue
 import random
 import time
+from threading import Thread
 from typing import List, Optional
 
 import numpy as np
 import paddle
+import zmq
 from paddle import nn
 
 from fastdeploy import envs
 from fastdeploy.config import FDConfig
 from fastdeploy.engine.request import Request, RequestType
 from fastdeploy.input.ernie4_5_vl_processor import DataProcessor
-from fastdeploy.inter_communicator import IPCSignal
+from fastdeploy.inter_communicator import IPCSignal, ZmqIpcClient
 from fastdeploy.model_executor.forward_meta import ForwardMeta
 from fastdeploy.model_executor.graph_optimization.utils import (
     profile_run_guard,
@@ -59,7 +62,7 @@
 from fastdeploy.spec_decode import MTPProposer
 from fastdeploy.utils import get_logger
 from fastdeploy.worker.model_runner_base import ModelRunnerBase
-from fastdeploy.worker.output import ModelOutputData, ModelRunnerOutput
+from fastdeploy.worker.output import LogprobsTensors, ModelOutputData, ModelRunnerOutput
 
 logger = get_logger("xpu_model_runner", "xpu_model_runner.log")
 
@@ -156,6 +159,106 @@ def __init__(
 
         self.pd_disaggregation_mode: str = self.fd_config.parallel_config.pd_disaggregation_mode
 
+        # Initialize ZMQ client for async output
+        self.zmq_client = None
+        self.async_output_queue = None
+        if envs.FD_USE_GET_SAVE_OUTPUT_V1:
+            logger.info(f"zmq client get_save_output_rank{local_rank}")
+            self.zmq_client = ZmqIpcClient(name=f"get_save_output_rank{local_rank}", mode=zmq.PUSH)
+            self.zmq_client.connect()
+            self.zmq_client.socket.SNDTIMEO = 3000
+            self.async_output_queue: queue.Queue = queue.Queue()
+            self.async_output_copy_thread = Thread(
+                target=self._async_output_busy_loop,
+                daemon=True,
+                name="WorkerAsyncOutputCopy",
+            )
+            self.async_output_copy_thread.start()
+        # prompt logprobs state
+        self.prompt_logprobs_reqs: dict[str, Request] = {}
+        self.in_progress_prompt_logprobs: dict[str, LogprobsTensors] = {}
+
+    def _async_output_busy_loop(self):
+        """Entrypoint for the thread which handles outputs asynchronously."""
+        while True:
+            try:
+                if self.async_output_queue is None or self.zmq_client is None:
+                    break
+                output = self.async_output_queue.get()
+                if self.zmq_client is not None:
+                    self.zmq_client.send_pyobj(output)
+            except Exception as e:
+                logger.exception("Exception in async output loop: %s", e)
+
+    def _get_prompt_logprobs_list(self, hidden_states: paddle.Tensor) -> list[Optional[LogprobsTensors]]:
+        """
+        Build prompt_logprobs for requests that asked for it.
+        """
+        if len(self.prompt_logprobs_reqs) > 0:
+            assert (
+                not self.fd_config.cache_config.enable_prefix_caching
+            ), "prompt_logprobs must disable prefix caching, --no-enable-prefix-caching."
+
+        if len(self.prompt_logprobs_reqs) == 0:
+            return self.scheduler_config.max_num_seqs * [None]
+
+        logprobs_mode = self.fd_config.model_config.logprobs_mode
+        prompt_logprobs_list: list[Optional[LogprobsTensors]] = self.scheduler_config.max_num_seqs * [None]
+        completed_prefill_reqs: list[Request] = []
+
+        for req_id, request in self.prompt_logprobs_reqs.items():
+            if not hasattr(request, "sampling_params") or request.sampling_params is None:
+                continue
+            num_prompt_logprobs = request.sampling_params.prompt_logprobs
+            if request.prompt_token_ids is None or num_prompt_logprobs is None:
+                continue
+            if num_prompt_logprobs == -1:
+                num_prompt_logprobs = self.ori_vocab_size
+
+            num_tokens = request.prefill_end_index - request.prefill_start_index
+            num_prompt_tokens = len(request.prompt_token_ids)
+
+            logprobs_tensors = self.in_progress_prompt_logprobs.get(req_id)
+            if not logprobs_tensors:
+                logprobs_tensors = LogprobsTensors.empty_cpu(num_prompt_tokens - 1, num_prompt_logprobs + 1)
+                self.in_progress_prompt_logprobs[req_id] = logprobs_tensors
+
+            start_idx = request.prefill_start_index
+            start_tok = start_idx + 1
+            num_remaining_tokens = num_prompt_tokens - start_tok
+            if num_tokens <= num_remaining_tokens:
+                num_logits = num_tokens
+            else:
+                num_logits = num_remaining_tokens
+                completed_prefill_reqs.append(request)
+                prompt_logprobs_list[request.idx] = logprobs_tensors
+            if num_logits <= 0:
+                continue
+
+            offset = self.share_inputs["cu_seqlens_q"][request.idx]
+            prompt_hidden_states = hidden_states[offset : offset + num_logits]
+            logits = self.model.compute_logits(prompt_hidden_states)
+            prompt_token_ids = request.prompt_token_ids[start_tok : start_tok + num_logits]
+            prompt_token_ids_tensor = paddle.to_tensor(prompt_token_ids, dtype="int64")
+            if logprobs_mode == "raw_logprobs":
+                raw_logprobs = self.sampler.compute_logprobs(logits)
+            elif logprobs_mode == "raw_logits":
+                raw_logprobs = logits
+            else:
+                raw_logprobs = self.sampler.compute_logprobs(logits)
+            token_ids, logprobs, ranks = self.sampler.gather_logprobs(
+                raw_logprobs, num_prompt_logprobs, prompt_token_ids_tensor
+            )
+            chunk_slice = slice(start_idx, start_idx + num_logits)
+            logprobs_tensors.logprob_token_ids[chunk_slice].copy_(token_ids, False)
+            logprobs_tensors.logprobs[chunk_slice].copy_(logprobs, False)
+            logprobs_tensors.selected_token_ranks[chunk_slice].copy_(ranks, False)
+
+        for req in completed_prefill_reqs:
+            del self.prompt_logprobs_reqs[req.request_id]
+            del self.in_progress_prompt_logprobs[req.request_id]
+        return prompt_logprobs_list
+
     def exist_prefill(self):
         """
         check whether prefill stage exist
@@ -405,6 +508,13 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int):
                     self.share_inputs["max_think_lens"][idx : idx + 1, :] = -1
                     self.share_inputs["limit_think_status"][idx : idx + 1, :] = 0
 
+                if (
+                    hasattr(request, "sampling_params")
+                    and request.sampling_params is not None
+                    and request.sampling_params.prompt_logprobs is not None
+                ):
+                    self.prompt_logprobs_reqs[request.request_id] = request
+
                 if len(request.output_token_ids) == 0:
                     input_ids = request.prompt_token_ids
                 else:
@@ -1296,6 +1406,10 @@ class at the server level, which is too granular for ModelRunner.
         # 5. Speculative decode
 
         # 6. Post Process
+        prompt_logprobs_list = None
+        if not self.speculative_decoding:
+            prompt_logprobs_list = self._get_prompt_logprobs_list(model_output)
+
         model_output_data = ModelOutputData(
             next_tokens=self.share_inputs["next_tokens"],
             stop_flags=self.share_inputs["stop_flags"],
@@ -1323,6 +1437,7 @@ class at the server level, which is too granular for ModelRunner.
             accept_num=(self.share_inputs["accept_num"] if self.speculative_decoding else None),
             stop_token_ids=self.share_inputs["stop_seqs"],
             stop_seqs_len=self.share_inputs["stop_seqs_len"],
+            prompt_logprobs_list=prompt_logprobs_list,
         )
         if self.speculative_decoding:
             # base model post process
@@ -1334,6 +1449,7 @@ class at the server level, which is too granular for ModelRunner.
                 share_inputs=self.share_inputs,
                 block_size=self.cache_config.block_size,
                 skip_save_output=is_dummy_run,
+                async_output_queue=self.async_output_queue,
                 think_end_id=self.model_config.think_end_id,
                 line_break_id=self.model_config.line_break_id,
             )

From ed3db9dceb0da635f92fa930ade10f8f222dd775 Mon Sep 17 00:00:00 2001
From: qwes5s5 <45442318+qwes5s5@users.noreply.github.com>
Date: Wed, 7 Jan 2026 15:32:20 +0800
Subject: [PATCH 083/161] logging switch (#5765)

Co-authored-by: root <root@yq01-sys-rpm26xc1knu.yq01.baidu.com>
---
 fastdeploy/envs.py               |  1 +
 fastdeploy/metrics/trace_util.py | 32 ++++++++++++++++++++++++++++++--
 fastdeploy/utils.py              |  2 +-
 3 files changed, 32 insertions(+), 3 deletions(-)

diff --git a/fastdeploy/envs.py b/fastdeploy/envs.py
index 15282fe9c0e..cf3fe0a6f53 100644
--- a/fastdeploy/envs.py
+++ b/fastdeploy/envs.py
@@ -151,6 +151,7 @@
     # "Number of tokens in the group for Mixture of Experts (MoE) computation processing on HPU"
     "FD_HPU_CHUNK_SIZE": lambda: int(os.getenv("FD_HPU_CHUNK_SIZE", "64")),
     "FD_PREFILL_WAIT_DECODE_RESOURCE_SECONDS": lambda: int(os.getenv("FD_PREFILL_WAIT_DECODE_RESOURCE_SECONDS", "30")),
+    "GLOBAL_LOGGING_INSTRUMENT": lambda: int(os.getenv("GLOBAL_LOGGING_INSTRUMENT", "0")),
     # Timeout for worker process health check in seconds
     "FD_WORKER_ALIVE_TIMEOUT": lambda: int(os.getenv("FD_WORKER_ALIVE_TIMEOUT", "30")),
 }
diff --git a/fastdeploy/metrics/trace_util.py b/fastdeploy/metrics/trace_util.py
index 111c2c85343..7385c4a40b3 100644
--- a/fastdeploy/metrics/trace_util.py
+++ b/fastdeploy/metrics/trace_util.py
@@ -1,4 +1,5 @@
 import json
+import logging
 import os
 
 from fastapi import FastAPI
@@ -7,6 +8,7 @@
 from opentelemetry.instrumentation.fastapi import FastAPIInstrumentor
 from opentelemetry.instrumentation.logging import LoggingInstrumentor
 from opentelemetry.propagate import extract, inject
+from opentelemetry.sdk._logs import LoggingHandler
 from opentelemetry.sdk.resources import Resource
 from opentelemetry.sdk.trace import SpanProcessor, TracerProvider
 from opentelemetry.sdk.trace.export import (
@@ -118,14 +120,40 @@ def instrument(app: FastAPI):
             llm_logger.info("Applying instrumentors...")
             FastAPIInstrumentor.instrument_app(app)
             try:
-                LoggingInstrumentor().instrument(set_logging_format=True)
-            except Exception:
+                global_instrument = envs.GLOBAL_LOGGING_INSTRUMENT
+                if global_instrument:
+                    LoggingInstrumentor().instrument()
+                else:
+                    target_logger = logging.getLogger("legacy.trace")
+                    custom_handler = CustomLoggingHandler(level=logging.NOTSET)
+                    target_logger.handlers.insert(0, custom_handler)
+            except Exception as e:
+                llm_logger.warning(f"Logging instrument failed: {e}")
                 pass
     except:
         llm_logger.info("instrument failed")
         pass
 
 
+class CustomLoggingHandler(LoggingHandler):
+    def emit(self, record):
+        try:
+            current_span = trace.get_current_span()
+            trace_id = 0
+            span_id = 0
+            if current_span and current_span.is_recording():
+                span_context = current_span.get_span_context()
+                if span_context.trace_id != 0:
+                    trace_id = span_context.trace_id
+                if span_context.span_id != 0:
+                    span_id = span_context.span_id
+            record.otelTraceID = "0" if trace_id == 0 else format(trace_id, "032x")
+            record.otelSpanID = "0" if span_id == 0 else format(span_id, "016x")
+        except:
+            record.otelTraceID = "0"
+            record.otelSpanID = "0"
+
+
 def inject_to_metadata(request, metadata_attr="metadata"):
     """
     Inject OpenTelemetry trace context into the metadata field of the request.
diff --git a/fastdeploy/utils.py b/fastdeploy/utils.py
index 0142e65f16f..c557b1b492e 100644
--- a/fastdeploy/utils.py
+++ b/fastdeploy/utils.py
@@ -1046,7 +1046,7 @@ def _bos_download(bos_client, link):
 console_logger = get_logger("console", "console.log", print_to_console=True)
 spec_logger = get_logger("speculate", "speculate.log")
 zmq_client_logger = get_logger("zmq_client", "zmq_client.log")
-trace_logger = FastDeployLogger().get_trace_logger("trace_logger", "trace_logger.log")
+trace_logger = FastDeployLogger().get_trace_logger("trace", "trace.log")
 router_logger = get_logger("router", "router.log")
 
 
From 939dfa4877d260896b6105ad81dcaf0e6974794a Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Wed, 7 Jan 2026 15:49:32 +0800
Subject: [PATCH 084/161] [BugFix][Cherry-Pick] Cp fix eb5 prefix cache(#5879)
 (#5881)

* fix eb5 prefix bug

* update code

* update code

* update code

* update code
---
 .../cache_manager/prefix_cache_manager.py     |  82 -----
 .../engine/sched/resource_manager_v1.py       |  32 +-
 tests/v1/cache_manager/test_revert_blocks.py  | 302 ------------------
 tests/v1/test_resource_manager_v1.py          |  97 +++++-
 4 files changed, 124 insertions(+), 389 deletions(-)
 delete mode 100644 tests/v1/cache_manager/test_revert_blocks.py

diff --git a/fastdeploy/cache_manager/prefix_cache_manager.py b/fastdeploy/cache_manager/prefix_cache_manager.py
index 5c0cc7cc5ad..ab6ec98d543 100644
--- a/fastdeploy/cache_manager/prefix_cache_manager.py
+++ b/fastdeploy/cache_manager/prefix_cache_manager.py
@@ -1272,66 +1272,6 @@ def hash_block_features(self, input_ids, extra_keys: list = []):
         """
         return hashlib.sha256(pickle.dumps((input_ids, extra_keys))).hexdigest()
 
-    def _revert_match_blocks(
-        self,
-        request,
-        matched_token_num: int,
-        block_size: int,
-        chunk_idx: int,
-        match_node_ids: list,
-        matche_nodes: list,
-        match_gpu_block_ids: list,
-        match_cpu_block_ids: list,
-        gpu_match_token_num: int,
-        cpu_match_token_num: int,
-        swap_node_ids: list,
-    ):
-        # position = request.multimodal_inputs["mm_positions"][chunk_idx]
-        # revert_tokens = matched_token_num - position.offset
-        # TODO(chengyanfu): fix when is_chunked_mm_input=True, revert all matched tokens
-        revert_tokens = matched_token_num
-        match_block_ids = [node.block_id for node in matche_nodes]
-        logger.warning(
-            f"match_block: req_id {request.request_id} revert tokens: {revert_tokens} from matched nodes: {match_block_ids}"
-        )
-        while revert_tokens >= block_size:
-            if len(matche_nodes) == 0:
-                logger.error(f"req_id {request.request_id} revert nodes error, tokens: {revert_tokens}")
-                break
-            revert_tokens -= block_size
-            revert_block = matche_nodes.pop()
-            revert_block_id = revert_block.block_id
-            if revert_block_id in match_gpu_block_ids:
-                match_gpu_block_ids.remove(revert_block_id)
-                match_node_ids.remove(revert_block.node_id)
-                gpu_match_token_num -= block_size
-            elif revert_block_id in match_cpu_block_ids:
-                match_cpu_block_ids.remove(revert_block_id)
-                match_node_ids.remove(revert_block.node_id)
-                cpu_match_token_num -= block_size
-            else:
-                logger.error(
-                    f"req_id {request.request_id} revert nodes error, nodes: {revert_block_id}, "
-                    f"match_gpu_block_ids: {match_gpu_block_ids}, match_cpu_block_ids: {match_cpu_block_ids}"
-                )
-                break
-            if revert_block_id in swap_node_ids:
-                swap_node_ids.remove(revert_block_id)
-
-        if revert_tokens > 0:
-            last_block_id = matche_nodes[-1].block_id
-            if last_block_id in match_gpu_block_ids:
-                gpu_match_token_num -= revert_tokens
-            elif last_block_id in match_cpu_block_ids:
-                cpu_match_token_num -= revert_tokens
-            else:
-                logger.error(
-                    f"req_id {request.request_id} revert nodes error, revert_tokens: {revert_tokens}, nodes: {last_block_id}, "
-                    f"match_gpu_block_ids: {match_gpu_block_ids}, match_cpu_block_ids: {match_cpu_block_ids}"
-                )
-        current_node = self.radix_tree_root if len(matche_nodes) == 0 else matche_nodes[-1]
-        return gpu_match_token_num, cpu_match_token_num, current_node
-
     def mm_match_block(self, request, block_size):
         """
         Match and retrieve cached blocks for multimodal requests using a radix tree structure.
@@ -1420,28 +1360,6 @@ def mm_match_block(self, request, block_size):
         if has_modified_cpu_lru_leaf_heap:
             heapq.heapify(self.cpu_lru_leaf_heap)
 
-        if self.cache_config.disable_chunked_mm_input:
-            matched_token_num = gpu_match_token_num + cpu_match_token_num
-            is_chunked, chunk_idx = self.is_chunked_mm_input(request.multimodal_inputs, matched_token_num)
-            if is_chunked:
-                (
-                    gpu_match_token_num,
-                    cpu_match_token_num,
-                    current_match_node,
-                ) = self._revert_match_blocks(
-                    request=request,
-                    matched_token_num=matched_token_num,
-                    block_size=block_size,
-                    chunk_idx=chunk_idx,
-                    match_node_ids=match_node_ids,
-                    matche_nodes=matche_nodes,
-                    match_gpu_block_ids=match_gpu_block_ids,
-                    match_cpu_block_ids=match_cpu_block_ids,
-                    gpu_match_token_num=gpu_match_token_num,
-                    cpu_match_token_num=cpu_match_token_num,
-                    swap_node_ids=swap_node_ids,
-                )
-
         logger.info(f"match_block: req_id {request.request_id} matched nodes: {match_node_ids}")
         return (
             match_gpu_block_ids,
diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index 1106b56f9fe..9b1303682c9 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -353,6 +353,21 @@ def _is_mm_request(self, request):
 
         return False
 
+    def revert_chunked_mm_input(self, mm_inputs, matched_token_num):
+        """
+        revert mm_inputs that is chunked
+        """
+        if mm_inputs is None or "mm_positions" not in mm_inputs or len(mm_inputs["mm_positions"]) == 0:
+            return matched_token_num
+
+        for idx in range(len(mm_inputs["mm_positions"])):
+            position = mm_inputs["mm_positions"][idx]
+            if position.offset < matched_token_num < position.offset + position.length:
+                return position.offset
+            elif matched_token_num < position.offset:
+                break
+        return matched_token_num
+
     def _get_num_new_tokens(self, request, token_budget):
         # TODO: set condition to new _get_num_new_tokens
         num_new_tokens = request.need_prefill_tokens - request.num_computed_tokens
@@ -904,11 +919,20 @@ def get_prefix_cached_blocks(self, request: Request):
             main_process_metrics.prefix_gpu_cache_token_num.inc(request.gpu_cache_token_num)
             main_process_metrics.prefix_cpu_cache_token_num.inc(request.cpu_cache_token_num)
 
-            if matched_token_num == request.need_prefill_tokens:
-                request.num_computed_tokens = matched_token_num - self.config.cache_config.block_size
-                request.skip_allocate = True
+            if self.config.cache_config.disable_chunked_mm_input:
+                if matched_token_num == request.need_prefill_tokens:
+                    matched_token_num = matched_token_num - self.config.cache_config.block_size
+                    request.skip_allocate = True
+                request.num_computed_tokens = self.revert_chunked_mm_input(
+                    request.multimodal_inputs, matched_token_num
+                )
             else:
-                request.num_computed_tokens = matched_token_num
+                if matched_token_num == request.need_prefill_tokens:
+                    request.num_computed_tokens = matched_token_num - self.config.cache_config.block_size
+                    request.skip_allocate = True
+                else:
+                    request.num_computed_tokens = matched_token_num
+            llm_logger.info(f"request {request.request_id} num_computed_tokens: {request.num_computed_tokens}")
             request.cache_prepare_time = time.time() - cache_prepare_time
             return True
         except Exception as e:
diff --git a/tests/v1/cache_manager/test_revert_blocks.py b/tests/v1/cache_manager/test_revert_blocks.py
deleted file mode 100644
index 0cc3def4ae7..00000000000
--- a/tests/v1/cache_manager/test_revert_blocks.py
+++ /dev/null
@@ -1,302 +0,0 @@
-# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-import unittest
-from dataclasses import asdict
-from types import SimpleNamespace
-
-from fastdeploy.cache_manager.cache_data import BlockNode
-from fastdeploy.cache_manager.prefix_cache_manager import PrefixCacheManager
-from fastdeploy.config import CacheConfig, FDConfig, ParallelConfig
-from fastdeploy.engine.args_utils import EngineArgs
-from fastdeploy.engine.request import ImagePosition, Request
-from fastdeploy.scheduler import SchedulerConfig
-
-
-def make_prefix_cache_manager(max_num_seqs, enable_mm=False, num_gpu_blocks_override=100, max_num_batched_tokens=3200):
-    engine_args = EngineArgs(
-        max_num_seqs=max_num_seqs,
-        num_gpu_blocks_override=num_gpu_blocks_override,
-        max_num_batched_tokens=max_num_batched_tokens,
-    )
-    args = asdict(engine_args)
-    cache_cfg = CacheConfig(args)
-    model_cfg = SimpleNamespace(enable_mm=enable_mm, max_model_len=4196)
-    speculative_cfg = SimpleNamespace(method=None)
-    model_cfg.print = print
-    model_cfg.architectures = ["test_model"]
-    cache_cfg.bytes_per_layer_per_block = 1
-    parallel_cfg = ParallelConfig(args)
-    scheduler_cfg = SchedulerConfig(args)
-    graph_opt_cfg = engine_args.create_graph_optimization_config()
-    fd_config = FDConfig(
-        model_config=model_cfg,
-        cache_config=cache_cfg,
-        parallel_config=parallel_cfg,
-        graph_opt_config=graph_opt_cfg,
-        speculative_config=speculative_cfg,
-        scheduler_config=scheduler_cfg,
-    )
-    return PrefixCacheManager(config=fd_config, tensor_parallel_size=8, splitwise_role="mixed")
-
-
-class TestIsChunkedMMInput(unittest.TestCase):
-    def setUp(self):
-        self.cache_manager = make_prefix_cache_manager(max_num_seqs=3, enable_mm=True, num_gpu_blocks_override=100)
-
-    def test_is_chunked_mm_input_none_input(self):
-        result, idx = self.cache_manager.is_chunked_mm_input(None, 10)
-        self.assertFalse(result)
-        self.assertEqual(idx, 0)
-
-    def test_is_chunked_mm_input_no_mm_positions(self):
-        mm_inputs = {"other_field": "value"}
-        result, idx = self.cache_manager.is_chunked_mm_input(mm_inputs, 10)
-        self.assertFalse(result)
-        self.assertEqual(idx, 0)
-
-    def test_is_chunked_mm_input_empty_positions(self):
-        mm_inputs = {"mm_positions": []}
-        result, idx = self.cache_manager.is_chunked_mm_input(mm_inputs, 10)
-        self.assertFalse(result)
-        self.assertEqual(idx, 0)
-
-    def test_is_chunked_mm_input_matched_in_chunk(self):
-        mm_inputs = {
-            "mm_positions": [
-                ImagePosition(offset=5, length=10),
-                ImagePosition(offset=20, length=10),
-            ]
-        }
-        result, idx = self.cache_manager.is_chunked_mm_input(mm_inputs, 8)
-        self.assertTrue(result)
-        self.assertEqual(idx, 0)
-
-    def test_is_chunked_mm_input_matched_in_second_chunk(self):
-        mm_inputs = {
-            "mm_positions": [
-                ImagePosition(offset=5, length=10),
-                ImagePosition(offset=20, length=10),
-            ]
-        }
-        result, idx = self.cache_manager.is_chunked_mm_input(mm_inputs, 25)
-        self.assertTrue(result)
-        self.assertEqual(idx, 1)
-
-    def test_is_chunked_mm_input_before_first_chunk(self):
-        mm_inputs = {
-            "mm_positions": [
-                ImagePosition(offset=5, length=10),
-                ImagePosition(offset=20, length=10),
-            ]
-        }
-        result, idx = self.cache_manager.is_chunked_mm_input(mm_inputs, 3)
-        self.assertFalse(result)
-        self.assertEqual(idx, 0)
-
-    def test_is_chunked_mm_input_after_last_chunk(self):
-        mm_inputs = {
-            "mm_positions": [
-                ImagePosition(offset=5, length=10),
-                ImagePosition(offset=20, length=10),
-            ]
-        }
-        result, idx = self.cache_manager.is_chunked_mm_input(mm_inputs, 35)
-        self.assertFalse(result)
-        self.assertEqual(idx, 0)
-
-
-@unittest.skip("Skip TestRevertMatchBlocks")
-class TestRevertMatchBlocks(unittest.TestCase):
-    def setUp(self):
-        self.block_size = 64
-        self.cache_manager = make_prefix_cache_manager(max_num_seqs=3, enable_mm=True, num_gpu_blocks_override=100)
-
-    def make_match_blocks(self, gpu_block_num, cpu_block_num):
-        block_num = gpu_block_num + cpu_block_num
-        matched_token_num = block_num * self.block_size
-        match_node_ids = []
-        matche_nodes = []
-        match_gpu_block_ids = []
-        match_cpu_block_ids = []
-        for idx in range(block_num):
-            node_id = idx + 10
-            block = BlockNode(node_id, [], 0, 0, idx, 0, None, None, None)
-            match_node_ids.append(node_id)
-            matche_nodes.append(block)
-            match_gpu_block_ids.append(idx)
-
-        for _ in range(cpu_block_num):
-            match_cpu_block_ids.append(match_gpu_block_ids.pop())
-
-        gpu_match_token_num = len(match_gpu_block_ids) * self.block_size
-        cpu_match_token_num = len(match_cpu_block_ids) * self.block_size
-        return (
-            matched_token_num,
-            match_node_ids,
-            matche_nodes,
-            match_gpu_block_ids,
-            match_cpu_block_ids,
-            gpu_match_token_num,
-            cpu_match_token_num,
-        )
-
-    def test_revert_full_blocks(self):
-        # Setup test data
-        multimodal_inputs = {
-            "mm_positions": [ImagePosition(offset=0, length=1200)],
-            "mm_hashes": ["image1"],
-        }
-        req_dict = {
-            "request_id": "req1",
-            "prompt_token_ids": [-1] * 1200 + [2] * 120,
-            "prompt_token_ids_len": 1320,
-            "multimodal_inputs": multimodal_inputs,
-        }
-
-        (
-            matched_token_num,
-            match_node_ids,
-            matche_nodes,
-            match_gpu_block_ids,
-            match_cpu_block_ids,
-            gpu_match_token_num,
-            cpu_match_token_num,
-        ) = self.make_match_blocks(gpu_block_num=2, cpu_block_num=0)
-
-        # Call method
-        (
-            gpu_match_token_num,
-            cpu_match_token_num,
-            current_match_node,
-        ) = self.cache_manager._revert_match_blocks(
-            request=Request.from_dict(req_dict),
-            matched_token_num=matched_token_num,
-            block_size=self.block_size,
-            chunk_idx=0,
-            match_node_ids=match_node_ids,
-            matche_nodes=matche_nodes,
-            match_gpu_block_ids=match_gpu_block_ids,
-            match_cpu_block_ids=match_cpu_block_ids,
-            gpu_match_token_num=gpu_match_token_num,
-            cpu_match_token_num=cpu_match_token_num,
-            swap_node_ids=[],
-        )
-
-        # Assertions
-        self.assertEqual(gpu_match_token_num, 0)
-        self.assertEqual(cpu_match_token_num, 0)
-        self.assertEqual(len(match_node_ids), 0)
-        self.assertEqual(len(match_gpu_block_ids), 0)
-
-    def test_revert_partial_block(self):
-        # Setup test data
-        multimodal_inputs = {
-            "mm_positions": [ImagePosition(offset=120, length=1200)],
-            "mm_hashes": ["image1"],
-        }
-        req_dict = {
-            "request_id": "req1",
-            "prompt_token_ids": [1] * 120 + [-1] * 1200 + [2] * 120,
-            "prompt_token_ids_len": 1440,
-            "multimodal_inputs": multimodal_inputs,
-        }
-
-        (
-            matched_token_num,
-            match_node_ids,
-            matche_nodes,
-            match_gpu_block_ids,
-            match_cpu_block_ids,
-            gpu_match_token_num,
-            cpu_match_token_num,
-        ) = self.make_match_blocks(gpu_block_num=20, cpu_block_num=0)
-
-        # Call method
-        (
-            gpu_match_token_num,
-            cpu_match_token_num,
-            current_match_node,
-        ) = self.cache_manager._revert_match_blocks(
-            request=Request.from_dict(req_dict),
-            matched_token_num=matched_token_num,
-            block_size=self.block_size,
-            chunk_idx=0,
-            match_node_ids=match_node_ids,
-            matche_nodes=matche_nodes,
-            match_gpu_block_ids=match_gpu_block_ids,
-            match_cpu_block_ids=match_cpu_block_ids,
-            gpu_match_token_num=gpu_match_token_num,
-            cpu_match_token_num=cpu_match_token_num,
-            swap_node_ids=[],
-        )
-
-        # Assertions
-        self.assertEqual(gpu_match_token_num, 120)
-        self.assertEqual(cpu_match_token_num, 0)
-        self.assertEqual(len(match_node_ids), 2)
-        self.assertEqual(len(match_gpu_block_ids), 2)
-
-    def test_revert_with_cpu_blocks(self):
-        # Setup test data
-        multimodal_inputs = {
-            "mm_positions": [ImagePosition(offset=120, length=1200), ImagePosition(offset=1440, length=420)],
-            "mm_hashes": ["image1", "image2"],
-        }
-        req_dict = {
-            "request_id": "req1",
-            "prompt_token_ids": [1] * 120 + [-1] * 1200 + [2] * 120 + [-1] * 420,
-            "prompt_token_ids_len": 1860,
-            "multimodal_inputs": multimodal_inputs,
-        }
-
-        (
-            matched_token_num,
-            match_node_ids,
-            matche_nodes,
-            match_gpu_block_ids,
-            match_cpu_block_ids,
-            gpu_match_token_num,
-            cpu_match_token_num,
-        ) = self.make_match_blocks(gpu_block_num=22, cpu_block_num=6)
-
-        # Call method
-        (
-            gpu_match_token_num,
-            cpu_match_token_num,
-            current_match_node,
-        ) = self.cache_manager._revert_match_blocks(
-            request=Request.from_dict(req_dict),
-            matched_token_num=matched_token_num,
-            block_size=self.block_size,
-            chunk_idx=1,
-            match_node_ids=match_node_ids,
-            matche_nodes=matche_nodes,
-            match_gpu_block_ids=match_gpu_block_ids,
-            match_cpu_block_ids=match_cpu_block_ids,
-            gpu_match_token_num=gpu_match_token_num,
-            cpu_match_token_num=cpu_match_token_num,
-            swap_node_ids=[],
-        )
-
-        # Assertions
-        self.assertEqual(gpu_match_token_num, 22 * self.block_size)
-        self.assertEqual(cpu_match_token_num, 32)
-        self.assertEqual(len(match_node_ids), 23)
-        self.assertEqual(len(match_gpu_block_ids), 22)
-        self.assertEqual(len(match_cpu_block_ids), 1)
-
-
-if __name__ == "__main__":
-    unittest.main()
diff --git a/tests/v1/test_resource_manager_v1.py b/tests/v1/test_resource_manager_v1.py
index 3864f41eb88..6d00e6d3d9d 100644
--- a/tests/v1/test_resource_manager_v1.py
+++ b/tests/v1/test_resource_manager_v1.py
@@ -9,7 +9,7 @@
 
 from fastdeploy.config import CacheConfig, FDConfig, ParallelConfig, SchedulerConfig
 from fastdeploy.engine.args_utils import EngineArgs
-from fastdeploy.engine.request import Request
+from fastdeploy.engine.request import ImagePosition, Request
 from fastdeploy.engine.sched.resource_manager_v1 import ResourceManagerV1
 
 
@@ -173,5 +173,100 @@ def test_download_features_retry(self):
         self.assertEqual(self.request.error_code, 530)
 
 
+class TestRevertChunkedMMInput(unittest.TestCase):
+    def setUp(self):
+        max_num_seqs = 2
+        engine_args = EngineArgs(
+            max_num_seqs=max_num_seqs,
+            num_gpu_blocks_override=102,
+            max_num_batched_tokens=3200,
+        )
+        args = asdict(engine_args)
+
+        cache_cfg = CacheConfig(args)
+        model_cfg = SimpleNamespace(enable_mm=True)  # Enable multimodal for feature testing
+        speculative_cfg = SimpleNamespace(method=None)
+        model_cfg.print = print
+        model_cfg.max_model_len = 5120
+        model_cfg.architectures = ["test_model"]
+        cache_cfg.bytes_per_layer_per_block = 1
+        parallel_cfg = ParallelConfig(args)
+        scheduler_cfg = SchedulerConfig(args)
+        graph_opt_cfg = engine_args.create_graph_optimization_config()
+
+        fd_config = FDConfig(
+            model_config=model_cfg,
+            cache_config=cache_cfg,
+            parallel_config=parallel_cfg,
+            graph_opt_config=graph_opt_cfg,
+            speculative_config=speculative_cfg,
+            scheduler_config=scheduler_cfg,
+        )
+        self.manager = ResourceManagerV1(
+            max_num_seqs=max_num_seqs, config=fd_config, tensor_parallel_size=8, splitwise_role="mixed"
+        )
+        req_dict = {
+            "request_id": "test_request",
+            "multimodal_inputs": {},
+        }
+        self.request = Request.from_dict(req_dict)
+        self.request.async_process_futures = []
+        self.request.multimodal_inputs = {}
+
+    def test_revert_chunked_mm_input_none_input(self):
+        result = self.manager.revert_chunked_mm_input(None, 10)
+        self.assertEqual(result, 10)
+
+    def test_revert_chunked_mm_input_no_mm_positions(self):
+        mm_inputs = {"other_field": "value"}
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 10)
+        self.assertEqual(result, 10)
+
+    def test_revert_chunked_mm_input_empty_positions(self):
+        mm_inputs = {"mm_positions": []}
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 10)
+        self.assertEqual(result, 10)
+
+    def test_revert_chunked_mm_input_matched_in_chunk(self):
+        mm_inputs = {
+            "mm_positions": [
+                ImagePosition(offset=5, length=10),
+                ImagePosition(offset=20, length=10),
+            ]
+        }
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 8)
+        self.assertEqual(result, 5)
+
+    def test_revert_chunked_mm_input_matched_in_second_chunk(self):
+        mm_inputs = {
+            "mm_positions": [
+                ImagePosition(offset=5, length=10),
+                ImagePosition(offset=20, length=10),
+            ]
+        }
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 25)
+        self.assertEqual(result, 20)
+
+    def test_revert_chunked_mm_input_before_first_chunk(self):
+        mm_inputs = {
+            "mm_positions": [
+                ImagePosition(offset=5, length=10),
+                ImagePosition(offset=20, length=10),
+            ]
+        }
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 3)
+        self.assertEqual(result, 3)
+
+    def test_revert_chunked_mm_input_after_last_chunk(self):
+        mm_inputs = {
+            "mm_positions": [
+                ImagePosition(offset=5, length=10),
+                ImagePosition(offset=20, length=10),
+            ]
+        }
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 35)
+        self.assertEqual(result, 35)
+
+
 if __name__ == "__main__":
     unittest.main()

From fb59f5613ea70ec11cdc862fb9781d1a0dfc2c29 Mon Sep 17 00:00:00 2001
From: freeliuzc <lzc842650834@gmail.com>
Date: Wed, 7 Jan 2026 17:12:47 +0800
Subject: [PATCH 085/161] support multi-step draft-model with cudagraph (#5898)

---
 fastdeploy/spec_decode/mtp.py         | 18 +++++++----
 fastdeploy/worker/gpu_model_runner.py | 43 ++-------------------------
 2 files changed, 15 insertions(+), 46 deletions(-)

diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index c90e5eafd5e..02a2bbc47d1 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -733,7 +733,7 @@ def insert_prefill_inputs(self, req_dicts: List[Request], num_running_requests:
         self.model_inputs["not_need_stop"][0] = True
         self.model_inputs["seq_lens_this_time"] = self.seq_lens_this_time_buffer
 
-    def _initialize_forward_meta(self, step_use_cudagraph: bool = False):
+    def _initialize_forward_meta(self, step_use_cudagraph: bool = False, is_dummy_run: bool = False, substep: int = 0):
         """
         Initialize forward meta and attention meta data
         """
@@ -769,7 +769,12 @@ def _initialize_forward_meta(self, step_use_cudagraph: bool = False):
         for attn_backend in self.attn_backends:
             attn_backend.init_attention_metadata(self.forward_meta)
 
-        self.forward_meta.step_use_cudagraph = step_use_cudagraph and self.draft_model_use_cudagraph
+        # Notes(liuzichang):
+        # 1. CUDA Graph capture sizes must be recorded in descending order (large → small).
+        # 2. In multi-step execution, only the first step should be captured.
+        self.forward_meta.step_use_cudagraph = (
+            step_use_cudagraph and self.draft_model_use_cudagraph and not (substep > 0 and is_dummy_run)
+        )
 
     def _initialize_forward_meta_xpu(self):
 
@@ -954,7 +959,9 @@ def _propose_cuda(self, step_use_cudagraph: bool = False, is_dummy_run: bool = F
                 self.model_inputs["output_padding_offset"].copy_(output_padding_offset, False)
 
                 # Initialize forward meta data
-                self._initialize_forward_meta(step_use_cudagraph=step_use_cudagraph)
+                self._initialize_forward_meta(
+                    step_use_cudagraph=step_use_cudagraph, is_dummy_run=is_dummy_run, substep=substep
+                )
                 self.forward_meta.batch_id_per_token.copy_(batch_id_per_token, False)
 
                 # Padding inputs for cuda graph
@@ -979,9 +986,10 @@ def _propose_cuda(self, step_use_cudagraph: bool = False, is_dummy_run: bool = F
                     top_p_normalized_logprobs=self.model_inputs["top_p_normalized_logprobs"],
                     share_inputs=self.model_inputs,
                 )
-
+                # Note(liuzichang):
+                # paddle.clone would raise error 700 in cudaGraph mode
                 if self.num_model_steps > 1:
-                    self.last_seq_lens_this_time = paddle.clone(self.model_inputs["seq_lens_this_time"])
+                    self.last_seq_lens_this_time.copy_(self.model_inputs["seq_lens_this_time"], False)
 
                 model_output = self.model(
                     ids_remove_padding=self.model_inputs["ids_remove_padding"],
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 2928db33f7a..494c45a9f0f 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -2105,51 +2105,12 @@ def capture_model(self) -> None:
                         ),
                         batch_size=int(capture_size / (self.speculative_config.num_speculative_tokens + 1)),
                         in_capturing=True,
-                        expected_decode_len=self.speculative_config.num_speculative_tokens,
+                        expected_decode_len=self.speculative_config.num_speculative_tokens * 2 + 1,
                         accept_all_drafts=True,
                     )
                     logger.info(
-                        f"Warm up the Target model with the num_tokens:{capture_size}, expected_decode_len:{self.speculative_config.num_speculative_tokens}"
+                        f"Warm up the model with the num_tokens:{capture_size}, expected_decode_len:{self.speculative_config.num_speculative_tokens}"
                     )
-                if self.graph_opt_config.draft_model_use_cudagraph:
-                    # Capture Draft Model without bsz 1
-                    # NOTE(liujundong): expected_decode_len = 1, will affect mtp capture in cudagraph
-                    for batch_size in sorted(capture_sizes, reverse=True):
-                        if batch_size == 1:
-                            logger.info("Skip token_num = 1, when capture Draft model for mtp")
-                        else:
-                            assert batch_size % 2 == 0
-                            self._dummy_run(
-                                num_tokens=(
-                                    self.scheduler_config.max_num_seqs
-                                    if self.scheduler_config.splitwise_role == "decode"
-                                    else self.scheduler_config.max_num_batched_tokens
-                                ),
-                                batch_size=int(batch_size / 2),
-                                in_capturing=True,
-                                expected_decode_len=3,
-                                accept_all_drafts=True,
-                            )
-                            logger.info(
-                                f"Warm up the Draft model with the num_tokens:{batch_size}, expected_decode_len:{3}"
-                            )
-                    # Capture Draft Model with bsz 1
-                    if 1 in capture_sizes:
-                        self._dummy_run(
-                            num_tokens=(
-                                self.scheduler_config.max_num_seqs
-                                if self.scheduler_config.splitwise_role == "decode"
-                                else self.scheduler_config.max_num_batched_tokens
-                            ),
-                            batch_size=int(1),
-                            in_capturing=True,
-                            expected_decode_len=3,
-                            accept_all_drafts=False,
-                            reject_all_drafts=True,
-                        )
-                        logger.info(
-                            f"Warm up the Draft model with the num_tokens:{batch_size}, expected_decode_len:{3}"
-                        )
             else:
                 for batch_size in sorted(capture_sizes, reverse=True):
                     self._dummy_run(

From 7cdffced2ddeece229d5f5b4c4532feab77ac96a Mon Sep 17 00:00:00 2001
From: Jiaxin Sui <95567040+plusNew001@users.noreply.github.com>
Date: Wed, 7 Jan 2026 18:37:49 +0800
Subject: [PATCH 086/161] [Cherry Pick][XPU][CI] Add logprobs Case (#5907)

* Implement setup_logprobs_env for environment setup

Add setup_logprobs_env function to manage environment variables for logprobs.

* Update conftest.py

* Add logprobs test for ERNIE-4.5-21B-A3B model

This test verifies the logprobs functionality of the ERNIE-4.5-21B-A3B model through direct HTTP requests, ensuring correct response structure and log probabilities.

* Fix indentation and formatting in conftest.py
---
 tests/xpu_ci/conftest.py              |  25 ++++
 tests/xpu_ci/test_logprobs_21b_tp4.py | 158 ++++++++++++++++++++++++++
 2 files changed, 183 insertions(+)
 create mode 100644 tests/xpu_ci/test_logprobs_21b_tp4.py

diff --git a/tests/xpu_ci/conftest.py b/tests/xpu_ci/conftest.py
index 402ad5cad9f..be90386daa2 100644
--- a/tests/xpu_ci/conftest.py
+++ b/tests/xpu_ci/conftest.py
@@ -429,3 +429,28 @@ def restore_pd_env(original_values):
             else:
                 os.environ[key] = original_values[key]
                 print(f"恢复环境变量: {key}={original_values[key]}")
+
+
+def setup_logprobs_env():
+    """
+    设置logprobs相关环境变量
+
+    Returns:
+        dict: 原始环境变量值,用于后续恢复
+    """
+    env_vars = {
+        "FD_USE_GET_SAVE_OUTPUT_V1": "1",
+    }
+    os.system("sysctl -w kernel.msgmax=131072")
+    os.system("sysctl -w kernel.msgmnb=33554432")
+
+    # 保存原始值
+    original_values = {}
+    for key in env_vars:
+        original_values[key] = os.environ.get(key)
+
+    # 设置新值
+    for key, value in env_vars.items():
+        os.environ[key] = value
+        print(f"设置环境变量: {key}={value}")
+    return original_values
diff --git a/tests/xpu_ci/test_logprobs_21b_tp4.py b/tests/xpu_ci/test_logprobs_21b_tp4.py
new file mode 100644
index 00000000000..b45283495ad
--- /dev/null
+++ b/tests/xpu_ci/test_logprobs_21b_tp4.py
@@ -0,0 +1,158 @@
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+
+"""
+V1模式测试 - ERNIE-4.5-21B-A3B 模型
+
+测试配置:
+- 模型: ERNIE-4.5-21B-A3B-Paddle
+- 量化: wint8
+- Tensor Parallel: 4
+- 特性: enable-logprob
+- 调用方式: 原生 HTTP（不使用 OpenAI SDK）
+"""
+
+import pytest
+import requests
+from conftest import (
+    get_model_path,
+    get_port_num,
+    print_logs_on_failure,
+    restore_env,
+    setup_logprobs_env,
+    start_server,
+)
+
+
+def test_logprobs_mode(xpu_env):
+    """logprobs 测试（HTTP 直连，不使用 SDK）"""
+
+    print("\n============================开始 logprobs 测试!============================")
+
+    port_num = get_port_num()
+    model_path = get_model_path()
+
+    original_env = setup_logprobs_env()
+
+    server_args = [
+        "--model",
+        f"{model_path}/ERNIE-4.5-21B-A3B-Paddle",
+        "--port",
+        str(port_num),
+        "--engine-worker-queue-port",
+        str(port_num + 1),
+        "--metrics-port",
+        str(port_num + 2),
+        "--cache-queue-port",
+        str(port_num + 47873),
+        "--tensor-parallel-size",
+        "4",
+        "--num-gpu-blocks-override",
+        "16384",
+        "--max-model-len",
+        "32768",
+        "--max-num-seqs",
+        "128",
+        "--quantization",
+        "wint8",
+        "--gpu-memory-utilization",
+        "0.9",
+        "--enable-logprob",
+        "--no-enable-prefix-caching",
+    ]
+
+    if not start_server(server_args):
+        pytest.fail("logprobs 服务启动失败")
+
+    try:
+        url = f"http://127.0.0.1:{port_num}/v1/chat/completions"
+
+        payload = {
+            "model": "default",
+            "messages": [{"role": "user", "content": "你好,你是谁?"}],
+            "temperature": 1,
+            "top_p": 0,
+            "max_tokens": 64,
+            "stream": False,
+            "logprobs": True,
+            "top_logprobs": 1,
+            "prompt_logprobs": 1,
+        }
+
+        resp = requests.post(url, json=payload, timeout=300)
+        assert resp.status_code == 200, f"HTTP 请求失败: {resp.text}"
+
+        response = resp.json()
+        print("\n完整返回:\n", response)
+
+        # ========================
+        # 基本返回结构
+        # ========================
+        assert "choices" in response
+        assert isinstance(response["choices"], list)
+        assert len(response["choices"]) > 0
+
+        choice = response["choices"][0]
+
+        # ========================
+        # message 结构
+        # ========================
+        assert "message" in choice
+        assert "content" in choice["message"]
+        assert isinstance(choice["message"]["content"], str)
+        assert len(choice["message"]["content"]) > 0
+
+        print(f"\n模型回复: {choice['message']['content']}")
+
+        # ========================
+        # completion logprobs
+        # ========================
+        assert "logprobs" in choice
+        assert choice["logprobs"] is not None
+
+        assert "content" in choice["logprobs"]
+        assert isinstance(choice["logprobs"]["content"], list)
+        assert len(choice["logprobs"]["content"]) > 0
+
+        for token_info in choice["logprobs"]["content"]:
+            assert "token" in token_info
+            assert "logprob" in token_info
+            assert "bytes" in token_info
+            assert "top_logprobs" in token_info
+
+            assert isinstance(token_info["token"], str)
+            assert isinstance(token_info["logprob"], (int, float))
+            assert isinstance(token_info["bytes"], list)
+            assert token_info["top_logprobs"] is None or isinstance(token_info["top_logprobs"], list)
+
+        # ========================
+        # prompt_logprobs（扩展字段）
+        # ========================
+        assert "prompt_logprobs" in choice
+        assert isinstance(choice["prompt_logprobs"], list)
+        assert len(choice["prompt_logprobs"]) > 0
+
+        print("\nlogprobs 测试通过!")
+
+    except Exception as e:
+        print(f"\nlogprobs 测试失败: {str(e)}")
+        print_logs_on_failure()
+        pytest.fail(f"logprobs 测试失败: {str(e)}")
+
+    finally:
+        restore_env(original_env)
+
+
+if __name__ == "__main__":
+    pytest.main([__file__, "-v", "-s"])

From 0b630fc3c1e0e4e4dca727471c60790724061bf0 Mon Sep 17 00:00:00 2001
From: lizhenyun01 <1500424927@qq.com>
Date: Wed, 7 Jan 2026 19:50:02 +0800
Subject: [PATCH 087/161] [Cherry-Pick] [BugFix] fix mtp split kv attetion
 (#5921)

* [BugFix] fix mtp split kv attetion

* clean code

* clean code
---
 .../append_attn/append_attention_func.cuh     |  14 +-
 .../multiquery_attention_c16_impl.cuh         | 145 +++++++-----------
 .../multiquery_attention_c4_impl.cuh          | 141 +++++++----------
 .../multiquery_attention_c8_impl.cuh          | 140 +++++++----------
 .../layers/attention/append_attn_backend.py   |   3 -
 5 files changed, 170 insertions(+), 273 deletions(-)

diff --git a/custom_ops/gpu_ops/append_attn/append_attention_func.cuh b/custom_ops/gpu_ops/append_attn/append_attention_func.cuh
index 74de2f39ec9..cc0deb82bf7 100644
--- a/custom_ops/gpu_ops/append_attn/append_attention_func.cuh
+++ b/custom_ops/gpu_ops/append_attn/append_attention_func.cuh
@@ -2414,7 +2414,8 @@ template <typename T,
           uint32_t bdy,
           uint32_t HEAD_DIM,
           typename OutT = T,
-          bool ENABLE_PREFILL = true>
+          bool ENABLE_PREFILL = true,
+          bool DECODE_ONLY = true>
 __global__ void merge_multi_chunks_v2_kernel(
     const T* __restrict__ multi_out,    // [token_num, num_chunks, num_heads,
                                         // head_dim]
@@ -2458,15 +2459,16 @@ __global__ void merge_multi_chunks_v2_kernel(
     if (ENABLE_PREFILL) {
       seq_len_kv += seq_len_q;
       if (seq_len_kv == 0) continue;
-
-      const int seq_len_enc = seq_lens_encoder[bid];
-      if (seq_len_enc <= 0) {
-        continue;
-      }
     } else {
       if (seq_len_kv == 0) continue;
       seq_len_kv += seq_len_q;
     }
+    if constexpr (DECODE_ONLY) {
+      const int seq_len_enc = seq_lens_encoder[bid];
+      if (seq_len_enc > 0) {
+        continue;
+      }
+    }
     const int num_chunks_this_seq = div_up(seq_len_kv, chunk_size);
     if (num_chunks_this_seq <= 1) {
       continue;
diff --git a/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh b/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh
index 66eb4d03204..e3f03b98e83 100644
--- a/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh
+++ b/custom_ops/gpu_ops/append_attn/multiquery_attention_c16_impl.cuh
@@ -441,6 +441,7 @@ __global__ void multi_query_append_attention_warp1_4_kernel(
     const T *__restrict__ sinks,          // [q_num_heads]
     const int *__restrict__ seq_lens,
     const int *__restrict__ seq_lens_kv,
+    const int *__restrict__ seq_lens_encoder,
     const int *__restrict__ batch_ids,
     const int *__restrict__ tile_ids_per_batch,
     const int *__restrict__ cu_seqlens_q,
@@ -501,6 +502,10 @@ __global__ void multi_query_append_attention_warp1_4_kernel(
     }
     kv_len += q_len;
   }
+  const int seq_len_enc = seq_lens_encoder[batch_id];
+  if (seq_len_enc > 0) {
+    return;
+  }
   const uint32_t num_chunks_this_seq = div_up(kv_len, chunk_size);
   if (chunk_idx >= num_chunks_this_seq) {
     return;
@@ -1050,95 +1055,52 @@ void MultiQueryAppendAttention(
           sliding_window);
       // merge
       constexpr int vec_size = num_elems_per_128b<NV_TYPE>();
-      if (is_decoder) {
-        constexpr int blockx = HEAD_DIM / vec_size;
-        constexpr int blocky = (128 + blockx - 1) / blockx;
-        dim3 grids_merge(bsz, num_heads);
-        dim3 blocks_merge(blockx, blocky);
-        auto *kernelFn = merge_multi_chunks_decoder_kernel<NV_TYPE,
-                                                           vec_size,
-                                                           blocky,
-                                                           HEAD_DIM,
-                                                           OUT_NV_TYPE,
-                                                           ENABLE_PREFILL>;
-        launchWithPdlWhenEnabled(
-            kernelFn,
-            grids_merge,
-            blocks_merge,
-            0,
-            stream,
-            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
-            static_cast<float *>(tmp_m->ptr()),
-            static_cast<float *>(tmp_d->ptr()),
-            seq_lens_q.data<int>(),
-            seq_lens_kv.data<int>(),
-            seq_lens_encoder.data<int>(),
-            cu_seqlens_q.data<int>(),
-            shift_bias ? reinterpret_cast<NV_TYPE *>(
-                             const_cast<T *>(shift_bias.get().data<T>()))
-                       : nullptr,
-            smooth_weight ? reinterpret_cast<NV_TYPE *>(
-                                const_cast<T *>(smooth_weight.get().data<T>()))
-                          : nullptr,
-            sinks ? reinterpret_cast<NV_TYPE *>(
-                        const_cast<T *>(sinks.get().data<T>()))
-                  : nullptr,
-            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
-            quant_max_bound,
-            quant_min_bound,
-            in_scale,
-            max_seq_len,
-            num_chunks,
-            num_heads,
-            chunk_size,
-            HEAD_DIM);
-      } else {
-        constexpr int blockx = HEAD_DIM / vec_size;
-        constexpr int blocky = (128 + blockx - 1) / blockx;
-        dim3 grids_merge(min(sm_count * 4, token_num),
-                         num_heads);  // 128k is too large
-        dim3 blocks_merge(blockx, blocky);
-        auto *kernelFn = merge_multi_chunks_v2_kernel<NV_TYPE,
-                                                      vec_size,
-                                                      blocky,
-                                                      HEAD_DIM,
-                                                      OUT_NV_TYPE,
-                                                      ENABLE_PREFILL>;
-        launchWithPdlWhenEnabled(
-            kernelFn,
-            grids_merge,
-            blocks_merge,
-            0,
-            stream,
-            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
-            static_cast<float *>(tmp_m->ptr()),
-            static_cast<float *>(tmp_d->ptr()),
-            seq_lens_q.data<int>(),
-            seq_lens_kv.data<int>(),
-            seq_lens_encoder.data<int>(),
-            batch_id_per_token.data<int>(),
-            cu_seqlens_q.data<int>(),
-            shift_bias ? reinterpret_cast<NV_TYPE *>(
-                             const_cast<T *>(shift_bias.get().data<T>()))
-                       : nullptr,
-            smooth_weight ? reinterpret_cast<NV_TYPE *>(
-                                const_cast<T *>(smooth_weight.get().data<T>()))
-                          : nullptr,
-            sinks ? reinterpret_cast<NV_TYPE *>(
-                        const_cast<T *>(sinks.get().data<T>()))
-                  : nullptr,
-            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
-            quant_max_bound,
-            quant_min_bound,
-            in_scale,
-            max_seq_len,
-            num_chunks,
-            num_heads,
-            chunk_size,
-            HEAD_DIM,
-            token_num,
-            speculate_max_draft_token_num);
-      }
+      constexpr int blockx = HEAD_DIM / vec_size;
+      constexpr int blocky = (128 + blockx - 1) / blockx;
+      dim3 grids_merge(min(sm_count * 4, token_num),
+                       num_heads);  // 128k is too large
+      dim3 blocks_merge(blockx, blocky);
+      auto *kernelFn = merge_multi_chunks_v2_kernel<NV_TYPE,
+                                                    vec_size,
+                                                    blocky,
+                                                    HEAD_DIM,
+                                                    OUT_NV_TYPE,
+                                                    ENABLE_PREFILL,
+                                                    false>;
+      launchWithPdlWhenEnabled(
+          kernelFn,
+          grids_merge,
+          blocks_merge,
+          0,
+          stream,
+          reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
+          static_cast<float *>(tmp_m->ptr()),
+          static_cast<float *>(tmp_d->ptr()),
+          seq_lens_q.data<int>(),
+          seq_lens_kv.data<int>(),
+          seq_lens_encoder.data<int>(),
+          batch_id_per_token.data<int>(),
+          cu_seqlens_q.data<int>(),
+          shift_bias ? reinterpret_cast<NV_TYPE *>(
+                           const_cast<T *>(shift_bias.get().data<T>()))
+                     : nullptr,
+          smooth_weight ? reinterpret_cast<NV_TYPE *>(
+                              const_cast<T *>(smooth_weight.get().data<T>()))
+                        : nullptr,
+          sinks ? reinterpret_cast<NV_TYPE *>(
+                      const_cast<T *>(sinks.get().data<T>()))
+                : nullptr,
+          reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
+          quant_max_bound,
+          quant_min_bound,
+          in_scale,
+          max_seq_len,
+          num_chunks,
+          num_heads,
+          chunk_size,
+          HEAD_DIM,
+          token_num,
+          speculate_max_draft_token_num);
     }
   } else {
     constexpr uint32_t num_frags_z = BLOCK_SIZE / 16 / NUM_WARP_KV;
@@ -1222,6 +1184,7 @@ void MultiQueryAppendAttention(
                 : nullptr,
           seq_lens_q.data<int>(),
           seq_lens_kv.data<int>(),
+          seq_lens_encoder.data<int>(),
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cu_seqlens_q.data<int>(),
@@ -1303,6 +1266,7 @@ void MultiQueryAppendAttention(
                 : nullptr,
           seq_lens_q.data<int>(),
           seq_lens_kv.data<int>(),
+          seq_lens_encoder.data<int>(),
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cu_seqlens_q.data<int>(),
@@ -1380,7 +1344,8 @@ void MultiQueryAppendAttention(
                                                       blocky,
                                                       HEAD_DIM,
                                                       OUT_NV_TYPE,
-                                                      ENABLE_PREFILL>;
+                                                      ENABLE_PREFILL,
+                                                      true>;
         launchWithPdlWhenEnabled(
             kernelFn,
             grids_merge,
diff --git a/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh b/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh
index 4f709139515..9748010b452 100644
--- a/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh
+++ b/custom_ops/gpu_ops/append_attn/multiquery_attention_c4_impl.cuh
@@ -537,6 +537,7 @@ __global__ void multi_query_append_attention_c4_warp1_4_kernel(
     const T *__restrict__ sinks,               // [q_num_heads]
     const int *__restrict__ seq_lens,
     const int *__restrict__ seq_lens_kv,
+    const int *__restrict__ seq_lens_encoder,
     const int *__restrict__ batch_ids,
     const int *__restrict__ tile_ids_per_batch,
     const int *__restrict__ cu_seqlens_q,
@@ -605,6 +606,10 @@ __global__ void multi_query_append_attention_c4_warp1_4_kernel(
     }
     kv_len += q_len;
   }
+  const int seq_len_enc = seq_lens_encoder[batch_id];
+  if (seq_len_enc > 0) {
+    return;
+  }
   const uint32_t num_chunks_this_seq = div_up(kv_len, chunk_size);
   if (chunk_idx >= num_chunks_this_seq) {
     return;
@@ -1259,92 +1264,51 @@ void MultiQueryAppendC4Attention(
           sliding_window);
       // merge
       constexpr int vec_size = num_elems_per_128b<NV_TYPE>();
-      if (is_decoder) {
-        constexpr int blockx = HEAD_DIM / vec_size;
-        constexpr int blocky = (128 + blockx - 1) / blockx;
-        dim3 grids_merge(bsz, num_heads);
-        dim3 blocks_merge(blockx, blocky);
-        launchWithPdlWhenEnabled(
-            merge_multi_chunks_decoder_kernel<NV_TYPE,
-                                              vec_size,
-                                              blocky,
-                                              HEAD_DIM,
-                                              OUT_NV_TYPE,
-                                              ENABLE_PREFILL>,
-            grids_merge,
-            blocks_merge,
-            0,
-            stream,
-            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
-            static_cast<float *>(tmp_m->ptr()),
-            static_cast<float *>(tmp_d->ptr()),
-            seq_lens_q.data<int>(),
-            seq_lens_kv.data<int>(),
-            seq_lens_encoder.data<int>(),
-            cu_seqlens_q.data<int>(),
-            shift_bias ? reinterpret_cast<NV_TYPE *>(
-                             const_cast<T *>(shift_bias.get().data<T>()))
-                       : nullptr,
-            smooth_weight ? reinterpret_cast<NV_TYPE *>(
-                                const_cast<T *>(smooth_weight.get().data<T>()))
-                          : nullptr,
-            sinks ? reinterpret_cast<NV_TYPE *>(
-                        const_cast<T *>(sinks.get().data<T>()))
-                  : nullptr,
-            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
-            quant_max_bound,
-            quant_min_bound,
-            in_scale,
-            max_seq_len,
-            num_chunks,
-            num_heads,
-            chunk_size,
-            HEAD_DIM);
-      } else {
-        constexpr int blockx = HEAD_DIM / vec_size;
-        constexpr int blocky = (128 + blockx - 1) / blockx;
-        dim3 grids_merge(min(sm_count * 4, token_num), num_heads);
-        dim3 blocks_merge(blockx, blocky);
-        launchWithPdlWhenEnabled(
-            merge_multi_chunks_v2_kernel<NV_TYPE,
-                                         vec_size,
-                                         blocky,
-                                         HEAD_DIM,
-                                         OUT_NV_TYPE,
-                                         ENABLE_PREFILL>,
-            grids_merge,
-            blocks_merge,
-            0,
-            stream,
-            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
-            static_cast<float *>(tmp_m->ptr()),
-            static_cast<float *>(tmp_d->ptr()),
-            seq_lens_q.data<int>(),
-            seq_lens_kv.data<int>(),
-            seq_lens_encoder.data<int>(),
-            batch_id_per_token.data<int>(),
-            cu_seqlens_q.data<int>(),
-            shift_bias ? reinterpret_cast<NV_TYPE *>(
-                             const_cast<T *>(shift_bias.get().data<T>()))
-                       : nullptr,
-            smooth_weight ? reinterpret_cast<NV_TYPE *>(
-                                const_cast<T *>(smooth_weight.get().data<T>()))
-                          : nullptr,
-            sinks ? reinterpret_cast<NV_TYPE *>(
-                        const_cast<T *>(sinks.get().data<T>()))
-                  : nullptr,
-            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
-            quant_max_bound,
-            quant_min_bound,
-            in_scale,
-            max_seq_len,
-            num_chunks,
-            num_heads,
-            chunk_size,
-            HEAD_DIM,
-            token_num,
-            speculate_max_draft_token_num);
-      }
+
+      constexpr int blockx = HEAD_DIM / vec_size;
+      constexpr int blocky = (128 + blockx - 1) / blockx;
+      dim3 grids_merge(min(sm_count * 4, token_num), num_heads);
+      dim3 blocks_merge(blockx, blocky);
+      launchWithPdlWhenEnabled(
+          merge_multi_chunks_v2_kernel<NV_TYPE,
+                                       vec_size,
+                                       blocky,
+                                       HEAD_DIM,
+                                       OUT_NV_TYPE,
+                                       ENABLE_PREFILL,
+                                       false>,
+          grids_merge,
+          blocks_merge,
+          0,
+          stream,
+          reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
+          static_cast<float *>(tmp_m->ptr()),
+          static_cast<float *>(tmp_d->ptr()),
+          seq_lens_q.data<int>(),
+          seq_lens_kv.data<int>(),
+          seq_lens_encoder.data<int>(),
+          batch_id_per_token.data<int>(),
+          cu_seqlens_q.data<int>(),
+          shift_bias ? reinterpret_cast<NV_TYPE *>(
+                           const_cast<T *>(shift_bias.get().data<T>()))
+                     : nullptr,
+          smooth_weight ? reinterpret_cast<NV_TYPE *>(
+                              const_cast<T *>(smooth_weight.get().data<T>()))
+                        : nullptr,
+          sinks ? reinterpret_cast<NV_TYPE *>(
+                      const_cast<T *>(sinks.get().data<T>()))
+                : nullptr,
+          reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
+          quant_max_bound,
+          quant_min_bound,
+          in_scale,
+          max_seq_len,
+          num_chunks,
+          num_heads,
+          chunk_size,
+          HEAD_DIM,
+          token_num,
+          speculate_max_draft_token_num);
     }
   } else {
     constexpr uint32_t num_frags_z = BLOCK_SIZE / 16 / NUM_WARP_KV * 4;
@@ -1448,6 +1412,7 @@ void MultiQueryAppendC4Attention(
                 : nullptr,
           seq_lens_q.data<int>(),
           seq_lens_kv.data<int>(),
+          seq_lens_encoder.data<int>(),
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cu_seqlens_q.data<int>(),
@@ -1538,6 +1503,7 @@ void MultiQueryAppendC4Attention(
                 : nullptr,
           seq_lens_q.data<int>(),
           seq_lens_kv.data<int>(),
+          seq_lens_encoder.data<int>(),
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cu_seqlens_q.data<int>(),
@@ -1615,7 +1581,8 @@ void MultiQueryAppendC4Attention(
                                          blocky,
                                          HEAD_DIM,
                                          OUT_NV_TYPE,
-                                         ENABLE_PREFILL>,
+                                         ENABLE_PREFILL,
+                                         true>,
             grids_merge,
             blocks_merge,
             0,
diff --git a/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh b/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh
index 28df1b40506..59a838373e7 100644
--- a/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh
+++ b/custom_ops/gpu_ops/append_attn/multiquery_attention_c8_impl.cuh
@@ -584,6 +584,7 @@ __global__ void multi_query_append_attention_c8_warp1_4_kernel(
     const T *__restrict__ sinks,          // [q_num_heads]
     const int *__restrict__ seq_lens,
     const int *__restrict__ seq_lens_kv,
+    const int *__restrict__ seq_lens_encoder,
     const int *__restrict__ batch_ids,
     const int *__restrict__ tile_ids_per_batch,
     const int *__restrict__ cu_seqlens_q,
@@ -638,6 +639,10 @@ __global__ void multi_query_append_attention_c8_warp1_4_kernel(
   if (q_len <= 0) {
     return;
   }
+  const int seq_len_enc = seq_lens_encoder[batch_id];
+  if (seq_len_enc > 0) {
+    return;
+  }
   T cache_k_scale_reg[IsDynamicC8 ? num_frags_z * 2 : num_frags_y * 4];
   T cache_v_scale_reg[IsDynamicC8 ? num_frags_z * 4 : num_frags_y * 2];
   if constexpr (!IsDynamicC8) {
@@ -1380,92 +1385,50 @@ void MultiQueryAppendC8Attention(
           sliding_window);
       // merge
       constexpr int vec_size = num_elems_per_128b<NV_TYPE>();
-      if (is_decoder) {
-        constexpr int blockx = HEAD_DIM / vec_size;
-        constexpr int blocky = (128 + blockx - 1) / blockx;
-        dim3 grids_merge(bsz, num_heads);
-        dim3 blocks_merge(blockx, blocky);
-        launchWithPdlWhenEnabled(
-            merge_multi_chunks_decoder_kernel<NV_TYPE,
-                                              vec_size,
-                                              blocky,
-                                              HEAD_DIM,
-                                              OUT_NV_TYPE,
-                                              ENABLE_PREFILL>,
-            grids_merge,
-            blocks_merge,
-            0,
-            stream,
-            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
-            static_cast<float *>(tmp_m->ptr()),
-            static_cast<float *>(tmp_d->ptr()),
-            seq_lens_q.data<int>(),
-            seq_lens_kv.data<int>(),
-            seq_lens_encoder.data<int>(),
-            cu_seqlens_q.data<int>(),
-            shift_bias ? reinterpret_cast<NV_TYPE *>(
-                             const_cast<T *>(shift_bias.get().data<T>()))
-                       : nullptr,
-            smooth_weight ? reinterpret_cast<NV_TYPE *>(
-                                const_cast<T *>(smooth_weight.get().data<T>()))
-                          : nullptr,
-            sinks ? reinterpret_cast<NV_TYPE *>(
-                        const_cast<T *>(sinks.get().data<T>()))
-                  : nullptr,
-            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
-            quant_max_bound,
-            quant_min_bound,
-            in_scale,
-            max_seq_len,
-            num_chunks,
-            num_heads,
-            chunk_size,
-            HEAD_DIM);
-      } else {
-        constexpr int blockx = HEAD_DIM / vec_size;
-        constexpr int blocky = (128 + blockx - 1) / blockx;
-        dim3 grids_merge(min(sm_count * 4, token_num), num_heads);
-        dim3 blocks_merge(blockx, blocky);
-        launchWithPdlWhenEnabled(
-            merge_multi_chunks_v2_kernel<NV_TYPE,
-                                         vec_size,
-                                         blocky,
-                                         HEAD_DIM,
-                                         OUT_NV_TYPE,
-                                         ENABLE_PREFILL>,
-            grids_merge,
-            blocks_merge,
-            0,
-            stream,
-            reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
-            static_cast<float *>(tmp_m->ptr()),
-            static_cast<float *>(tmp_d->ptr()),
-            seq_lens_q.data<int>(),
-            seq_lens_kv.data<int>(),
-            seq_lens_encoder.data<int>(),
-            batch_id_per_token.data<int>(),
-            cu_seqlens_q.data<int>(),
-            shift_bias ? reinterpret_cast<NV_TYPE *>(
-                             const_cast<T *>(shift_bias.get().data<T>()))
-                       : nullptr,
-            smooth_weight ? reinterpret_cast<NV_TYPE *>(
-                                const_cast<T *>(smooth_weight.get().data<T>()))
-                          : nullptr,
-            sinks ? reinterpret_cast<NV_TYPE *>(
-                        const_cast<T *>(sinks.get().data<T>()))
-                  : nullptr,
-            reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
-            quant_max_bound,
-            quant_min_bound,
-            in_scale,
-            max_seq_len,
-            num_chunks,
-            num_heads,
-            chunk_size,
-            HEAD_DIM,
-            token_num,
-            speculate_max_draft_token_num);
-      }
+      constexpr int blockx = HEAD_DIM / vec_size;
+      constexpr int blocky = (128 + blockx - 1) / blockx;
+      dim3 grids_merge(min(sm_count * 4, token_num), num_heads);
+      dim3 blocks_merge(blockx, blocky);
+      launchWithPdlWhenEnabled(
+          merge_multi_chunks_v2_kernel<NV_TYPE,
+                                       vec_size,
+                                       blocky,
+                                       HEAD_DIM,
+                                       OUT_NV_TYPE,
+                                       ENABLE_PREFILL,
+                                       false>,
+          grids_merge,
+          blocks_merge,
+          0,
+          stream,
+          reinterpret_cast<NV_TYPE *>(tmp_workspace->ptr()),
+          static_cast<float *>(tmp_m->ptr()),
+          static_cast<float *>(tmp_d->ptr()),
+          seq_lens_q.data<int>(),
+          seq_lens_kv.data<int>(),
+          seq_lens_encoder.data<int>(),
+          batch_id_per_token.data<int>(),
+          cu_seqlens_q.data<int>(),
+          shift_bias ? reinterpret_cast<NV_TYPE *>(
+                           const_cast<T *>(shift_bias.get().data<T>()))
+                     : nullptr,
+          smooth_weight ? reinterpret_cast<NV_TYPE *>(
+                              const_cast<T *>(smooth_weight.get().data<T>()))
+                        : nullptr,
+          sinks ? reinterpret_cast<NV_TYPE *>(
+                      const_cast<T *>(sinks.get().data<T>()))
+                : nullptr,
+          reinterpret_cast<OUT_NV_TYPE *>(out->data<OutT>()),
+          quant_max_bound,
+          quant_min_bound,
+          in_scale,
+          max_seq_len,
+          num_chunks,
+          num_heads,
+          chunk_size,
+          HEAD_DIM,
+          token_num,
+          speculate_max_draft_token_num);
     }
   } else {
     constexpr uint32_t num_frags_z = BLOCK_SIZE / 16 / NUM_WARP_KV * 2;
@@ -1601,6 +1564,7 @@ void MultiQueryAppendC8Attention(
                 : nullptr,
           seq_lens_q.data<int>(),
           seq_lens_kv.data<int>(),
+          seq_lens_encoder.data<int>(),
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cu_seqlens_q.data<int>(),
@@ -1685,6 +1649,7 @@ void MultiQueryAppendC8Attention(
                 : nullptr,
           seq_lens_q.data<int>(),
           seq_lens_kv.data<int>(),
+          seq_lens_encoder.data<int>(),
           batch_ids.data<int>(),
           tile_ids_per_batch.data<int>(),
           cu_seqlens_q.data<int>(),
@@ -1763,7 +1728,8 @@ void MultiQueryAppendC8Attention(
                                          blocky,
                                          HEAD_DIM,
                                          OUT_NV_TYPE,
-                                         ENABLE_PREFILL>,
+                                         ENABLE_PREFILL,
+                                         true>,
             grids_merge,
             blocks_merge,
             0,
diff --git a/fastdeploy/model_executor/layers/attention/append_attn_backend.py b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
index 64cc3b32746..4608bd81e92 100644
--- a/fastdeploy/model_executor/layers/attention/append_attn_backend.py
+++ b/fastdeploy/model_executor/layers/attention/append_attn_backend.py
@@ -148,9 +148,6 @@ def __init__(
         self.head_dim: int = fd_config.model_config.head_dim
         self.num_layers: int = fd_config.model_config.num_hidden_layers
         self.max_partition_size: int = int(os.getenv("FLAGS_max_partition_size", 1024))
-        # split kv still has bug in speculative decoding
-        if self.speculative_method is not None:
-            self.max_partition_size = self.max_seq_len
         self.encoder_block_shape_q: int = encoder_block_shape_q
         self.decoder_block_shape_q: int = decoder_block_shape_q
 

From 1e8de9639e76201e97fc2a76c6194ec94bab1f10 Mon Sep 17 00:00:00 2001
From: chenjian <1435317881@qq.com>
Date: Thu, 8 Jan 2026 10:09:51 +0800
Subject: [PATCH 088/161] [Optim][Cherry-pick] Reduce preemption occurrence
 when blocks not enough(#5696) (#5808)

* [Optim] Reduce preemption occurrence when blocks not enough

* optimize performance using adaptive block reservation

* optimize performance

* fix

* fix

---------

Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>
---
 .../engine/sched/resource_manager_v1.py       | 48 +++++++++++++++++--
 fastdeploy/envs.py                            | 10 ++++
 2 files changed, 55 insertions(+), 3 deletions(-)

diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index 9b1303682c9..85eb06a3169 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -200,6 +200,19 @@ def __init__(self, max_num_seqs, config, tensor_parallel_size, splitwise_role, l
         self.bos_client = None
         self.async_preprocess_pool = ThreadPoolExecutor(max_workers=4)
 
+        self.init_reserve_output_block_num = (
+            envs.FD_RESERVE_OUTPUT_BLOCK_NUM_FOR_DECODE_WHEN_SCHEDULE_NEW_PREFILL
+        )  # int
+        self.decay_output_block_num = (
+            envs.FD_RESERVE_DECAY_OUTPUT_BLOCK_NUM_FOR_DECODE_WHEN_SCHEDULE_NEW_PREFILL
+        )  # float
+        self.min_reserve_output_block_num = (
+            envs.FD_RESERVE_MIN_OUTPUT_BLOCK_NUM_FOR_DECODE_WHEN_SCHEDULE_NEW_PREFILL
+        )  # int
+        self.current_reserve_output_block_num = self.init_reserve_output_block_num
+        self.current_reserve_output_block_num_float = self.init_reserve_output_block_num
+        self.can_relax_prefill_strategy = True
+
     def allocated_slots(self, request: Request):
         return len(request.block_tables) * self.config.cache_config.block_size
 
@@ -293,6 +306,9 @@ def _trigger_preempt(self, request, num_new_blocks, preempted_reqs, scheduled_re
                 # The request can be scheduled.
                 can_schedule = True
                 break
+        self.current_reserve_output_block_num = self.init_reserve_output_block_num
+        self.current_reserve_output_block_num_float = self.init_reserve_output_block_num
+        self.can_relax_prefill_strategy = False
         return can_schedule
 
     def _update_mm_hashes(self, request):
@@ -526,6 +542,19 @@ def cache_output_tokens(self, request):
                     request, self.config.cache_config.block_size, request.num_total_tokens - 1
                 )
 
+    def _get_can_schedule_prefill_threshold_block(self, request, num_chunk_new_block):
+        if self.can_relax_prefill_strategy:
+            can_schedule_block_num_threshold = num_chunk_new_block
+        else:
+            can_schedule_block_num_threshold = (
+                request.need_prefill_tokens + self.config.cache_config.block_size - 1
+            ) // self.config.cache_config.block_size + len(self.running) * self.current_reserve_output_block_num
+            if self.config.speculative_config.method is not None:
+                can_schedule_block_num_threshold = min(
+                    can_schedule_block_num_threshold + 1, self.config.cache_config.max_block_num_per_seq
+                )
+        return can_schedule_block_num_threshold
+
     def schedule(self):
         """
         Try to pull a batch of requests from the waiting queue and schedule them.
@@ -706,8 +735,11 @@ def _allocate_decode_and_extend():
 
                         num_new_tokens = self._get_num_new_tokens(request, token_budget)
                         num_new_block = self.get_new_block_nums(request, num_new_tokens)
+                        can_schedule_block_num_threshold = self._get_can_schedule_prefill_threshold_block(
+                            request, num_new_block
+                        )
                         # Allocate blocks to prefill
-                        if self.cache_manager.can_allocate_gpu_blocks(num_new_block):
+                        if self.cache_manager.can_allocate_gpu_blocks(can_schedule_block_num_threshold):
                             if not request.get("skip_allocate", False):
                                 request.block_tables.extend(self.cache_manager.allocate_gpu_blocks(num_new_block))
                             self.waiting.popleft()
@@ -751,8 +783,11 @@ def _allocate_decode_and_extend():
                                 break
                         num_new_tokens = self._get_num_new_tokens(request, token_budget)
                         num_new_block = self.get_new_block_nums(request, num_new_tokens)
+                        can_schedule_block_num_threshold = self._get_can_schedule_prefill_threshold_block(
+                            request, num_new_block
+                        )
                         # Allocate blocks to prefill
-                        if self.cache_manager.can_allocate_gpu_blocks(num_new_block):
+                        if self.cache_manager.can_allocate_gpu_blocks(can_schedule_block_num_threshold):
                             if not request.get("skip_allocate", False):
                                 request.block_tables.extend(self.cache_manager.allocate_gpu_blocks(num_new_block))
                             self.waiting.popleft()
@@ -778,7 +813,14 @@ def _allocate_decode_and_extend():
 
             if scheduled_reqs:
                 llm_logger.debug(f"schedued_reqs: {scheduled_reqs}")
-
+                self.current_reserve_output_block_num_float -= self.decay_output_block_num
+                self.current_reserve_output_block_num = max(
+                    int(self.current_reserve_output_block_num_float),
+                    self.min_reserve_output_block_num,
+                    0,
+                )
+                if self.current_reserve_output_block_num == 0:
+                    self.can_relax_prefill_strategy = True
             self.update_metrics()
 
             return scheduled_reqs, error_reqs
diff --git a/fastdeploy/envs.py b/fastdeploy/envs.py
index cf3fe0a6f53..7abbfd83ca2 100644
--- a/fastdeploy/envs.py
+++ b/fastdeploy/envs.py
@@ -151,6 +151,16 @@
     # "Number of tokens in the group for Mixture of Experts (MoE) computation processing on HPU"
     "FD_HPU_CHUNK_SIZE": lambda: int(os.getenv("FD_HPU_CHUNK_SIZE", "64")),
     "FD_PREFILL_WAIT_DECODE_RESOURCE_SECONDS": lambda: int(os.getenv("FD_PREFILL_WAIT_DECODE_RESOURCE_SECONDS", "30")),
+    # Reserve output blocks for decoding requests when schedule new prefill requests
+    "FD_RESERVE_OUTPUT_BLOCK_NUM_FOR_DECODE_WHEN_SCHEDULE_NEW_PREFILL": lambda: int(
+        os.getenv("FD_RESERVE_OUTPUT_BLOCK_NUM_FOR_DECODE_WHEN_SCHEDULE_NEW_PREFILL", "16")
+    ),
+    "FD_RESERVE_DECAY_OUTPUT_BLOCK_NUM_FOR_DECODE_WHEN_SCHEDULE_NEW_PREFILL": lambda: float(
+        os.getenv("FD_RESERVE_DECAY_OUTPUT_BLOCK_NUM_FOR_DECODE_WHEN_SCHEDULE_NEW_PREFILL", "0.025")
+    ),
+    "FD_RESERVE_MIN_OUTPUT_BLOCK_NUM_FOR_DECODE_WHEN_SCHEDULE_NEW_PREFILL": lambda: int(
+        os.getenv("FD_RESERVE_MIN_OUTPUT_BLOCK_NUM_FOR_DECODE_WHEN_SCHEDULE_NEW_PREFILL", "0")
+    ),
     "GLOBAL_LOGGING_INSTRUMENT": lambda: int(os.getenv("GLOBAL_LOGGING_INSTRUMENT", "0")),
     # Timeout for worker process health check in seconds
     "FD_WORKER_ALIVE_TIMEOUT": lambda: int(os.getenv("FD_WORKER_ALIVE_TIMEOUT", "30")),

From d05f5f087732ae28d0323cf608dedd53d766cb02 Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Thu, 8 Jan 2026 14:21:33 +0800
Subject: [PATCH 089/161] [Cherry-Pick][Bugfix] Fix mtp logprob hang problem
 when include stop_seq (#5927) (#5928)

* fix mtp logprob hang when include stop_seq
---
 .../speculate_decoding/speculate_save_output_with_topk.cc  | 7 +++++--
 fastdeploy/model_executor/layers/sample/sampler.py         | 4 ++--
 2 files changed, 7 insertions(+), 4 deletions(-)

diff --git a/custom_ops/gpu_ops/speculate_decoding/speculate_save_output_with_topk.cc b/custom_ops/gpu_ops/speculate_decoding/speculate_save_output_with_topk.cc
index 4e547d29776..9ef563c62ca 100644
--- a/custom_ops/gpu_ops/speculate_decoding/speculate_save_output_with_topk.cc
+++ b/custom_ops/gpu_ops/speculate_decoding/speculate_save_output_with_topk.cc
@@ -54,6 +54,10 @@ void SpeculateSaveOutMmsgTopK(const paddle::Tensor& sampled_token_ids,
   if (!save_each_rank && rank_id > 0) {
     return;
   }
+
+  int max_draft_tokens = sampled_token_ids.shape()[1];
+  int bsz = token_num_per_batch.shape()[0];
+
   auto sampled_token_ids_cpu =
       sampled_token_ids.copy_to(paddle::CPUPlace(), false);
   auto logprob_token_ids_cpu =
@@ -128,7 +132,6 @@ void SpeculateSaveOutMmsgTopK(const paddle::Tensor& sampled_token_ids,
   msg_sed.meta[0] = not_need_stop.data<bool>()[0] ? inference_msg_id_from_env
                                                   : -inference_msg_id_from_env;
   msg_sed.meta[1] = message_flag;
-  int bsz = token_num_per_batch.shape()[0];
   msg_sed.meta[2] = bsz;
   int max_num_logprobs = logprob_token_ids.shape()[1];
   for (int i = 0; i < bsz; i++) {
@@ -146,7 +149,7 @@ void SpeculateSaveOutMmsgTopK(const paddle::Tensor& sampled_token_ids,
       auto* cur_scores = &cur_batch_msg_sed->scores[j * (K + 1)];
       for (int k = 0; k < K + 1; k++) {
         if (k == 0) {
-          cur_tokens[k] = (int)sampled_token_ids_data[token_offset + j];
+          cur_tokens[k] = (int)sampled_token_ids_data[i * max_draft_tokens + j];
           cur_scores[k] = logprob_scores_data[(token_offset + j) * (K + 1) + k];
         } else if (k < max_num_logprobs) {
           cur_tokens[k] =
diff --git a/fastdeploy/model_executor/layers/sample/sampler.py b/fastdeploy/model_executor/layers/sample/sampler.py
index afc8b725ce4..84abe02d45b 100644
--- a/fastdeploy/model_executor/layers/sample/sampler.py
+++ b/fastdeploy/model_executor/layers/sample/sampler.py
@@ -839,15 +839,15 @@ def forward_cuda(
                 raw_logprobs = target_logits.clone()
 
         logprobs_tensors = None
-        token_ids = share_inputs["accept_tokens"]
         if num_logprobs is not None:
+            token_ids = share_inputs["accept_tokens"]
             idx = paddle.arange(share_inputs["accept_tokens"].shape[1], dtype="int32")
             mask = idx < share_inputs["accept_num"].unsqueeze(1)
             token_ids = paddle.masked_select(share_inputs["accept_tokens"], mask)
             logprobs_tensors = self.gather_logprobs(raw_logprobs, num_logprobs, token_ids=token_ids)
 
         sampler_output = SamplerOutput(
-            sampled_token_ids=token_ids,
+            sampled_token_ids=share_inputs["accept_tokens"],
             logprobs_tensors=logprobs_tensors,
             token_num_per_batch=share_inputs["accept_num"],
             cu_batch_token_offset=share_inputs["cu_batch_token_offset"],

From 9e542e89278652eeb7df6ab6a7215b98b98ce500 Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Thu, 8 Jan 2026 14:34:20 +0800
Subject: [PATCH 090/161] [CI] Lock paddlepaddle-gpu/paddlepaddle-xpu==3.3.0 in
 release/2.4 (#5944)

---
 .github/workflows/_accuracy_test.yml      | 2 +-
 .github/workflows/_base_test.yml          | 2 +-
 .github/workflows/_build_linux.yml        | 2 +-
 .github/workflows/_logprob_test_linux.yml | 2 +-
 .github/workflows/_pre_ce_test.yml        | 2 +-
 .github/workflows/_stable_test.yml        | 2 +-
 .github/workflows/_unit_test_coverage.yml | 2 +-
 scripts/run_xpu_ci_pytest.sh              | 2 +-
 8 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/.github/workflows/_accuracy_test.yml b/.github/workflows/_accuracy_test.yml
index 4efb008da17..832d6f266a4 100644
--- a/.github/workflows/_accuracy_test.yml
+++ b/.github/workflows/_accuracy_test.yml
@@ -161,7 +161,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_base_test.yml b/.github/workflows/_base_test.yml
index b9299eb0af4..56808b9fd49 100644
--- a/.github/workflows/_base_test.yml
+++ b/.github/workflows/_base_test.yml
@@ -186,7 +186,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_build_linux.yml b/.github/workflows/_build_linux.yml
index 58775271d92..32c689d1ada 100644
--- a/.github/workflows/_build_linux.yml
+++ b/.github/workflows/_build_linux.yml
@@ -173,7 +173,7 @@ jobs:
             elif [[ "${PADDLEVERSION}" != "" ]];then
               python -m pip install paddlepaddle-gpu==${PADDLEVERSION} -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             else
-              python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
+              python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             fi
 
             pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
diff --git a/.github/workflows/_logprob_test_linux.yml b/.github/workflows/_logprob_test_linux.yml
index ca2c2ba1178..fd71f57c350 100644
--- a/.github/workflows/_logprob_test_linux.yml
+++ b/.github/workflows/_logprob_test_linux.yml
@@ -156,7 +156,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_pre_ce_test.yml b/.github/workflows/_pre_ce_test.yml
index 70a01aa7d98..768d73b1c85 100644
--- a/.github/workflows/_pre_ce_test.yml
+++ b/.github/workflows/_pre_ce_test.yml
@@ -172,7 +172,7 @@ jobs:
           --gpus "\"device=${DEVICES}\"" ${docker_image} /bin/bash -c '
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
-          python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
           python -m pip install ${fd_wheel_url}
           bash scripts/run_pre_ce.sh
           '
diff --git a/.github/workflows/_stable_test.yml b/.github/workflows/_stable_test.yml
index ebf8297ed86..175f6288d76 100644
--- a/.github/workflows/_stable_test.yml
+++ b/.github/workflows/_stable_test.yml
@@ -164,7 +164,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_unit_test_coverage.yml b/.github/workflows/_unit_test_coverage.yml
index beb07739c5d..92843fd15bf 100644
--- a/.github/workflows/_unit_test_coverage.yml
+++ b/.github/workflows/_unit_test_coverage.yml
@@ -203,7 +203,7 @@ jobs:
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
           git diff origin/${BASE_REF}..HEAD --unified=0 > diff.txt
-          python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
           pip config set global.extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
           python -m pip install -r scripts/unittest_requirement.txt
diff --git a/scripts/run_xpu_ci_pytest.sh b/scripts/run_xpu_ci_pytest.sh
index f57e096f71e..f5053988eb3 100644
--- a/scripts/run_xpu_ci_pytest.sh
+++ b/scripts/run_xpu_ci_pytest.sh
@@ -74,7 +74,7 @@ python -m pip uninstall fastdeploy-xpu -y
 
 # 安装PaddlePaddle Release分支安装对应的paddle
 echo "安装release分支PaddlePaddle..."
-python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Xpu-P800-SelfBuiltPypiUse/latest/paddlepaddle_xpu-0.0.0-cp310-cp310-linux_x86_64.whl
+python -m pip install paddlepaddle-xpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
 
 # ============ 编译项目 ============
 

From 16645c671cb491fd97e8b5f538389f5936fe9961 Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Thu, 8 Jan 2026 14:35:19 +0800
Subject: [PATCH 091/161] [BugFix] fix xpu import set_data_ipc (#5945)

---
 fastdeploy/spec_decode/mtp.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index 02a2bbc47d1..fcdc9c6efa3 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -47,6 +47,7 @@
         eagle_get_self_hidden_states,
         mtp_save_first_token,
         mtp_step_paddle,
+        set_data_ipc,
         share_external_data,
     )
     from fastdeploy.model_executor.xpu_pre_and_post_process import (

From 8049a4982e0b49162ccbef41ac759ffef0635322 Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Thu, 8 Jan 2026 20:57:45 +0800
Subject: [PATCH 092/161] [Cherry-Pick][Bugfix] Fix entropy calculation bugs
 (#5941) (#5942)

* fix entropy bug
---
 fastdeploy/model_executor/entropy_utils.py | 27 +++++------
 fastdeploy/worker/gpu_model_runner.py      |  3 +-
 tests/model_executor/test_entropy_utils.py | 56 ++++++++++++++++++++++
 3 files changed, 70 insertions(+), 16 deletions(-)

diff --git a/fastdeploy/model_executor/entropy_utils.py b/fastdeploy/model_executor/entropy_utils.py
index 2794e5b722b..21d1b3421e9 100644
--- a/fastdeploy/model_executor/entropy_utils.py
+++ b/fastdeploy/model_executor/entropy_utils.py
@@ -19,6 +19,19 @@
 from fastdeploy.utils import data_processor_logger
 
 
+def get_entropy(logits):
+    # Check for -inf values in logits
+    if paddle.any(paddle.isinf(logits) & (logits < 0)):
+        data_processor_logger.debug("Detected -inf values in logits, clipping to minimum value")
+        logits = paddle.clip(logits, min=1e-9)
+
+    a0 = logits - paddle.max(logits, axis=-1, keepdim=True)
+    ea0 = paddle.exp(a0)
+    z0 = paddle.sum(ea0, axis=-1, keepdim=True)
+    p0 = ea0 / z0
+    return paddle.sum(p0 * (paddle.log(z0) - a0), axis=-1)
+
+
 def calculate_logits_entropy(logits, share_inputs, temperature):
     real_bsz = share_inputs["seq_lens_this_time"].shape[0]
     real_seq_lens = paddle.where(
@@ -27,13 +40,6 @@ def calculate_logits_entropy(logits, share_inputs, temperature):
         share_inputs["seq_lens_this_time"].squeeze(1),
     )
 
-    def get_entropy(logits):
-        a0 = logits - paddle.max(logits, axis=-1, keepdim=True)
-        ea0 = paddle.exp(a0)
-        z0 = paddle.sum(ea0, axis=-1, keepdim=True)
-        p0 = ea0 / z0
-        return paddle.sum(p0 * (paddle.log(z0) - a0), axis=-1)
-
     batch_indices = paddle.arange(real_bsz, dtype="int32")
     batch_id_per_token = paddle.repeat_interleave(batch_indices, real_seq_lens)
     for i in range(logits.shape[0]):
@@ -77,13 +83,6 @@ def speculate_calculate_logits_entropy(logits, share_inputs, temperature):
     for i in range(total_accepted_num):
         accepted_logits[i] = logits[accepted_idx[i]]
 
-    def get_entropy(logits):
-        a0 = logits - paddle.max(logits, axis=-1, keepdim=True)
-        ea0 = paddle.exp(a0)
-        z0 = paddle.sum(ea0, axis=-1, keepdim=True)
-        p0 = ea0 / z0
-        return paddle.sum(p0 * (paddle.log(z0) - a0), axis=-1)
-
     batch_indices = paddle.arange(share_inputs["accept_num"].shape[0], dtype="int32")
     batch_id_per_token = paddle.repeat_interleave(batch_indices, share_inputs["accept_num"])
     for i in range(accepted_logits.shape[0]):
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 494c45a9f0f..90eb3cbcf6e 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -1826,7 +1826,7 @@ def _dummy_sampler_run(
                     group=self.parallel_config.tp_group,
                 )
         else:
-            self.sampler(
+            sampler_output = self.sampler(
                 logits,
                 self.sampling_metadata,
                 self.model_config.max_model_len,
@@ -1834,7 +1834,6 @@ def _dummy_sampler_run(
                 accept_all_drafts,
                 reject_all_drafts,
             )
-            sampler_output = None
             if self.parallel_config.tensor_parallel_size > 1:
                 paddle.distributed.broadcast(
                     self.share_inputs["accept_tokens"],
diff --git a/tests/model_executor/test_entropy_utils.py b/tests/model_executor/test_entropy_utils.py
index 18fd8b1a8b4..c5df901485c 100644
--- a/tests/model_executor/test_entropy_utils.py
+++ b/tests/model_executor/test_entropy_utils.py
@@ -107,6 +107,34 @@ def test_entropy_list_clear(self):
 
         self.assertAlmostEqual(share_inputs["entropy_list"][2][0], 0.0003187173861078918, places=6)
 
+    def test_negative_inf_clip(self):
+        share_inputs = {
+            "seq_lens_this_time": paddle.to_tensor([[1], [0], [15]], dtype="int32"),
+            "seq_lens_encoder": paddle.to_tensor([[0], [0], [15]], dtype="int32"),
+            "seq_lens_decoder": paddle.to_tensor([[30], [0], [15]], dtype="int32"),
+            "entropy_list": [[], [], []],
+            "stop_flags": paddle.to_tensor([[False], [True], [False]], dtype="bool"),
+            "req_ids": ["req_1", "req_2", "req_3"],
+        }
+
+        logits = paddle.to_tensor(
+            [
+                [10.0, 1.0, -float("inf")],
+                [1.0, 1.0, -float("inf")],
+            ],
+            dtype="float32",
+        )
+        temperature = paddle.ones([3], dtype="float32")
+
+        calculate_logits_entropy(logits, share_inputs, temperature)
+
+        self.assertEqual(len(share_inputs["entropy_list"][0]), 1)
+        self.assertEqual(len(share_inputs["entropy_list"][1]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][2]), 1)
+
+        self.assertAlmostEqual(share_inputs["entropy_list"][0][0], 0.0017332095885649323, places=6)
+        self.assertAlmostEqual(share_inputs["entropy_list"][2][0], 1.017357349395752, places=6)
+
 
 class TestSpeculateCalculateLogitsEntropy(unittest.TestCase):
 
@@ -207,6 +235,34 @@ def test_entropy_list_clear(self):
 
         self.assertAlmostEqual(share_inputs["entropy_list"][1][0], 0.0024676250759512186, places=6)
 
+    def test_negative_inf_clip(self):
+        share_inputs = {
+            "seq_lens_this_time": paddle.to_tensor([[1], [0], [15]], dtype="int32"),
+            "seq_lens_encoder": paddle.to_tensor([[0], [0], [15]], dtype="int32"),
+            "seq_lens_decoder": paddle.to_tensor([[30], [0], [15]], dtype="int32"),
+            "entropy_list": [[], [], []],
+            "stop_flags": paddle.to_tensor([[False], [True], [False]], dtype="bool"),
+            "req_ids": ["req_1", "req_2", "req_3"],
+        }
+
+        logits = paddle.to_tensor(
+            [
+                [10.0, 1.0, -float("inf")],
+                [1.0, 1.0, -float("inf")],
+            ],
+            dtype="float32",
+        )
+        temperature = paddle.ones([3], dtype="float32")
+
+        calculate_logits_entropy(logits, share_inputs, temperature)
+
+        self.assertEqual(len(share_inputs["entropy_list"][0]), 1)
+        self.assertEqual(len(share_inputs["entropy_list"][1]), 0)
+        self.assertEqual(len(share_inputs["entropy_list"][2]), 1)
+
+        self.assertAlmostEqual(share_inputs["entropy_list"][0][0], 0.0017332095885649323, places=6)
+        self.assertAlmostEqual(share_inputs["entropy_list"][2][0], 1.017357349395752, places=6)
+
 
 if __name__ == "__main__":
     unittest.main()

From 37bed64282da3d0253ffb81c86027c130b1b2493 Mon Sep 17 00:00:00 2001
From: Copilot <198982749+Copilot@users.noreply.github.com>
Date: Fri, 9 Jan 2026 10:12:55 +0800
Subject: [PATCH 093/161] [Cherry-Pick][BugFix] Fix misleading logging in
 worker_process for request counting (#5939) (#5953)

* Initial plan

* [Cherry-Pick] Fix misleading logging in worker_process for request counting (PR #5939)

Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>

* Fix code style: remove unused req_ids variable

Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>

---------

Co-authored-by: copilot-swe-agent[bot] <198982749+Copilot@users.noreply.github.com>
Co-authored-by: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>
---
 fastdeploy/worker/worker_process.py | 21 +++++++++++++--------
 1 file changed, 13 insertions(+), 8 deletions(-)

diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 2072556a9f7..4048286f996 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -42,6 +42,7 @@
     SpeculativeConfig,
     StructuredOutputsConfig,
 )
+from fastdeploy.engine.request import RequestType
 from fastdeploy.eplb.async_expert_loader import (
     MODEL_MAIN_NAME,
     REARRANGE_EXPERT_MAGIC_NUM,
@@ -415,8 +416,7 @@ def event_loop_normal(self) -> None:
         tp_size = self.parallel_config.tensor_parallel_size
         # Currently, only support single node
         self.nnode = int((tp_size + 7) // 8)
-        req_ids = []
-        num_running_requests = 0
+        max_occupied_batch_index = 0
         tp_rank = self.local_rank % tp_size
 
         # TODO: Unify status variables model_weights_status (shared memory) and model_weights_signal (numpy array) to one
@@ -492,17 +492,22 @@ def event_loop_normal(self) -> None:
 
                 req_dicts = []
                 for req_dict, bsz in tasks:
-                    num_running_requests = int(bsz)
+                    max_occupied_batch_index = int(bsz)
                     req_dicts.extend(req_dict)
 
-                req_ids = [req.request_id for req in req_dicts]
+                # Count prefill requests in current batch
+                num_prefill_requests = sum(1 for req in req_dicts if req.task_type == RequestType.PREFILL)
+                num_scheduled_requests = len(req_dicts)
+                scheduled_request_ids = [req.request_id for req in req_dicts]
                 logger.info(
-                    f"Rank: {self.local_rank}, num_running_requests: {num_running_requests}, "
-                    f"num_insert_requests: {len(req_dicts)}, req_ids: {req_ids}"
+                    f"Rank: {self.local_rank}, num_prefill_requests: {num_prefill_requests}, "
+                    f"max_occupied_batch_index: {max_occupied_batch_index}, "
+                    f"num_scheduled_requests: {num_scheduled_requests}, "
+                    f"scheduled_request_ids: {scheduled_request_ids}"
                 )
 
                 # Process prefill inputs
-                self.worker.preprocess_new_task(req_dicts, num_running_requests)
+                self.worker.preprocess_new_task(req_dicts, max_occupied_batch_index)
 
             if (not self.parallel_config.use_ep) and (not self.worker.model_runner.not_need_stop()):
                 if self.ranks > 1:
@@ -514,7 +519,7 @@ def event_loop_normal(self) -> None:
             # Execute model to generate token. The generated token will be written to the buffer.
             # These generated tokens can be obtained through get_output op.
             start_execute_time = time.time()
-            self.worker.execute_model(req_dicts, num_running_requests)
+            self.worker.execute_model(req_dicts, max_occupied_batch_index)
             self.exist_prefill_task_signal.value[0] = self.worker.exist_prefill()
             logger.debug(f"execute model cost: {time.time()-start_execute_time:.5f} s")
 

From 741a01562ba5977ead53b970111e67c3578d72ea Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Fri, 9 Jan 2026 11:25:56 +0800
Subject: [PATCH 094/161] [BugFix][Cherry-Pick] cp fix dyc8 cache bug(#5958)
 (#5959)

* cp fix dyc8 cache bug

* udpate code
---
 .../cache_manager/prefix_cache_manager.py     |  4 ++
 .../engine/sched/resource_manager_v1.py       | 42 ++++++++++++------
 fastdeploy/multimodal/hasher.py               |  6 ---
 tests/v1/test_resource_manager_v1.py          | 43 ++++++++++---------
 4 files changed, 56 insertions(+), 39 deletions(-)

diff --git a/fastdeploy/cache_manager/prefix_cache_manager.py b/fastdeploy/cache_manager/prefix_cache_manager.py
index ab6ec98d543..8e366992fba 100644
--- a/fastdeploy/cache_manager/prefix_cache_manager.py
+++ b/fastdeploy/cache_manager/prefix_cache_manager.py
@@ -687,6 +687,8 @@ def request_match_blocks(self, task, block_size, *args):
                     "cpu_cache_blocks": 0,
                     "gpu_match_token_num": 0,
                     "cpu_match_token_num": 0,
+                    "match_gpu_block_ids": [],
+                    "match_cpu_block_ids": [],
                 }
                 self.metrics.req_count += 1
                 if isinstance(task.prompt_token_ids, np.ndarray):
@@ -745,6 +747,8 @@ def request_match_blocks(self, task, block_size, *args):
                 hit_info["cpu_cache_blocks"] = len(match_cpu_block_ids)
                 hit_info["gpu_match_token_num"] = gpu_match_token_num
                 hit_info["cpu_match_token_num"] = cpu_match_token_num
+                hit_info["match_gpu_block_ids"] = match_gpu_block_ids
+                hit_info["match_cpu_block_ids"] = match_cpu_block_ids
                 self.metrics._update_history_hit_metrics()
                 if self.metrics.req_count % 10000 == 0:
                     self.metrics.reset_metrics()
diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index 85eb06a3169..79671a98c6b 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -376,11 +376,17 @@ def revert_chunked_mm_input(self, mm_inputs, matched_token_num):
         if mm_inputs is None or "mm_positions" not in mm_inputs or len(mm_inputs["mm_positions"]) == 0:
             return matched_token_num
 
-        for idx in range(len(mm_inputs["mm_positions"])):
-            position = mm_inputs["mm_positions"][idx]
+        position_idx = len(mm_inputs["mm_positions"]) - 1
+        while matched_token_num > 0 and position_idx >= 0:
+            position = mm_inputs["mm_positions"][position_idx]
             if position.offset < matched_token_num < position.offset + position.length:
-                return position.offset
+                matched_token_num = (
+                    position.offset // self.config.cache_config.block_size
+                ) * self.config.cache_config.block_size
+                position_idx -= 1
             elif matched_token_num < position.offset:
+                position_idx -= 1
+            elif matched_token_num >= position.offset + position.length:
                 break
         return matched_token_num
 
@@ -950,17 +956,9 @@ def get_prefix_cached_blocks(self, request: Request):
             )
 
             request.num_cached_tokens = matched_token_num
-            request.gpu_cache_token_num = hit_info["gpu_match_token_num"]
-            request.cpu_cache_token_num = hit_info["cpu_match_token_num"]
             request.cache_info = (matched_block_num, no_cache_block_num)
             request.block_tables = common_block_ids
             request.skip_allocate = False
-
-            # Report the number of cached tokens to Prometheus metrics
-            main_process_metrics.prefix_cache_token_num.inc(matched_token_num)
-            main_process_metrics.prefix_gpu_cache_token_num.inc(request.gpu_cache_token_num)
-            main_process_metrics.prefix_cpu_cache_token_num.inc(request.cpu_cache_token_num)
-
             if self.config.cache_config.disable_chunked_mm_input:
                 if matched_token_num == request.need_prefill_tokens:
                     matched_token_num = matched_token_num - self.config.cache_config.block_size
@@ -974,7 +972,27 @@ def get_prefix_cached_blocks(self, request: Request):
                     request.skip_allocate = True
                 else:
                     request.num_computed_tokens = matched_token_num
-            llm_logger.info(f"request {request.request_id} num_computed_tokens: {request.num_computed_tokens}")
+
+            if request.num_cached_tokens != request.num_computed_tokens:
+                revert_tokens_num = request.num_cached_tokens - request.num_computed_tokens
+                llm_logger.info(
+                    f"request {request.request_id} num_cached_tokens: {request.num_cached_tokens}, revert_tokens_num: {revert_tokens_num}"
+                )
+
+                revert_block_idx = revert_tokens_num // self.config.cache_config.block_size
+                for block_idx in range(len(common_block_ids) - 1, revert_block_idx, -1):
+                    if common_block_ids[block_idx] in hit_info["match_gpu_block_ids"]:
+                        hit_info["gpu_match_token_num"] -= self.config.cache_config.block_size
+                    elif common_block_ids[block_idx] in hit_info["match_cpu_block_ids"]:
+                        hit_info["cpu_match_token_num"] -= self.config.cache_config.block_size
+
+            request.gpu_cache_token_num = hit_info["gpu_match_token_num"]
+            request.cpu_cache_token_num = hit_info["cpu_match_token_num"]
+
+            # Report the number of cached tokens to Prometheus metrics
+            main_process_metrics.prefix_cache_token_num.inc(request.num_computed_tokens)
+            main_process_metrics.prefix_gpu_cache_token_num.inc(request.gpu_cache_token_num)
+            main_process_metrics.prefix_cpu_cache_token_num.inc(request.cpu_cache_token_num)
             request.cache_prepare_time = time.time() - cache_prepare_time
             return True
         except Exception as e:
diff --git a/fastdeploy/multimodal/hasher.py b/fastdeploy/multimodal/hasher.py
index 1f2d01f8cf1..6d2fc4f9b91 100644
--- a/fastdeploy/multimodal/hasher.py
+++ b/fastdeploy/multimodal/hasher.py
@@ -19,8 +19,6 @@
 
 import numpy as np
 
-from fastdeploy.utils import data_processor_logger
-
 
 class MultimodalHasher:
 
@@ -28,8 +26,4 @@ class MultimodalHasher:
     def hash_features(cls, obj: object) -> str:
         if isinstance(obj, np.ndarray):
             return hashlib.sha256((obj.tobytes())).hexdigest()
-
-        data_processor_logger.warning(
-            f"Unsupported type for hashing features: {type(obj)}" + ", use pickle for serialization"
-        )
         return hashlib.sha256((pickle.dumps(obj))).hexdigest()
diff --git a/tests/v1/test_resource_manager_v1.py b/tests/v1/test_resource_manager_v1.py
index 6d00e6d3d9d..5d7510486f9 100644
--- a/tests/v1/test_resource_manager_v1.py
+++ b/tests/v1/test_resource_manager_v1.py
@@ -190,6 +190,7 @@ def setUp(self):
         model_cfg.max_model_len = 5120
         model_cfg.architectures = ["test_model"]
         cache_cfg.bytes_per_layer_per_block = 1
+        cache_cfg.block_size = 64
         parallel_cfg = ParallelConfig(args)
         scheduler_cfg = SchedulerConfig(args)
         graph_opt_cfg = engine_args.create_graph_optimization_config()
@@ -214,58 +215,58 @@ def setUp(self):
         self.request.multimodal_inputs = {}
 
     def test_revert_chunked_mm_input_none_input(self):
-        result = self.manager.revert_chunked_mm_input(None, 10)
-        self.assertEqual(result, 10)
+        result = self.manager.revert_chunked_mm_input(None, 64)
+        self.assertEqual(result, 64)
 
     def test_revert_chunked_mm_input_no_mm_positions(self):
         mm_inputs = {"other_field": "value"}
-        result = self.manager.revert_chunked_mm_input(mm_inputs, 10)
-        self.assertEqual(result, 10)
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 128)
+        self.assertEqual(result, 128)
 
     def test_revert_chunked_mm_input_empty_positions(self):
         mm_inputs = {"mm_positions": []}
-        result = self.manager.revert_chunked_mm_input(mm_inputs, 10)
-        self.assertEqual(result, 10)
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 128)
+        self.assertEqual(result, 128)
 
     def test_revert_chunked_mm_input_matched_in_chunk(self):
         mm_inputs = {
             "mm_positions": [
-                ImagePosition(offset=5, length=10),
-                ImagePosition(offset=20, length=10),
+                ImagePosition(offset=40, length=100),
+                ImagePosition(offset=200, length=80),
             ]
         }
-        result = self.manager.revert_chunked_mm_input(mm_inputs, 8)
-        self.assertEqual(result, 5)
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 256)
+        self.assertEqual(result, 192)
 
     def test_revert_chunked_mm_input_matched_in_second_chunk(self):
         mm_inputs = {
             "mm_positions": [
-                ImagePosition(offset=5, length=10),
-                ImagePosition(offset=20, length=10),
+                ImagePosition(offset=100, length=100),
+                ImagePosition(offset=200, length=80),
             ]
         }
-        result = self.manager.revert_chunked_mm_input(mm_inputs, 25)
-        self.assertEqual(result, 20)
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 256)
+        self.assertEqual(result, 64)
 
     def test_revert_chunked_mm_input_before_first_chunk(self):
         mm_inputs = {
             "mm_positions": [
-                ImagePosition(offset=5, length=10),
-                ImagePosition(offset=20, length=10),
+                ImagePosition(offset=60, length=100),
+                ImagePosition(offset=180, length=100),
             ]
         }
-        result = self.manager.revert_chunked_mm_input(mm_inputs, 3)
-        self.assertEqual(result, 3)
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 256)
+        self.assertEqual(result, 0)
 
     def test_revert_chunked_mm_input_after_last_chunk(self):
         mm_inputs = {
             "mm_positions": [
                 ImagePosition(offset=5, length=10),
-                ImagePosition(offset=20, length=10),
+                ImagePosition(offset=200, length=56),
             ]
         }
-        result = self.manager.revert_chunked_mm_input(mm_inputs, 35)
-        self.assertEqual(result, 35)
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 256)
+        self.assertEqual(result, 256)
 
 
 if __name__ == "__main__":

From f12b7a7a195ed89bc0ffcb90d3a2cdcd360a2704 Mon Sep 17 00:00:00 2001
From: xiaoluomi <49263480+xiaoluomi@users.noreply.github.com>
Date: Fri, 9 Jan 2026 11:29:59 +0800
Subject: [PATCH 095/161] support_lastnorm_gather_split_r2.4 (#5925)

* support_lastnorm_gather_split_r2.4

* support_lastnorm_gather_split_r2.4v1

* support_lastnorm_gather_split_r2.4v2
---
 fastdeploy/model_executor/layers/normalization.py         | 4 ++--
 fastdeploy/model_executor/models/deepseek_v3.py           | 3 +++
 fastdeploy/model_executor/models/ernie4_5_moe.py          | 3 +++
 fastdeploy/model_executor/models/ernie4_5_mtp.py          | 7 +++++--
 .../model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py  | 4 ++++
 fastdeploy/model_executor/models/glm4_moe.py              | 3 +++
 fastdeploy/model_executor/models/gpt_oss.py               | 8 ++++++--
 fastdeploy/model_executor/models/qwen3moe.py              | 3 +++
 fastdeploy/spec_decode/mtp.py                             | 4 ++--
 9 files changed, 31 insertions(+), 8 deletions(-)

diff --git a/fastdeploy/model_executor/layers/normalization.py b/fastdeploy/model_executor/layers/normalization.py
index 1e37d73bd09..a66172fc1b5 100644
--- a/fastdeploy/model_executor/layers/normalization.py
+++ b/fastdeploy/model_executor/layers/normalization.py
@@ -105,14 +105,14 @@ def __init__(
         self.tp_rank = self.fd_config.parallel_config.tensor_parallel_rank
         self.tp_group = self.fd_config.parallel_config.tp_group
         is_input_norm = prefix.endswith(".input_layernorm")
-        is_last_norm = prefix.endswith(".norm")
+        self.is_last_norm = prefix.endswith(".norm")
         self.split_x = (
             self.fd_config.parallel_config.use_sequence_parallel_moe
             and self.layer_id == self.fd_config.model_config.moe_layer_start_index
             and is_input_norm
         )
         self.allgather_out = self.fd_config.parallel_config.use_sequence_parallel_moe and (
-            (self.layer_id > self.fd_config.model_config.moe_layer_start_index and is_input_norm) or is_last_norm
+            (self.layer_id > self.fd_config.model_config.moe_layer_start_index and is_input_norm)
         )
 
         self.init_weight()
diff --git a/fastdeploy/model_executor/models/deepseek_v3.py b/fastdeploy/model_executor/models/deepseek_v3.py
index 573b62d822b..aa07467e566 100644
--- a/fastdeploy/model_executor/models/deepseek_v3.py
+++ b/fastdeploy/model_executor/models/deepseek_v3.py
@@ -594,6 +594,9 @@ def forward(
             )
         out = self.norm(hidden_states, residual, forward_meta=forward_meta)[0]
 
+        if self.norm.is_last_norm and self.norm.fd_config.parallel_config.use_sequence_parallel_moe:
+            out = self.norm.allgather(out, forward_meta.ids_remove_padding.shape[0])
+
         return out
 
 
diff --git a/fastdeploy/model_executor/models/ernie4_5_moe.py b/fastdeploy/model_executor/models/ernie4_5_moe.py
index 7f0b0f106a5..15df90dd3f0 100644
--- a/fastdeploy/model_executor/models/ernie4_5_moe.py
+++ b/fastdeploy/model_executor/models/ernie4_5_moe.py
@@ -459,6 +459,9 @@ def forward(
 
         out = self.norm(hidden_states, residual, forward_meta=forward_meta)[0]
 
+        if self.norm.is_last_norm and self.norm.fd_config.parallel_config.use_sequence_parallel_moe:
+            out = self.norm.allgather(out, forward_meta.ids_remove_padding.shape[0])
+
         if current_platform.is_iluvatar() and forward_meta.attn_backend.mixed:
             out = forward_meta.attn_backend.reverse_transpose(out)
 
diff --git a/fastdeploy/model_executor/models/ernie4_5_mtp.py b/fastdeploy/model_executor/models/ernie4_5_mtp.py
index 13203684d53..40cfe0b170e 100644
--- a/fastdeploy/model_executor/models/ernie4_5_mtp.py
+++ b/fastdeploy/model_executor/models/ernie4_5_mtp.py
@@ -325,7 +325,10 @@ def forward(
         for i in range(self.num_layers):
             hidden_states, residual = self.mtp_block[i](forward_meta, hidden_states, residual)
 
-        hidden_states = self.norm(hidden_states, residual)[0]
+        hidden_states = self.norm(hidden_states, residual, forward_meta=forward_meta)[0]
+
+        if self.norm.is_last_norm and self.norm.fd_config.parallel_config.use_sequence_parallel_moe:
+            hidden_states = self.norm.allgather(hidden_states, forward_meta.ids_remove_padding.shape[0])
 
         return hidden_states
 
@@ -396,7 +399,7 @@ def load_weights(self, weights_iterator) -> None:
             ),
         )
 
-    def compute_logits(self, hidden_states: paddle.Tensor):
+    def compute_logits(self, hidden_states: paddle.Tensor, forward_meta: ForwardMeta):
         """
         compute logits
         """
diff --git a/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py b/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
index 7e071b4287e..a0e67ee821a 100644
--- a/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
+++ b/fastdeploy/model_executor/models/ernie4_5_vl/ernie4_5_vl_moe.py
@@ -548,6 +548,10 @@ def forward(
             )
 
         out = self.norm(hidden_states, residual, forward_meta=forward_meta)[0]
+
+        if self.norm.is_last_norm and self.norm.fd_config.parallel_config.use_sequence_parallel_moe:
+            out = self.norm.allgather(out, forward_meta.ids_remove_padding.shape[0])
+
         return out
 
 
diff --git a/fastdeploy/model_executor/models/glm4_moe.py b/fastdeploy/model_executor/models/glm4_moe.py
index 78161d664bb..b0f96564cc8 100644
--- a/fastdeploy/model_executor/models/glm4_moe.py
+++ b/fastdeploy/model_executor/models/glm4_moe.py
@@ -370,6 +370,9 @@ def forward(
 
         out = self.norm(hidden_states, residual, forward_meta=forward_meta)[0]
 
+        if self.norm.is_last_norm and self.norm.fd_config.parallel_config.use_sequence_parallel_moe:
+            out = self.norm.allgather(out, forward_meta.ids_remove_padding.shape[0])
+
         return out
 
 
diff --git a/fastdeploy/model_executor/models/gpt_oss.py b/fastdeploy/model_executor/models/gpt_oss.py
index 682c9f5f1ec..60f41965cf2 100644
--- a/fastdeploy/model_executor/models/gpt_oss.py
+++ b/fastdeploy/model_executor/models/gpt_oss.py
@@ -214,8 +214,12 @@ def forward(self, ids_remove_padding: paddle.Tensor, forward_meta: ForwardMeta):
         for i in range(self.num_layers):
             hidden_states, residual = self.layers[i](forward_meta, hidden_states, residual)
 
-        hidden_states = self.norm(hidden_states, residual)[0]
-        return hidden_states
+        out = self.norm(hidden_states, residual, forward_meta=forward_meta)[0]
+
+        if self.norm.is_last_norm and self.norm.fd_config.parallel_config.use_sequence_parallel_moe:
+            out = self.norm.allgather(out, forward_meta.ids_remove_padding.shape[0])
+
+        return out
 
 
 @ModelRegistry.register_model_class(
diff --git a/fastdeploy/model_executor/models/qwen3moe.py b/fastdeploy/model_executor/models/qwen3moe.py
index e57c96f0915..8fb480e3c41 100644
--- a/fastdeploy/model_executor/models/qwen3moe.py
+++ b/fastdeploy/model_executor/models/qwen3moe.py
@@ -282,6 +282,9 @@ def forward(
 
         out = self.norm(hidden_states, residual, forward_meta=forward_meta)[0]
 
+        if self.norm.is_last_norm and self.norm.fd_config.parallel_config.use_sequence_parallel_moe:
+            out = self.norm.allgather(out, forward_meta.ids_remove_padding.shape[0])
+
         return out
 
 
diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index fcdc9c6efa3..6892996290e 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -1012,7 +1012,7 @@ def _propose_cuda(self, step_use_cudagraph: bool = False, is_dummy_run: bool = F
                 )
 
                 # 4. Compute logits, Sample
-                logits = self.model.compute_logits(hidden_states)
+                logits = self.model.compute_logits(hidden_states, forward_meta=self.forward_meta)
                 if self.enable_logprob and self.enable_draft_logprob and substep == 0:
                     first_token_logits = self.model.compute_logits(self.model_inputs["first_token_hidden_states"])
 
@@ -1125,7 +1125,7 @@ def _propose_xpu(self, step_use_cudagraph: bool = False, is_dummy_run: bool = Fa
                     model_output, self.model_inputs["cum_offsets"], self.forward_meta, self.model_inputs
                 )
                 # 4. Compute logits, Sample
-                logits = self.model.compute_logits(hidden_states)
+                logits = self.model.compute_logits(hidden_states, forward_meta=self.forward_meta)
                 sampled_token_ids, sampler_output = self.sampler(
                     logits,
                     self.sampling_metadata,

From bdaabf05a077702691535a981d56a883432a71e6 Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Fri, 9 Jan 2026 14:26:49 +0800
Subject: [PATCH 096/161] [Cherry-Pick][Speculative Decoding] Return accepted
 tokens per head in response (#5947) (#5952)

* adjust log level
* add accepted tokens per head
---
 fastdeploy/output/token_processor.py | 10 ++++++----
 fastdeploy/worker/output.py          |  5 +++++
 2 files changed, 11 insertions(+), 4 deletions(-)

diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
index fc2f6ca3c89..afc8a8b7ce0 100644
--- a/fastdeploy/output/token_processor.py
+++ b/fastdeploy/output/token_processor.py
@@ -549,15 +549,17 @@ def _compute_speculative_status(self, result: RequestOutput):
             rejected_tokens=req_rejected_tokens,
             accept_ratio=req_accept_ratio,
             average_accept_length=req_avg_accept_length,
+            accepted_tokens_per_head=accept_num_list[: self.cfg.speculative_config.num_speculative_tokens + 1],
             accept_ratio_per_head=accept_ratio_per_head[: self.cfg.speculative_config.num_speculative_tokens],
         )
 
         # Log
-        spec_logger.debug(
+        spec_logger.info(
             f"req_id: {result.request_id}, total_step: {req_total_step}, "
-            f"accept_ratio: {accept_ratio}, average_accept_lenght: {req_avg_accept_length},"
-            f"accepted_tokens: {req_accepted_tokens}, rejected_tokens: {req_rejected_tokens}"
-            f"accept_ratio_per_head: {accept_ratio_per_head}"
+            f"accept_ratio: {accept_ratio}, average_accept_length: {req_avg_accept_length}, "
+            f"accepted_tokens: {req_accepted_tokens}, rejected_tokens: {req_rejected_tokens}, "
+            f"accepted_tokens_per_head: {accept_num_list[: self.cfg.speculative_config.num_speculative_tokens + 1]}, "
+            f"accept_ratio_per_head: {accept_ratio_per_head[: self.cfg.speculative_config.num_speculative_tokens]}"
         )
 
         # Clear request record
diff --git a/fastdeploy/worker/output.py b/fastdeploy/worker/output.py
index c3a92c06a2c..fdcb291f535 100644
--- a/fastdeploy/worker/output.py
+++ b/fastdeploy/worker/output.py
@@ -154,6 +154,11 @@ class SpeculateMetrics:
     """
     average_accept_length: float
 
+    """
+    The number of accepted tokens of each head in the current request
+    """
+    accepted_tokens_per_head: list[int]
+
     """
     Average acceptance rate of each head in the current request
     """

From 3e69022698cc1532888359b25a41160911e97798 Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Fri, 9 Jan 2026 17:53:43 +0800
Subject: [PATCH 097/161] [CI] Align PaddlePaddle version to latest due to tag
 change (#5971)

---
 .github/workflows/_accuracy_test.yml      | 2 +-
 .github/workflows/_base_test.yml          | 2 +-
 .github/workflows/_build_linux.yml        | 2 +-
 .github/workflows/_logprob_test_linux.yml | 2 +-
 .github/workflows/_pre_ce_test.yml        | 2 +-
 .github/workflows/_stable_test.yml        | 2 +-
 .github/workflows/_unit_test_coverage.yml | 2 +-
 scripts/run_xpu_ci_pytest.sh              | 2 +-
 8 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/.github/workflows/_accuracy_test.yml b/.github/workflows/_accuracy_test.yml
index 832d6f266a4..a77cb6f8ffd 100644
--- a/.github/workflows/_accuracy_test.yml
+++ b/.github/workflows/_accuracy_test.yml
@@ -161,7 +161,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_base_test.yml b/.github/workflows/_base_test.yml
index 56808b9fd49..f2b93e817f2 100644
--- a/.github/workflows/_base_test.yml
+++ b/.github/workflows/_base_test.yml
@@ -186,7 +186,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_build_linux.yml b/.github/workflows/_build_linux.yml
index 32c689d1ada..394f902340b 100644
--- a/.github/workflows/_build_linux.yml
+++ b/.github/workflows/_build_linux.yml
@@ -173,7 +173,7 @@ jobs:
             elif [[ "${PADDLEVERSION}" != "" ]];then
               python -m pip install paddlepaddle-gpu==${PADDLEVERSION} -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             else
-              python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+              python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
             fi
 
             pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
diff --git a/.github/workflows/_logprob_test_linux.yml b/.github/workflows/_logprob_test_linux.yml
index fd71f57c350..be3f57928b4 100644
--- a/.github/workflows/_logprob_test_linux.yml
+++ b/.github/workflows/_logprob_test_linux.yml
@@ -156,7 +156,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_pre_ce_test.yml b/.github/workflows/_pre_ce_test.yml
index 768d73b1c85..d8c6b00c23b 100644
--- a/.github/workflows/_pre_ce_test.yml
+++ b/.github/workflows/_pre_ce_test.yml
@@ -172,7 +172,7 @@ jobs:
           --gpus "\"device=${DEVICES}\"" ${docker_image} /bin/bash -c '
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
           python -m pip install ${fd_wheel_url}
           bash scripts/run_pre_ce.sh
           '
diff --git a/.github/workflows/_stable_test.yml b/.github/workflows/_stable_test.yml
index 175f6288d76..fc47732f5a7 100644
--- a/.github/workflows/_stable_test.yml
+++ b/.github/workflows/_stable_test.yml
@@ -164,7 +164,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_unit_test_coverage.yml b/.github/workflows/_unit_test_coverage.yml
index 92843fd15bf..0761425412f 100644
--- a/.github/workflows/_unit_test_coverage.yml
+++ b/.github/workflows/_unit_test_coverage.yml
@@ -203,7 +203,7 @@ jobs:
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
           git diff origin/${BASE_REF}..HEAD --unified=0 > diff.txt
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
           pip config set global.extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
           python -m pip install -r scripts/unittest_requirement.txt
diff --git a/scripts/run_xpu_ci_pytest.sh b/scripts/run_xpu_ci_pytest.sh
index f5053988eb3..f57e096f71e 100644
--- a/scripts/run_xpu_ci_pytest.sh
+++ b/scripts/run_xpu_ci_pytest.sh
@@ -74,7 +74,7 @@ python -m pip uninstall fastdeploy-xpu -y
 
 # 安装PaddlePaddle Release分支安装对应的paddle
 echo "安装release分支PaddlePaddle..."
-python -m pip install paddlepaddle-xpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
+python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Xpu-P800-SelfBuiltPypiUse/latest/paddlepaddle_xpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
 # ============ 编译项目 ============
 

From bbe9731f464bf6a8283b30d52a997d637a717144 Mon Sep 17 00:00:00 2001
From: xiaoluomi <49263480+xiaoluomi@users.noreply.github.com>
Date: Sat, 10 Jan 2026 00:41:36 +0800
Subject: [PATCH 098/161] 2.4_fix_mtp_forward_meta (#5977)

---
 fastdeploy/spec_decode/mtp.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index 6892996290e..a5079f5e668 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -1014,7 +1014,9 @@ def _propose_cuda(self, step_use_cudagraph: bool = False, is_dummy_run: bool = F
                 # 4. Compute logits, Sample
                 logits = self.model.compute_logits(hidden_states, forward_meta=self.forward_meta)
                 if self.enable_logprob and self.enable_draft_logprob and substep == 0:
-                    first_token_logits = self.model.compute_logits(self.model_inputs["first_token_hidden_states"])
+                    first_token_logits = self.model.compute_logits(
+                        self.model_inputs["first_token_hidden_states"], forward_meta=self.forward_meta
+                    )
 
                     speculate_get_logits(
                         self.model_inputs["draft_logits"],

From 0dfba18f13cefad4bf16a88abd7d1a2c525cc2c2 Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Tue, 13 Jan 2026 11:11:12 +0800
Subject: [PATCH 099/161] [Cherry-Pick][BugFix] Fix entropy calculation issue
 in TP (#5997) #5998

---
 fastdeploy/worker/gpu_model_runner.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 90eb3cbcf6e..4e7ef91c035 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -1897,7 +1897,7 @@ def _dummy_sampler_run(
             async_output_queue=self.async_output_queue,
             think_end_id=self.model_config.think_end_id,
             line_break_id=self.model_config.line_break_id,
-            enable_entropy=self.enable_entropy,
+            enable_entropy=self.enable_entropy and self.parallel_config.tensor_parallel_rank == 0,
         )
         if self.speculative_decoding:
             if self.speculative_method == "mtp":
@@ -2300,7 +2300,7 @@ class at the server level, which is too granular for ModelRunner.
                 speculative_decoding=self.speculative_decoding,
                 skip_save_output=False,
                 async_output_queue=self.async_output_queue,
-                enable_entropy=self.enable_entropy,
+                enable_entropy=self.enable_entropy and self.parallel_config.tensor_parallel_rank == 0,
             )
 
             return None
@@ -2429,7 +2429,7 @@ class at the server level, which is too granular for ModelRunner.
                 async_output_queue=self.async_output_queue,
                 think_end_id=self.model_config.think_end_id,
                 line_break_id=self.model_config.line_break_id,
-                enable_entropy=self.enable_entropy,
+                enable_entropy=self.enable_entropy and self.parallel_config.tensor_parallel_rank == 0,
             )
             if self.guided_backend is not None and sampler_output is not None:
                 self.sampler.post_process(sampler_output.sampled_token_ids)

From 72419c70cb43e6791b25dcea343acb46981bb233 Mon Sep 17 00:00:00 2001
From: bukejiyu <52310069+bukejiyu@users.noreply.github.com>
Date: Tue, 13 Jan 2026 14:36:45 +0800
Subject: [PATCH 100/161] [Cherry-Pick][V1 Loader] Load safetensors weights in
 natural key order #6006 (#6009)

* sorted safetensor

* update
---
 .../model_executor/load_weight_utils.py       | 55 ++++++++++++++++---
 1 file changed, 46 insertions(+), 9 deletions(-)

diff --git a/fastdeploy/model_executor/load_weight_utils.py b/fastdeploy/model_executor/load_weight_utils.py
index a795a9e0304..83ba492ee3b 100644
--- a/fastdeploy/model_executor/load_weight_utils.py
+++ b/fastdeploy/model_executor/load_weight_utils.py
@@ -21,7 +21,9 @@
 import json
 import os
 import pickle
+import re
 import time
+from contextlib import ExitStack
 from functools import wraps
 from pathlib import Path
 
@@ -39,6 +41,10 @@
 from fastdeploy.model_executor.utils import multi_switch_config_context
 
 
+def natural_key(s: str):
+    return [int(t) if t.isdigit() else t for t in re.split(r"(\d+)", s)]
+
+
 def pdparams_weight_iterator(paddle_file_list: list[str]):
     for pdparams_file in tqdm(
         paddle_file_list,
@@ -71,9 +77,12 @@ def load_weights_from_cache(model, weights_iterator):
 
 
 def get_weight_iterator(model_path: str):
-    _, files_list, use_safetensors = get_all_weights_file(model_path)
+    files_list, ordered_weight_map, use_safetensors, is_key_ordered = get_all_weights_file(model_path)
     if use_safetensors:
-        weights_iterator = safetensors_weights_iterator(files_list)
+        if is_key_ordered:
+            weights_iterator = safetensors_weights_iterator(files_list)
+        else:
+            weights_iterator = safetensors_weights_iterator_ordered(ordered_weight_map)
     else:
         weights_iterator = pdparams_weight_iterator(files_list)
     return weights_iterator
@@ -333,6 +342,26 @@ def safetensors_weights_iterator(safe_tensor_list: list[str]):
                 yield name, param
 
 
+def safetensors_weights_iterator_ordered(ordered_weight_map: dict[str, str]):
+    """
+    safetensors_weights_iterator_ordered
+    """
+    with ExitStack() as stack:
+        current_file = None
+        current_handle = None
+
+        for key, st_file in tqdm(
+            ordered_weight_map.items(),
+            desc="Loading safetensors weights",
+        ):
+            if st_file != current_file:
+                stack.close()
+                current_handle = stack.enter_context(safe_open(st_file, framework="paddle", device="cpu"))
+                current_file = st_file
+
+            yield key, current_handle.get_tensor(key)
+
+
 def fast_weights_iterator(safe_tensor_list: list[str]):
     """
     paddleformers' iterator for safetensors
@@ -353,7 +382,7 @@ def load_pre_sharded_checkpoint(model_path: str, local_rank: int):
     """
 
     state_dict = {}
-    _, safetensor_files, _ = get_all_weights_file(os.path.join(model_path, f"rank{local_rank}"))
+    safetensor_files, _, _, _ = get_all_weights_file(os.path.join(model_path, f"rank{local_rank}"))
     weights_iterator = safetensors_weights_iterator(safetensor_files)
     for name, weight in weights_iterator:
         state_dict[name] = weight.clone()
@@ -368,23 +397,31 @@ def get_all_weights_file(model_path: str):
     use_safetensors = True
     files_list = [str(file) for file in model_path.glob("*.pdparams") if file.name != "scheduler.pdparams"]
     if len(files_list) > 0:
-        key_name_list = []
+        ordered_weight_map = {}
         use_safetensors = False
+        # dont care about the order of the files
+        return files_list, {}, use_safetensors, False
     else:
         safe_model_path = model_path / "model.safetensors"
         if safe_model_path.exists():
-            files_list = [str(safe_model_path)]
             with safe_open(safe_model_path, framework="np", device="cpu") as f:
-                key_name_list = f.keys()
-            return key_name_list, files_list, use_safetensors
+                key_name_list = sorted(f.keys(), key=natural_key)
+            ordered_weight_map = {key: "model.safetensors" for key in key_name_list}
+            is_key_ordered = True
+            files_list = [str(safe_model_path)]
+            return files_list, ordered_weight_map, use_safetensors, is_key_ordered
         else:
             index_file = model_path / "model.safetensors.index.json"
             with index_file.open("r") as f:
                 weight_map = json.load(f)["weight_map"]
+            keys = list(weight_map.keys())
+            is_key_ordered = keys == sorted(keys, key=natural_key)
+            ordered_weight_map = {
+                key: str(model_path / weight_map[key]) for key in sorted(weight_map.keys(), key=natural_key)
+            }
             weight_files_in_index = {str(model_path / weight_map[name]) for name in weight_map}
-            key_name_list = list(weight_map.keys())
             files_list = sorted(weight_files_in_index)
-    return key_name_list, files_list, use_safetensors
+            return files_list, ordered_weight_map, use_safetensors, is_key_ordered
 
 
 def deal_state_dict(state_dict):

From 491f692fce30cacb6a7aae6dea0150638003620d Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Tue, 13 Jan 2026 14:51:35 +0800
Subject: [PATCH 101/161] [Cherry-Pick][BugFix] cp fix metrics cache
 tokens(#6001) (#6002)

---
 fastdeploy/engine/sched/resource_manager_v1.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index 79671a98c6b..6e15513c20c 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -979,7 +979,7 @@ def get_prefix_cached_blocks(self, request: Request):
                     f"request {request.request_id} num_cached_tokens: {request.num_cached_tokens}, revert_tokens_num: {revert_tokens_num}"
                 )
 
-                revert_block_idx = revert_tokens_num // self.config.cache_config.block_size
+                revert_block_idx = len(common_block_ids) - revert_tokens_num // self.config.cache_config.block_size - 1
                 for block_idx in range(len(common_block_ids) - 1, revert_block_idx, -1):
                     if common_block_ids[block_idx] in hit_info["match_gpu_block_ids"]:
                         hit_info["gpu_match_token_num"] -= self.config.cache_config.block_size

From df197b28a7380f166add811fd7f8944e726cd601 Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Tue, 13 Jan 2026 20:25:30 +0800
Subject: [PATCH 102/161] [Cherry-Pick] [BugFix] fix cache transfer manager
 updating/clearing (#5930) (#5934)

* [fix] fix cache transfer manager updating/clearing

* [fix] fix engine client

* [fix] let worker update kv cache status signal

* [fix] update worker process

* [fix] fix clear/update for case if comm group is shutdown

* [fix] update dynamic weight manager

* [fix] add num_cpu_blocks arg for async_llm, and remove unnecessary waiting
---
 .../cache_manager/cache_transfer_manager.py   | 64 ++++++------
 fastdeploy/config.py                          | 12 ++-
 fastdeploy/engine/async_llm.py                |  1 +
 fastdeploy/engine/engine.py                   |  1 +
 fastdeploy/entrypoints/engine_client.py       | 99 ++++++++++++-------
 fastdeploy/rl/dynamic_weight_manager.py       | 24 +++--
 fastdeploy/worker/worker_process.py           | 53 ++++++++--
 tests/ce/stable_cases/launch_model.sh         |  1 +
 8 files changed, 164 insertions(+), 91 deletions(-)

diff --git a/fastdeploy/cache_manager/cache_transfer_manager.py b/fastdeploy/cache_manager/cache_transfer_manager.py
index 302e9612941..e50bd70522c 100644
--- a/fastdeploy/cache_manager/cache_transfer_manager.py
+++ b/fastdeploy/cache_manager/cache_transfer_manager.py
@@ -157,7 +157,7 @@ def __init__(self, args):
             name="cache_ready_signal",
             array=cache_ready_signal_data,
             dtype=np.int32,
-            suffix=self.engine_pid,
+            suffix=args.engine_worker_queue_port,
             create=False,
         )
         swap_space_ready_data = np.zeros(shape=[args.mp_num], dtype=np.int32)
@@ -165,7 +165,7 @@ def __init__(self, args):
             name="swap_space_ready_signal",
             array=swap_space_ready_data,
             dtype=np.int32,
-            suffix=self.engine_pid,
+            suffix=args.engine_worker_queue_port,
             create=False,
         )
 
@@ -180,7 +180,7 @@ def __init__(self, args):
             name="cache_task_broadcast_signal",
             array=cache_task_broadcast_data,
             dtype=np.int32,
-            suffix=args.engine_pid,
+            suffix=args.engine_worker_queue_port,
             create=False,
         )
 
@@ -194,7 +194,15 @@ def __init__(self, args):
             suffix=args.engine_worker_queue_port,
             create=False,
         )
-        threading.Thread(target=self.clear_or_update_caches, args=[args], daemon=True).start()
+        # Initialize update/clear signals for RL
+        self.kv_cache_status_signal = IPCSignal(
+            name="kv_cache_status",
+            array=np.zeros([1], dtype=np.int32),
+            dtype=np.int32,
+            suffix=args.engine_worker_queue_port,
+            create=False,
+        )
+        threading.Thread(target=self.check_cache_status, args=[args], daemon=True).start()
 
     def _init_gpu_cache(self, args):
 
@@ -642,29 +650,19 @@ def _transfer_data(
             transfer_task_id,
         )
 
-    def clear_or_update_caches(self, args):
+    def check_cache_status(self, args):
         # TODO XPU support RL
         if unset_data_ipc is None:
             return
         logger.info("Start a thread to clear/restore kv cache when model weights are cleared/updated.")
-        logger.info(f"FD_ENABLE_SWAP_SPACE_CLEARING={envs.FD_ENABLE_SWAP_SPACE_CLEARING}")
-        kv_cache_status = np.zeros([1], dtype=np.int32)
-        kv_cache_status_signal = IPCSignal(
-            name="kv_cache_status",
-            array=kv_cache_status,
-            dtype=np.int32,
-            suffix=self.engine_pid,
-            create=False,
-        )
         while True:
-            if kv_cache_status_signal.value[0] == KVCacheStatus.CLEARING:
+            # handle cache clearing/restoring
+            if self.kv_cache_status_signal.value[0] == KVCacheStatus.CLEARING:
                 assert args.splitwise_role == "mixed", "Only mixed mode supports clearing cache."
                 try:
-                    logger.info(
-                        f"[rank {self.rank}/{self.n_ranks}] Start clearing caches {self.cache_ready_signal.value}"
-                    )
+                    logger.info(f"Start clearing caches {self.cache_ready_signal.value}")
                     # clear cpu caches
-                    if envs.FD_ENABLE_SWAP_SPACE_CLEARING:
+                    if self.num_cpu_blocks > 0 and envs.FD_ENABLE_SWAP_SPACE_CLEARING:
                         paddle.set_device("cpu")
                         for ptrs in self.k_dst_ptrs + self.v_dst_ptrs:
                             cuda_host_free(ptrs)
@@ -687,49 +685,43 @@ def clear_or_update_caches(self, args):
 
                     # reset cache_ready_signal
                     self.cache_ready_signal.value[self.rank] = 0
-                    logger.info(
-                        f"[rank {self.rank}/{self.n_ranks}] Finish clearing caches {self.cache_ready_signal.value}"
-                    )
+                    logger.info(f"Finish clearing caches {self.cache_ready_signal.value}")
 
                     # wait for all ranks caches to be cleared
                     if np.sum(self.cache_ready_signal.value) != 0:
                         time.sleep(0.1)
 
                     # reset kv_cache_status_signal
-                    kv_cache_status_signal.value[0] = KVCacheStatus.CLEARED
-                    logger.info("All ranks finish clearing caches")
+                    self.kv_cache_status_signal.value[0] = KVCacheStatus.CLEARED
+                    logger.info(f"All ranks finish clearing caches {self.cache_ready_signal.value}")
 
                 except Exception as e:
-                    logger.error(f"[rank {self.rank}/{self.n_ranks}] Failed to clear caches: {e}")
+                    logger.error(f"Failed to clear caches: {e}")
 
-            elif kv_cache_status_signal.value[0] == KVCacheStatus.UPDATING:
+            elif self.kv_cache_status_signal.value[0] == KVCacheStatus.UPDATING:
                 assert args.splitwise_role == "mixed", "Only mixed mode supports updating cache."
                 try:
-                    logger.info(
-                        f"[rank {self.rank}/{self.n_ranks}] Start restoring caches {self.cache_ready_signal.value}"
-                    )
+                    logger.info(f"Start restoring caches {self.cache_ready_signal.value}")
                     # restore cpu cache
-                    if envs.FD_ENABLE_SWAP_SPACE_CLEARING:
+                    if self.num_cpu_blocks > 0 and envs.FD_ENABLE_SWAP_SPACE_CLEARING:
                         self._init_cpu_cache(args)
                         while np.sum(self.swap_space_ready_signal.value) != args.mp_num:
                             time.sleep(0.1)
 
                     # restore gpu cache and set cache_ready_signal
                     self._init_gpu_cache(args)
-                    logger.info(
-                        f"[rank {self.rank}/{self.n_ranks}] Finish restoring caches {self.cache_ready_signal.value}"
-                    )
+                    logger.info(f"Finish restoring caches {self.cache_ready_signal.value}")
 
                     # wait for all ranks caches to be ready
                     while np.sum(self.cache_ready_signal.value) != args.mp_num:
                         time.sleep(0.1)
 
                     # set kv_cache_status_signal
-                    logger.info("All ranks finish restoring caches")
-                    kv_cache_status_signal.value[0] = KVCacheStatus.NORMAL
+                    logger.info(f"All ranks finish restoring caches {self.cache_ready_signal.value}")
+                    self.kv_cache_status_signal.value[0] = KVCacheStatus.NORMAL
 
                 except Exception as e:
-                    logger.error(f"[rank {self.rank}/{self.n_ranks}] Failed to restore caches: {e}")
+                    logger.error(f"Failed to restore caches: {e}")
 
             time.sleep(0.1)
 
diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index ca4bce32c8f..580ac0731c6 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1294,6 +1294,8 @@ def __init__(self, args):
         self.max_processor_cache = None
         self.enable_output_caching = False
         self.disable_chunked_mm_input = False
+        self.num_cpu_blocks = None
+
         for key, value in args.items():
             if hasattr(self, key):
                 setattr(self, key, value)
@@ -1345,10 +1347,12 @@ def __init__(self, args):
                 * byte_size
             )
 
-        if self.swap_space is None:
-            self.num_cpu_blocks = 0
-        else:
-            self.num_cpu_blocks = int(self.swap_space * 1024**3 / self.bytes_per_block)
+        if self.num_cpu_blocks is None:
+            if self.swap_space is None:
+                self.num_cpu_blocks = 0
+            else:
+                self.num_cpu_blocks = int(self.swap_space * 1024**3 / self.bytes_per_block)
+
         self._verify_args()
 
     def metrics_info(self):
diff --git a/fastdeploy/engine/async_llm.py b/fastdeploy/engine/async_llm.py
index 50e74f30153..1bfde17eaea 100644
--- a/fastdeploy/engine/async_llm.py
+++ b/fastdeploy/engine/async_llm.py
@@ -835,6 +835,7 @@ def _start_worker_service(self):
             f" --logprobs_mode {self.cfg.model_config.logprobs_mode}"
             f" --max_logprobs {self.cfg.model_config.max_logprobs}"
             f" --eplb_config '{self.cfg.eplb_config.to_json_string()}'"
+            f" --num_cpu_blocks {self.cfg.cache_config.num_cpu_blocks}"
         )
 
         worker_store_true_flag = {
diff --git a/fastdeploy/engine/engine.py b/fastdeploy/engine/engine.py
index 37ced3a77c7..8f3eb9d026c 100644
--- a/fastdeploy/engine/engine.py
+++ b/fastdeploy/engine/engine.py
@@ -566,6 +566,7 @@ def _start_worker_service(self):
             f" --max_logprobs {self.cfg.model_config.max_logprobs}"
             f" --eplb_config '{self.cfg.eplb_config.to_json_string()}'"
             f" --routing_replay_config '{self.cfg.routing_replay_config.to_json_string()}'"
+            f" --num_cpu_blocks {self.cfg.cache_config.num_cpu_blocks}"
         )
         if self.cfg.structured_outputs_config.logits_processors is not None:
             arguments += f" --logits-processors {' '.join(self.cfg.structured_outputs_config.logits_processors)}"
diff --git a/fastdeploy/entrypoints/engine_client.py b/fastdeploy/entrypoints/engine_client.py
index 0998ce4a8b4..4baae089aea 100644
--- a/fastdeploy/entrypoints/engine_client.py
+++ b/fastdeploy/entrypoints/engine_client.py
@@ -33,6 +33,7 @@
 from fastdeploy.input.preprocess import InputPreprocessor
 from fastdeploy.inter_communicator import (
     IPCSignal,
+    KVCacheStatus,
     ModelWeightsStatus,
     PrefixTreeStatus,
     RearrangeExpertStatus,
@@ -78,6 +79,7 @@ def __init__(self, pid: int | str, port: int | str, fd_config: FDConfig, workers
         )
         self.max_model_len = self.fd_config.model_config.max_model_len
         self.enable_prefix_caching = self.fd_config.cache_config.enable_prefix_caching
+        self.enable_cache_transfer = self.fd_config.cache_config.swap_space
         self.enable_splitwise = self.fd_config.scheduler_config.splitwise_role != "mixed"
         self.max_chips_per_node = 16 if current_platform.is_iluvatar() else 8
 
@@ -547,26 +549,22 @@ def update_model_weight(self, timeout=300):
         2 : worker update finish and notify client
         """
         with self.clear_update_lock:
-            if self.fd_config.cache_config.enable_hierarchical_cache:
-                return False, "hierarchical cache updating is not supported"
-
-            # if self.enable_prefix_caching or self.enable_splitwise:
-            #     # kv_cache_status_signal: CLEARED -> UPDATING -> NORMAL
-            #     if self.kv_cache_status_signal.value[0] == KVCacheStatus.CLEARED:
-            #         self.kv_cache_status_signal.value[0] = KVCacheStatus.UPDATING
-            #         api_server_logger.info(f"Start to update kv cache {self.kv_cache_status_signal.value[0]}")
-            #         while self.kv_cache_status_signal.value[0] != KVCacheStatus.NORMAL:
-            #             api_server_logger.info(f"..updating kv cache {self.kv_cache_status_signal.value[0]}")
-            #             time.sleep(1)
-
             if self.enable_prefix_caching:
                 # prefix_tree_status_signal: CLEARED -> UPDATING -> NORMAL
                 if self.prefix_tree_status_signal.value[0] == PrefixTreeStatus.CLEARED:
                     self.prefix_tree_status_signal.value[0] = PrefixTreeStatus.UPDATING
-                    api_server_logger.info(f"Start to update prefix tree {self.prefix_tree_status_signal.value[0]}")
-                    while self.prefix_tree_status_signal.value[0] != PrefixTreeStatus.NORMAL:
-                        api_server_logger.info(f"..updating prefix tree {self.prefix_tree_status_signal.value[0]}")
+                    api_server_logger.info(
+                        f">>> start updating prefix tree (status: {self.prefix_tree_status_signal.value[0]})"
+                    )
+                    while timeout >= 0 and self.prefix_tree_status_signal.value[0] != PrefixTreeStatus.NORMAL:
+                        api_server_logger.info(f"... prefix tree status: {self.prefix_tree_status_signal.value[0]}")
                         time.sleep(1)
+                        timeout -= 1
+                    if timeout < 0:
+                        return False, "Update prefix tree timeout"
+                    api_server_logger.info(
+                        f"<<< finish updating prefix tree (status: {self.prefix_tree_status_signal.value[0]})"
+                    )
 
             # model_weights_status_signal: CLEARED -> UPDATING -> NORMAL
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.NORMAL:
@@ -577,13 +575,30 @@ def update_model_weight(self, timeout=300):
                 return False, "worker is clearing model weight, cannot update now"
 
             self.model_weights_status_signal.value[0] = ModelWeightsStatus.UPDATING
-            api_server_logger.info(f"Start to update model weight {self.model_weights_status_signal.value[0]}")
-            while timeout >= 0 and self.model_weights_status_signal.value[0] != ModelWeightsStatus.NORMAL:
-                api_server_logger.info(f"..updating model weights {self.model_weights_status_signal.value[0]}")
+            api_server_logger.info(
+                f">>> start updating model weight (weight status: {self.model_weights_status_signal.value[0]})"
+                if not self.enable_cache_transfer
+                else f">>> start updating model weight (weight status: {self.model_weights_status_signal.value[0]} cache status: {self.kv_cache_status_signal.value[0]})"
+            )
+            while timeout >= 0:
+                api_server_logger.info(
+                    f"... weight status: {self.model_weights_status_signal.value[0]}"
+                    if not self.enable_cache_transfer
+                    else f"... weight status: {self.model_weights_status_signal.value[0]} cache status: {self.kv_cache_status_signal.value[0]}"
+                )
+                weight_updated = self.model_weights_status_signal.value[0] == ModelWeightsStatus.NORMAL
+                cache_updated = self.kv_cache_status_signal.value[0] == KVCacheStatus.NORMAL
+                if weight_updated and (not self.enable_cache_transfer or cache_updated):
+                    break
                 time.sleep(1)
                 timeout -= 1
             if timeout < 0:
                 return False, "Update model weight timeout"
+            api_server_logger.info(
+                f"<<< finish updating model weight (weight status: {self.model_weights_status_signal.value[0]}"
+                if not self.enable_cache_transfer
+                else f"<<< finish updating model weight (weight status: {self.model_weights_status_signal.value[0]} cache status: {self.kv_cache_status_signal.value[0]})"
+            )
             return True, ""
 
     def clear_load_weight(self, timeout=300):
@@ -594,25 +609,22 @@ def clear_load_weight(self, timeout=300):
         """
 
         with self.clear_update_lock:
-            if self.fd_config.cache_config.enable_hierarchical_cache:
-                return False, "hierarchical cache clearing is not supported"
-            # if self.enable_prefix_caching or self.enable_splitwise:
-            #     # kv_cache_status_signal: NORMAL -> CLEARING -> CLEARED
-            #     if self.kv_cache_status_signal.value[0] ==  KVCacheStatus.NORMAL:
-            #         self.kv_cache_status_signal.value[0] = KVCacheStatus.CLEARING
-            #         api_server_logger.info(f"Start to clear kv cache {self.kv_cache_status_signal.value[0]}")
-            #         while self.kv_cache_status_signal.value[0] != KVCacheStatus.CLEARED:
-            #             api_server_logger.info(f"..clearing kv cache {self.kv_cache_status_signal.value[0]}")
-            #             time.sleep(1)
-
             if self.enable_prefix_caching:
                 # prefix_tree_status_signal: NORMAL -> CLEARING -> CLEARED
                 if self.prefix_tree_status_signal.value[0] == PrefixTreeStatus.NORMAL:
                     self.prefix_tree_status_signal.value[0] = PrefixTreeStatus.CLEARING
-                    api_server_logger.info(f"Start to clear prefix tree {self.prefix_tree_status_signal.value[0]}")
-                    while self.prefix_tree_status_signal.value[0] != PrefixTreeStatus.CLEARED:
-                        api_server_logger.info(f"..clearing prefix tree {self.prefix_tree_status_signal.value[0]}")
+                    api_server_logger.info(
+                        f">>> start clearing prefix tree (status: {self.prefix_tree_status_signal.value[0]})"
+                    )
+                    while timeout >= 0 and self.prefix_tree_status_signal.value[0] != PrefixTreeStatus.CLEARED:
+                        api_server_logger.info(f"... prefix tree status: {self.prefix_tree_status_signal.value[0]}")
                         time.sleep(1)
+                        timeout -= 1
+                    if timeout < 0:
+                        return False, "Clear prefix tree timeout"
+                    api_server_logger.info(
+                        f"<<< finish clearing prefix tree (status: {self.prefix_tree_status_signal.value[0]})"
+                    )
 
             # model_weights_status_signal: NORMAL -> CLEARING -> CLEARED
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.CLEARED:
@@ -623,13 +635,30 @@ def clear_load_weight(self, timeout=300):
                 return False, "worker is updating model weight, cannot clear now"
 
             self.model_weights_status_signal.value[0] = ModelWeightsStatus.CLEARING
-            api_server_logger.info(f"Start to clear model weight {self.model_weights_status_signal.value[0]}")
-            while timeout >= 0 and self.model_weights_status_signal.value[0] != ModelWeightsStatus.CLEARED:
-                api_server_logger.info(f"..clearing model weights {self.model_weights_status_signal.value[0]}")
+            api_server_logger.info(
+                f">>> start clearing model weight (weight status: {self.model_weights_status_signal.value[0]}"
+                if not self.enable_cache_transfer
+                else f">>> start clearing model weight (weight status: {self.model_weights_status_signal.value[0]} cache status: {self.kv_cache_status_signal.value[0]})"
+            )
+            while timeout >= 0:
+                api_server_logger.info(
+                    f"... weight status: {self.model_weights_status_signal.value[0]}"
+                    if not self.enable_cache_transfer
+                    else f"... weight status: {self.model_weights_status_signal.value[0]} cache status: {self.kv_cache_status_signal.value[0]}"
+                )
+                weight_cleared = self.model_weights_status_signal.value[0] == ModelWeightsStatus.CLEARED
+                cache_cleared = self.kv_cache_status_signal.value[0] == KVCacheStatus.CLEARED
+                if weight_cleared and (not self.enable_cache_transfer or cache_cleared):
+                    break
                 time.sleep(1)
                 timeout -= 1
             if timeout < 0:
                 return False, "Clear model weight timeout"
+            api_server_logger.info(
+                f"<<< finish clearing model weight (weight status: {self.model_weights_status_signal.value[0]}"
+                if not self.enable_cache_transfer
+                else f"<<< finish clearing model weight (weight status: {self.model_weights_status_signal.value[0]} cache status: {self.kv_cache_status_signal.value[0]})"
+            )
             return True, ""
 
     def check_model_weight_status(self):
diff --git a/fastdeploy/rl/dynamic_weight_manager.py b/fastdeploy/rl/dynamic_weight_manager.py
index cbee0f99020..b70783b54c5 100644
--- a/fastdeploy/rl/dynamic_weight_manager.py
+++ b/fastdeploy/rl/dynamic_weight_manager.py
@@ -24,7 +24,7 @@
 from paddleformers.utils.log import logger
 
 from fastdeploy.config import FDConfig
-from fastdeploy.inter_communicator import ModelWeightsStatus
+from fastdeploy.inter_communicator import KVCacheStatus, ModelWeightsStatus
 
 
 class DynamicWeightManager:
@@ -267,18 +267,25 @@ def _update_shared_status(self, pid: int, status: int) -> None:
             value[self.rank] = status
 
     @staticmethod
-    def check_model_weights_status(model_weights_status, model_runner, pid, block):
+    def check_model_weights_status(model_weights_status, kv_cache_status, model_runner, pid, block):
         """
-        check model weights status
+        A function to handle the state of model weights, check the model weights state,
+        and perform corresponding operations as needed.
+
+        - model_weights_status (`IPCSignal`): The signal indicating the status of model weights.
+        - kv_cache_status (`IPCSignal`): The signal indicating the status of key-value cache.
+        - model_runner (`ModelRunnerBase`): The model runner instance.
+        - block (`bool`): Block mode keeps the worker process blocked in the status-check loop,
+            avoiding communication operations in the worker event loop.
         """
-        # logger.info(f"dynamic weight manager is check model weights status! {model_weights_status.value[0]}")
+        logger.info(f"dynamic weight manager is check model weights status! {model_weights_status.value[0]}")
         while model_weights_status.value[0] != ModelWeightsStatus.NORMAL and (
             block or model_weights_status.value[0] != ModelWeightsStatus.CLEARED
         ):
-            # 如果为 block 模式，那么循环不会退出，直到权重更新、通信组重建
-            # 如果为非 block 模式，那么循环在权重更新或清理后均会退出
             if model_weights_status.value[0] == ModelWeightsStatus.UPDATING:
                 logger.info("infer engine stopped! start to load new checkpoint...")
+                if kv_cache_status:
+                    kv_cache_status.value[0] = KVCacheStatus.UPDATING
                 model_runner.clear_requests()
                 model_runner.update_parameters(pid)
                 while model_weights_status.value[0] != ModelWeightsStatus.NORMAL:
@@ -286,9 +293,12 @@ def check_model_weights_status(model_weights_status, model_runner, pid, block):
                 logger.info("finished loading new checkpoint")
             elif model_weights_status.value[0] == ModelWeightsStatus.CLEARING:
                 logger.info("infer engine stopped! start to clear checkpoint...")
+                if kv_cache_status:
+                    kv_cache_status.value[0] = KVCacheStatus.CLEARING
                 model_runner.clear_requests()
                 model_runner.clear_parameters(pid)
                 while model_weights_status.value[0] != ModelWeightsStatus.CLEARED:
                     time.sleep(0.01)
                 logger.info("finished clearing checkpoint")
-            time.sleep(0.01)
+            else:
+                time.sleep(0.01)
diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 4048286f996..3003513da1d 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -235,6 +235,16 @@ def init_health_status(self) -> None:
             create=False,
         )
 
+        # init kv_cache_status
+        kv_cache_status_data = np.zeros(shape=[1], dtype=np.int32)
+        self.kv_cache_status = IPCSignal(
+            name="kv_cache_status",
+            array=kv_cache_status_data,
+            dtype=np.int32,
+            suffix=self.parallel_config.engine_worker_queue_port,
+            create=False,
+        )
+
         # init exist_task_signal
         workers_exist_task = np.zeros([1], dtype=np.int32)
         self.exist_task_signal = IPCSignal(
@@ -426,8 +436,7 @@ def event_loop_normal(self) -> None:
             self._run_eplb(tp_rank)
 
             if self.fd_config.load_config.dynamic_load_weight:
-                if self.model_weights_status.value[0] != ModelWeightsStatus.NORMAL:
-                    self.model_weights_signal[0] = int(self.model_weights_status.value[0])
+                self.model_weights_signal[0] = int(self.model_weights_status.value[0])
                 if self.ranks > 1:
                     self.model_weights_signal[0] = self._broadcast_model_weights_signal(src=0, group=None)
 
@@ -462,8 +471,10 @@ def event_loop_normal(self) -> None:
                     )
 
                     self.model_weights_status.value[0] = self.model_weights_signal[0]
+                    self.kv_cache_status.value[0] = self.model_weights_signal[0]
                     DynamicWeightManager.check_model_weights_status(
                         self.model_weights_status,
+                        self.kv_cache_status if self.fd_config.cache_config.num_cpu_blocks > 0 else None,
                         # model_weights_signal
                         self.worker.model_runner,
                         self.parallel_config.engine_worker_queue_port,
@@ -471,14 +482,31 @@ def event_loop_normal(self) -> None:
                     )
                     logger.info(f"current task queue data: {self.task_queue.num_tasks()}")
                     self.task_queue.clear_data()
-                    self.model_weights_signal[0] = ModelWeightsStatus.NORMAL
-                    logger.info(f"Rank: {self.local_rank} has updated or cleared parameters.")
 
-                    # 只有不关闭通信组时，清理权重后需要额外等待（否则信号量会同步混乱）
-                    if not self.fd_config.parallel_config.shutdown_comm_group_if_worker_idle:
-                        while self.model_weights_status.value[0] == ModelWeightsStatus.CLEARED:
-                            time.sleep(0.01)
-                        continue
+                    if self.model_weights_signal[0] == ModelWeightsStatus.UPDATING:
+                        logger.info(
+                            f"Rank: {self.local_rank} has updated parameters. {self.model_weights_status.value[0]}"
+                        )
+                        self.model_weights_signal[0] = ModelWeightsStatus.NORMAL
+                    elif self.model_weights_signal[0] == ModelWeightsStatus.CLEARING:
+                        logger.info(
+                            f"Rank: {self.local_rank} has cleared parameters. {self.model_weights_status.value[0]}"
+                        )
+                        # 如果清理权重后不关闭通信组，那么将推理进程统一阻塞在下面的循环中，否则信号量可能同步混乱；直到下次权重更新时唤醒
+                        if not self.fd_config.parallel_config.shutdown_comm_group_if_worker_idle:
+                            if self.ranks > 1:  # 所有 Rank 同时入睡，监听下次的更新信号
+                                paddle.distributed.barrier()
+                            while self.model_weights_signal[0] != ModelWeightsStatus.UPDATING:
+                                self.model_weights_signal[0] = self.model_weights_status.value[0]
+                                if self.ranks > 1:
+                                    self.model_weights_signal[0] = self._broadcast_model_weights_signal(
+                                        src=0, group=None
+                                    )
+                                time.sleep(1)
+                            self.model_weights_status.value[0] = (
+                                ModelWeightsStatus.UPDATING
+                            )  # 所有 Rank 已同步唤醒，启动权重更新流程
+                            continue
 
             if self.exist_task_signal.value[0] == ExistTaskStatus.EXIST or self.task_queue.read_finish_flag.get() == 1:
                 logger.info(f"Rank: {self.local_rank} Detected new requests.")
@@ -912,6 +940,13 @@ def parse_args():
         help="Enable output of token-level entropy.",
     )
 
+    parser.add_argument(
+        "--num_cpu_blocks",
+        type=int,
+        default=0,
+        help="Number of cpu blocks.",
+    )
+
     args = parser.parse_args()
     return args
 
diff --git a/tests/ce/stable_cases/launch_model.sh b/tests/ce/stable_cases/launch_model.sh
index 1021aa2b8f1..7975a847873 100644
--- a/tests/ce/stable_cases/launch_model.sh
+++ b/tests/ce/stable_cases/launch_model.sh
@@ -38,6 +38,7 @@ python -m fastdeploy.entrypoints.openai.api_server \
        --gpu-memory-utilization 0.9 \
        --model "$MODEL_PATH" \
        --no-shutdown-comm-group-if-worker-idle \
+       --swap-space 10 \
        --load-strategy ipc_snapshot \
        --dynamic-load-weight &
 

From 303580d616e9415b7fe3d1043846ea5e7c5e5e14 Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Wed, 14 Jan 2026 17:46:07 +0800
Subject: [PATCH 103/161] [Cherry-Pick] [BugFix] Rename need_block_num_signal
 to fix shm name conflict (#5623) (#6029)

---
 fastdeploy/engine/sched/resource_manager_v1.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index 6e15513c20c..1e47da3c5cf 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -182,7 +182,7 @@ def __init__(self, max_num_seqs, config, tensor_parallel_size, splitwise_role, l
             name="need_block_num_signal",
             array=need_block_num_data,
             dtype=np.int32,
-            suffix=local_data_parallel_id,
+            suffix=self.config.parallel_config.engine_worker_queue_port,
             create=True,
         )
 

From 8ce2623c02c385749849f2a4b7929a45481f09c1 Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Wed, 14 Jan 2026 21:40:51 +0800
Subject: [PATCH 104/161] Revert "[CI] Align PaddlePaddle version to latest due
 to tag change (#5971)" (#6040)

This reverts commit 3e69022698cc1532888359b25a41160911e97798.
---
 .github/workflows/_accuracy_test.yml      | 2 +-
 .github/workflows/_base_test.yml          | 2 +-
 .github/workflows/_build_linux.yml        | 2 +-
 .github/workflows/_logprob_test_linux.yml | 2 +-
 .github/workflows/_pre_ce_test.yml        | 2 +-
 .github/workflows/_stable_test.yml        | 2 +-
 .github/workflows/_unit_test_coverage.yml | 2 +-
 scripts/run_xpu_ci_pytest.sh              | 2 +-
 8 files changed, 8 insertions(+), 8 deletions(-)

diff --git a/.github/workflows/_accuracy_test.yml b/.github/workflows/_accuracy_test.yml
index a77cb6f8ffd..832d6f266a4 100644
--- a/.github/workflows/_accuracy_test.yml
+++ b/.github/workflows/_accuracy_test.yml
@@ -161,7 +161,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_base_test.yml b/.github/workflows/_base_test.yml
index f2b93e817f2..56808b9fd49 100644
--- a/.github/workflows/_base_test.yml
+++ b/.github/workflows/_base_test.yml
@@ -186,7 +186,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_build_linux.yml b/.github/workflows/_build_linux.yml
index 394f902340b..32c689d1ada 100644
--- a/.github/workflows/_build_linux.yml
+++ b/.github/workflows/_build_linux.yml
@@ -173,7 +173,7 @@ jobs:
             elif [[ "${PADDLEVERSION}" != "" ]];then
               python -m pip install paddlepaddle-gpu==${PADDLEVERSION} -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             else
-              python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+              python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             fi
 
             pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
diff --git a/.github/workflows/_logprob_test_linux.yml b/.github/workflows/_logprob_test_linux.yml
index be3f57928b4..fd71f57c350 100644
--- a/.github/workflows/_logprob_test_linux.yml
+++ b/.github/workflows/_logprob_test_linux.yml
@@ -156,7 +156,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_pre_ce_test.yml b/.github/workflows/_pre_ce_test.yml
index d8c6b00c23b..768d73b1c85 100644
--- a/.github/workflows/_pre_ce_test.yml
+++ b/.github/workflows/_pre_ce_test.yml
@@ -172,7 +172,7 @@ jobs:
           --gpus "\"device=${DEVICES}\"" ${docker_image} /bin/bash -c '
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
           python -m pip install ${fd_wheel_url}
           bash scripts/run_pre_ce.sh
           '
diff --git a/.github/workflows/_stable_test.yml b/.github/workflows/_stable_test.yml
index fc47732f5a7..175f6288d76 100644
--- a/.github/workflows/_stable_test.yml
+++ b/.github/workflows/_stable_test.yml
@@ -164,7 +164,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_unit_test_coverage.yml b/.github/workflows/_unit_test_coverage.yml
index 0761425412f..92843fd15bf 100644
--- a/.github/workflows/_unit_test_coverage.yml
+++ b/.github/workflows/_unit_test_coverage.yml
@@ -203,7 +203,7 @@ jobs:
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
           git diff origin/${BASE_REF}..HEAD --unified=0 > diff.txt
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-GpuAll-LinuxCentos-Gcc11-Cuda126-Cudnn95-Trt105-Py310-Compile/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
           pip config set global.extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
           python -m pip install -r scripts/unittest_requirement.txt
diff --git a/scripts/run_xpu_ci_pytest.sh b/scripts/run_xpu_ci_pytest.sh
index f57e096f71e..f5053988eb3 100644
--- a/scripts/run_xpu_ci_pytest.sh
+++ b/scripts/run_xpu_ci_pytest.sh
@@ -74,7 +74,7 @@ python -m pip uninstall fastdeploy-xpu -y
 
 # 安装PaddlePaddle Release分支安装对应的paddle
 echo "安装release分支PaddlePaddle..."
-python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Xpu-P800-SelfBuiltPypiUse/latest/paddlepaddle_xpu-0.0.0-cp310-cp310-linux_x86_64.whl
+python -m pip install paddlepaddle-xpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
 
 # ============ 编译项目 ============
 

From b9b9c5180123c8b3893028ce8b38ee5b94fcc934 Mon Sep 17 00:00:00 2001
From: RAM <gstian5555@outlook.com>
Date: Thu, 15 Jan 2026 17:12:44 +0800
Subject: [PATCH 105/161] [Cherry-Pick][RL][CI] Support Async R3 And Add
 Accuracy Test #5937 (#6043)

* cherry pick async put

* revert code

* fix typo
---
 fastdeploy/config.py                          |   8 +
 fastdeploy/model_executor/layers/moe/moe.py   |   6 +-
 .../layers/moe/routing_indices_cache.py       |  87 ++++++--
 fastdeploy/worker/gpu_model_runner.py         |   2 +
 requirements.txt                              |   1 +
 tests/e2e/test_EB_Lite_serving.py             |   2 -
 tests/e2e/test_EB_Lite_serving_R3.py          | 119 ++++++++++
 tests/e2e/test_fake_Glm45_AIR_serving.py      |  27 ++-
 .../rollout_routing_replay_test_utils.py      | 208 ++++++++++++++++++
 9 files changed, 442 insertions(+), 18 deletions(-)
 create mode 100644 tests/e2e/test_EB_Lite_serving_R3.py
 create mode 100644 tests/e2e/utils/rollout_routing_replay_test_utils.py

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index 580ac0731c6..a8f53f266cb 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1527,6 +1527,9 @@ def __init__(self, args) -> None:
         # RDMA routing store
         self.rdma_store_server: str = ""
 
+        # Only save last turn
+        self.only_last_turn: bool = False
+
         if args is not None:
             for key, value in args.items():
                 if hasattr(self, key) and value != "None":
@@ -1695,6 +1698,11 @@ def postprocess(self):
         """
         calculate some parameters
         """
+        #  Unified field model config
+        if self.model_config.architectures[0] == "Glm4MoeForCausalLM":
+            # The first moe layer id of GLM4.5 model
+            self.model_config.moe_layer_start_index = self.model_config.first_k_dense_replace
+
         self.local_device_ids = self.parallel_config.device_ids.split(",")[: self.parallel_config.tensor_parallel_size]
 
         if self.parallel_config.tensor_parallel_size <= self.worker_num_per_node or self.node_rank == 0:
diff --git a/fastdeploy/model_executor/layers/moe/moe.py b/fastdeploy/model_executor/layers/moe/moe.py
index 11725729a9b..683a95fa767 100644
--- a/fastdeploy/model_executor/layers/moe/moe.py
+++ b/fastdeploy/model_executor/layers/moe/moe.py
@@ -641,14 +641,16 @@ def forward(self, x: paddle.Tensor, gate: nn.Layer, forward_meta: ForwardMeta =
         """
         topk_ids_hookfunc = None
         if self.enable_routing_replay:
-            if forward_meta is not None:  # forward_meta is None when execute empty_input_forward
+            # When execute empty_input_forward forward_meta is None. When execute mtp layer routing_replay_table is None.
+            if forward_meta is not None and forward_meta.routing_replay_table is not None:
+                moe_layer_idx = self.layer_idx - self.fd_config.model_config.moe_layer_start_index
                 topk_ids_hookfunc = partial(
                     save_routing_to_buffer,
                     routing_replay_table=forward_meta.routing_replay_table,
                     batch_id_per_token=forward_meta.batch_id_per_token,
                     seq_lens_decoder=forward_meta.seq_lens_decoder,
                     cu_seqlens_q=forward_meta.cu_seqlens_q,
-                    layer_idx=self.layer_idx,
+                    layer_idx=moe_layer_idx,
                     tp_size=self.fd_config.parallel_config.tensor_parallel_size,
                     ep_size=self.fd_config.parallel_config.expert_parallel_size,
                     tp_group=self.fd_config.parallel_config.tp_group,
diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 00e8ebc2495..d754f54651a 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -26,6 +26,7 @@
 import paddle.distributed as dist
 import triton
 import triton.language as tl
+from paddleformers.utils.log import logger
 
 from fastdeploy.config import FDConfig
 
@@ -110,6 +111,8 @@ def save_routing_to_buffer(
 ):
     if tp_size > 1 and ep_size > 1:
         token_num_per_rank = topk_ids.shape[0]
+        if token_num_per_rank == 0:
+            return
         topk_ids_all = paddle.zeros([token_num_per_rank * tp_size, topk_ids.shape[1]], dtype=topk_ids.dtype)
         paddle.distributed.all_gather(topk_ids_all, topk_ids, tp_group)
         topk_ids = topk_ids_all[: batch_id_per_token.shape[0], :]
@@ -152,6 +155,7 @@ def __init__(
         self.max_num_seqs = fd_config.scheduler_config.max_num_seqs
         self.max_model_len = fd_config.model_config.max_model_len
         self.num_moe_layers = fd_config.model_config.num_hidden_layers - fd_config.model_config.moe_layer_start_index
+        self.only_last_turn = fd_config.routing_replay_config.only_last_turn
 
         if fd_config.model_config.architectures[0] == "Glm4MoeForCausalLM":
             self.moe_top_k = fd_config.model_config.num_experts_per_tok
@@ -177,9 +181,10 @@ def register_request(self, batch_id: int, request_id: str):
         # Save requests that have been finished for the current slot
         if batch_id in self.routing_batch_to_request:
             pre_request_id = self._deregister_request(batch_id)
-            self._put_request_to_store(batch_id, pre_request_id)
+            asyncio.run(self._put_request_to_store(batch_id, pre_request_id))
         # Register the new request
         self.routing_batch_to_request[batch_id] = request_id
+        logger.info(f"[R3] Register request {request_id} with batch id {batch_id}")
 
     def _deregister_request(self, batch_id: int) -> str:
         """
@@ -188,26 +193,35 @@ def _deregister_request(self, batch_id: int) -> str:
         assert batch_id in self.routing_batch_to_request
         return self.routing_batch_to_request.pop(batch_id)
 
-    def _put_request_to_store(
+    async def _put_request_to_store(
         self,
         batch_id: int,
         request_id: str,
     ):
+        before_put_request_time = time.perf_counter()
         if self.tp_rank == 0:
             batch_buffer = self.routing_replay_table[batch_id]
+            tasks = []
             for layer_id in range(self.num_moe_layers):
                 layer_buffer = batch_buffer[layer_id]
                 rollout_id = self.split_request_id(request_id)
-                self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)
-
+                tasks.append(
+                    self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)
+                )
+            if self.only_last_turn:
+                prefix_batch = self.get_needed_clear_ids(rollout_id)
+                tasks.append(self.routing_store.clear_prefix_batch(roullout_id_prefixes=prefix_batch))
+            await asyncio.gather(*tasks)
+        logger.info(f"[R3] Async put {request_id} time cost: {time.perf_counter() - before_put_request_time}")
         self._clear_table_slot(batch_id)
 
     def put_table_to_store(self):
         """Put the routing table"""
+        logger.info("[R3] Put routing table to store.")
         batch_ids = copy.deepcopy(list(self.routing_batch_to_request.keys()))
         for batch_id in batch_ids:
             request_id = self._deregister_request(batch_id)
-            self._put_request_to_store(batch_id, request_id)
+            asyncio.run(self._put_request_to_store(batch_id, request_id))
 
     def _clear_table_slot(self, batch_id: int):
         assert 0 <= batch_id < self.max_num_seqs
@@ -241,14 +255,39 @@ def get_routing_table(self) -> paddle.Tensor:
         return self.routing_replay_table
 
     def split_request_id(self, request_id: str):
-        """Split the request id to get rollout id"""
+        """
+        Split the request id to get rollout id.
+
+        request_id: "chatcmpl-request.user-uuid"
+        rollout_id: "request.user"
+            example: "chatcmpl-xxx_xxx_epoch_15:2:2:1-d9f16c5c-65f6-4815-b44d-14e2c581907c_0" -> "xxx_xxx_epoch_15:2:2:1"
+        """
         chat_type, tmp_str = request_id.split("-", 1)
         # NOTE(gongshaotian): only support chatcmpl now
-        # assert chat_type == "chatcmpl"
+        assert (
+            chat_type == "chatcmpl"
+        ), "Rollout Routing Replay only supports chatcmpl. Please check whether the request type and userid settings are correct."
         reversed_tmp_str = tmp_str[::-1].split("-", 5)
         rollout_id = reversed_tmp_str[-1][::-1]
         return rollout_id
 
+    def get_needed_clear_ids(self, roullout_id: str) -> List[str]:
+        """
+        Generate the prefix IDs for all closed multi-round tasks.
+        rollout_id: "xxx_xxx_epoch_15:2:2:1"
+            example: xxx_xxx_data_id:gen_id:turn_id:segment_id
+        """
+        reversed_segment_id, reversed_turn_id, reversed_prefix_gen_id = roullout_id[::-1].split(":", 2)
+        prefix_gen_id = reversed_prefix_gen_id[::-1]
+        turn_id = eval(reversed_turn_id[::-1])
+        segment_id = eval(reversed_segment_id[::-1])
+
+        assert turn_id >= 0 and segment_id >= 0
+        prefix_batch = []
+        if turn_id > 0:
+            prefix_batch.append(f"{prefix_gen_id}:{(turn_id-1)}:{segment_id}")
+        return prefix_batch
+
     def clear_request(self, batch_id: int):
         """Clear the routing indices of the request"""
         self._clear_table_slot(batch_id)
@@ -262,7 +301,7 @@ def __init__(self, fd_config: FDConfig) -> None:
         self.fd_config = fd_config
 
     @abstractmethod
-    def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: Optional[int] = None) -> None:
+    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: Optional[int] = None) -> None:
         """Put the routing indices into store"""
         raise NotImplementedError
 
@@ -283,6 +322,11 @@ def clear_store(
         """Clear the routing indices store"""
         raise NotImplementedError
 
+    @abstractmethod
+    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
+        """Clear the routing indices"""
+        raise NotImplementedError
+
 
 class RoutingStoreLocal(RoutingStoreBase):
     """Routing Store using local memory"""
@@ -292,12 +336,17 @@ def __init__(self, fd_config) -> None:
         self.local_store_dir = fd_config.routing_replay_config.local_store_dir
         self.clear_store()
 
-    def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
         """Put the routing indices into store"""
+        routing_key = f"{rollout_id}_{layer_idx}"
+
+        # async put
+        time_before_put = time.perf_counter()
         dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
         os.makedirs(dir_path, exist_ok=True)
         file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
         paddle.save(routing_indices, file_path)
+        logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
 
     def get(
         self,
@@ -334,6 +383,10 @@ def clear_store(self):
                 file_path = os.path.join(self.local_store_dir, file_name)
                 shutil.rmtree(file_path)
 
+    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
+        # async delete
+        logger.info(f"[R3] clear_prefix_batch {roullout_id_prefixes}")
+
 
 class RoutingStoreRDMA(RoutingStoreBase):
     """Routing Store using RDMA"""
@@ -351,16 +404,19 @@ def __init__(self, fd_config) -> None:
         self.p2p_client = P2PClient(p2pConfig)
         self.clear_store()
 
-    def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
         """Put the routing indices into store"""
         rdma_rollout_key = f"{rollout_id}_{layer_idx}"
 
         # async put
         time_before_put = time.perf_counter()
-        routing_indices_pin = routing_indices.pin_memory()
+        routing_indices_pin = routing_indices.cpu()
         routing_indices_np = routing_indices_pin.numpy()
-        asyncio.run(self.p2p_client.put(rdma_rollout_key, routing_indices_np))
-        print(f"Success put with key {rdma_rollout_key}, time cost is {time.perf_counter()-time_before_put} s")
+        copy_time = time.perf_counter()
+        await self.p2p_client.put(rdma_rollout_key, routing_indices_np)
+        logger.info(
+            f"[R3] The routing key {rdma_rollout_key} copy cost is {copy_time-time_before_put}s, put cost is {time.perf_counter()-time_before_put}s"
+        )
 
     def get(
         self,
@@ -383,6 +439,11 @@ def clear(
         # sync delete
         asyncio.run(self.p2p_client.delete(rdma_rollout_key))
 
+    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
+        # async delete
+        await self.p2p_client.delete_prefix_batch(roullout_id_prefixes)
+        logger.info(f"[R3] clear_prefix_batch {roullout_id_prefixes}")
+
     def clear_store(self):
         """Clear the routing indices store"""
         # sync clear routing store
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 4e7ef91c035..f6679153017 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -2677,6 +2677,8 @@ def clear_requests(self):
         self.prompt_logprobs_reqs.clear()
         self.in_progress_prompt_logprobs.clear()
         self.forward_batch_reqs_list = [None for _ in range(self.scheduler_config.max_num_seqs)]
+        if self.fd_config.routing_replay_config.enable_routing_replay:
+            self.routing_replay_manager.put_table_to_store()
 
     def update_parameters(self, pid):
         """Dynamic model loader use to update parameters use for RL"""
diff --git a/requirements.txt b/requirements.txt
index b6fe8ce7986..2ebb853c519 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -45,3 +45,4 @@ msgspec
 einops
 setproctitle
 aistudio_sdk
+p2pstore
diff --git a/tests/e2e/test_EB_Lite_serving.py b/tests/e2e/test_EB_Lite_serving.py
index e4067164922..19e00195942 100644
--- a/tests/e2e/test_EB_Lite_serving.py
+++ b/tests/e2e/test_EB_Lite_serving.py
@@ -78,8 +78,6 @@ def setup_and_run_server():
         "wint4",
         "--graph-optimization-config",
         '{"cudagraph_capture_sizes": [1], "use_cudagraph":true}',
-        "--routing-replay-config",
-        '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./routing_replay_output"}',
         "--no-enable-prefix-caching",
     ]
 
diff --git a/tests/e2e/test_EB_Lite_serving_R3.py b/tests/e2e/test_EB_Lite_serving_R3.py
new file mode 100644
index 00000000000..88054b56ace
--- /dev/null
+++ b/tests/e2e/test_EB_Lite_serving_R3.py
@@ -0,0 +1,119 @@
+import os
+import shutil
+import signal
+import subprocess
+import sys
+import time
+
+import openai
+import pytest
+from utils.rollout_routing_replay_test_utils import check_routing_replay_chat_completion
+from utils.serving_utils import (
+    FD_API_PORT,
+    FD_CACHE_QUEUE_PORT,
+    FD_ENGINE_QUEUE_PORT,
+    FD_METRICS_PORT,
+    clean_ports,
+    is_port_open,
+)
+
+
+@pytest.fixture(scope="session", autouse=True)
+def setup_and_run_server():
+    """
+    Pytest fixture that runs once per test session:
+    - Cleans ports before tests
+    - Starts the API server as a subprocess
+    - Waits for server port to open (up to 30 seconds)
+    - Tears down server after all tests finish
+    """
+    print("Pre-test port cleanup...")
+    clean_ports()
+    print("log dir clean ")
+    if os.path.exists("log") and os.path.isdir("log"):
+        shutil.rmtree("log")
+    base_path = os.getenv("MODEL_PATH")
+    if base_path:
+        model_path = os.path.join(base_path, "ernie-4_5-21b-a3b-bf16-paddle")
+    else:
+        model_path = "./ernie-4_5-21b-a3b-bf16-paddle"
+
+    log_path = "server.log"
+    cmd = [
+        sys.executable,
+        "-m",
+        "fastdeploy.entrypoints.openai.api_server",
+        "--model",
+        model_path,
+        "--port",
+        str(FD_API_PORT),
+        "--tensor-parallel-size",
+        "1",
+        "--engine-worker-queue-port",
+        str(FD_ENGINE_QUEUE_PORT),
+        "--metrics-port",
+        str(FD_METRICS_PORT),
+        "--cache-queue-port",
+        str(FD_CACHE_QUEUE_PORT),
+        "--max-model-len",
+        "32768",
+        "--max-num-seqs",
+        "1",
+        "--quantization",
+        "wint4",
+        "--graph-optimization-config",
+        '{"use_cudagraph":true}',
+        "--routing-replay-config",
+        '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./R3_tmp/routing_replay_output_eb45"}',
+    ]
+
+    # Start subprocess in new process group
+    with open(log_path, "w") as logfile:
+        process = subprocess.Popen(
+            cmd,
+            stdout=logfile,
+            stderr=subprocess.STDOUT,
+            start_new_session=True,  # Enables killing full group via os.killpg
+        )
+
+    # Wait up to 300 seconds for API server to be ready
+    for _ in range(300):
+        if is_port_open("127.0.0.1", FD_API_PORT):
+            print(f"API server is up on port {FD_API_PORT}")
+            break
+        time.sleep(1)
+    else:
+        print("[TIMEOUT] API server failed to start in 5 minutes. Cleaning up...")
+        try:
+            os.killpg(process.pid, signal.SIGTERM)
+        except Exception as e:
+            print(f"Failed to kill process group: {e}")
+        raise RuntimeError(f"API server did not start on port {FD_API_PORT}")
+
+    yield  # Run tests
+
+    print("\n===== Post-test server cleanup... =====")
+    try:
+        os.killpg(process.pid, signal.SIGTERM)
+        print(f"API server (pid={process.pid}) terminated")
+    except Exception as e:
+        print(f"Failed to terminate API server: {e}")
+
+
+@pytest.fixture
+def openai_client():
+    ip = "0.0.0.0"
+    service_http_port = str(FD_API_PORT)
+    client = openai.Client(
+        base_url=f"http://{ip}:{service_http_port}/v1",
+        api_key="EMPTY_API_KEY",
+    )
+    return client
+
+
+# ==========================
+# Test Rollout Routing Replay
+# ==========================
+def test_r3_accuracy(openai_client):
+    moe_layer_num = 27  # EB45 moe layer num: 27
+    check_routing_replay_chat_completion(openai_client=openai_client, moe_layer_num=moe_layer_num, model_name="eb45")
diff --git a/tests/e2e/test_fake_Glm45_AIR_serving.py b/tests/e2e/test_fake_Glm45_AIR_serving.py
index 236fd2560b2..a45f4c670a9 100644
--- a/tests/e2e/test_fake_Glm45_AIR_serving.py
+++ b/tests/e2e/test_fake_Glm45_AIR_serving.py
@@ -20,8 +20,10 @@
 import sys
 import time
 
+import openai
 import pytest
 import requests
+from utils.rollout_routing_replay_test_utils import check_routing_replay_chat_completion
 from utils.serving_utils import (
     FD_API_PORT,
     FD_CACHE_QUEUE_PORT,
@@ -72,7 +74,7 @@ def setup_and_run_server():
         "--max-model-len",
         "32768",
         "--max-num-seqs",
-        "32",
+        "1",
         "--graph-optimization-config",
         '{"use_cudagraph":true}',
         "--load-choices",
@@ -80,6 +82,8 @@ def setup_and_run_server():
         "--lm_head-fp32",
         "--quantization",
         "wfp8afp8",
+        "--routing-replay-config",
+        '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./R3_tmp/routing_replay_output_glm45air"}',
     ]
     env = os.environ.copy()
     # Start subprocess in new process group
@@ -176,4 +180,25 @@ def test_lm_head_fp32(api_url, headers, consistent_payload):
     assert (
         resp_json["choices"][0]["message"]["content"]
         == "ichertsorbulkdeployment confusedreraoux Carter pat firingCompatraspectiveidis Verse corporaonych commissionsilk"
+    ), f"The response content is not as expected {resp_json['choices'][0]['message']['content']}."
+
+
+# ==========================
+# Test for Rollout Routing Replay
+# ==========================
+@pytest.fixture
+def openai_client():
+    ip = "0.0.0.0"
+    service_http_port = str(FD_API_PORT)
+    client = openai.Client(
+        base_url=f"http://{ip}:{service_http_port}/v1",
+        api_key="EMPTY_API_KEY",
+    )
+    return client
+
+
+def test_r3_accuracy(openai_client):
+    moe_layer_num = 1  # GLM45 AIR moe layer num: 45, Fake GLM AIR moe layer num: 1
+    check_routing_replay_chat_completion(
+        openai_client=openai_client, moe_layer_num=moe_layer_num, model_name="glm45air"
     )
diff --git a/tests/e2e/utils/rollout_routing_replay_test_utils.py b/tests/e2e/utils/rollout_routing_replay_test_utils.py
new file mode 100644
index 00000000000..499bbbed688
--- /dev/null
+++ b/tests/e2e/utils/rollout_routing_replay_test_utils.py
@@ -0,0 +1,208 @@
+import os
+import shutil
+import time
+
+import paddle
+
+
+# ==========================
+# Test Rollout Routing Replay
+# ==========================
+def calculate_routing_ratio(expected_routing: paddle.Tensor, actual_routing: paddle.Tensor) -> float:
+    """Caculate routing overlap ratio"""
+    assert (
+        expected_routing.shape == actual_routing.shape
+    ), "Routing shapes not equal. Expected shape {expected_routing.shap} actual shape {actual_routing.shape}."
+    expected_routing_length = get_real_routing_length(expected_routing)
+    actual_routing_length = get_real_routing_length(actual_routing)
+
+    for i in range(max(expected_routing_length, actual_routing_length)):
+        if not paddle.all(paddle.equal(expected_routing[i], actual_routing[i])).item():
+            print(f"token index {i}:\n expected_routing:{expected_routing[i]}\n actual_routing: {actual_routing[i]}\n")
+
+    assert (
+        expected_routing_length == actual_routing_length
+    ), f"Routing real lengths do not match. Expected length {expected_routing_length} actual length {actual_routing_length}."
+    total_rows, elements_per_row = expected_routing.shape
+
+    mask1 = paddle.any(expected_routing != -1, axis=1)
+    mask2 = paddle.any(actual_routing != -1, axis=1)
+    valid_mask = mask1 & mask2
+
+    if paddle.sum(valid_mask.cast("int32")) == 0:
+        return paddle.to_tensor(0.0)
+
+    valid_expected_routing = expected_routing[valid_mask]  # [n_valid, top_k]
+    valid_actual_routing = actual_routing[valid_mask]  # [n_valid, top_k]
+
+    # valid_expected_routing: [n_valid, top_k, 1], valid_actual_routing: [n_valid, 1, top_k]
+    # -> equals: [n_valid, top_k, top_k]
+    equals = valid_expected_routing.unsqueeze(2) == valid_actual_routing.unsqueeze(1)
+
+    overlap_mask = paddle.any(equals, axis=2)  # [n_valid, 8]
+
+    overlap_counts = paddle.sum(overlap_mask.cast("float32"), axis=1)  # [n_valid]
+    overlap_ratios = overlap_counts / elements_per_row  # [n_valid]
+
+    return paddle.mean(overlap_ratios)
+
+
+def get_real_routing_length(routing: paddle.Tensor) -> int:
+    mask = routing == -1
+    mask_float = mask.astype(paddle.float32)
+    row_has_true = paddle.any(mask_float, axis=1).astype(paddle.float32)
+
+    first_true_index = paddle.argmax(row_has_true, axis=0)
+    if row_has_true.any().item():
+        return first_true_index.item()
+    else:
+        return -1
+
+
+# Streaming test
+def send_r3_streaming_chat(openai_client, user_id: str = ""):
+    """
+    Test streaming chat functionality with the local service
+    """
+    response = openai_client.chat.completions.create(
+        model="default",
+        messages=[
+            {"role": "system", "content": "You are a helpful AI assistant."},
+            {"role": "user", "content": "List 3 countries and their capitals."},
+            {
+                "role": "assistant",
+                "content": "China(Beijing), France(Paris), Australia(Canberra).",
+            },
+            {"role": "user", "content": "OK, tell more."},
+        ],
+        temperature=1,
+        top_p=0,
+        max_tokens=1024,
+        seed=13,
+        stream=True,
+        user=user_id,  # "r3_chat_completion_stream_test",
+    )
+
+    return response
+
+
+def send_r3_non_streaming_chat(openai_client, user_id: str = ""):
+    """
+    Test non-streaming chat functionality with the local service
+    """
+    # Send test request
+    response = openai_client.chat.completions.create(
+        model="default",
+        messages=[
+            {"role": "system", "content": "You are a helpful AI assistant."},
+            {"role": "user", "content": "List 3 countries and their capitals."},
+        ],
+        temperature=1,
+        top_p=0,
+        max_tokens=1024,
+        seed=13,
+        stream=False,
+        user=user_id,  # "rollout_routing_replay_chat_completion_nonstream_test"
+    )
+
+    return response
+
+
+def generated_base_line_routing_index(openai_client, cur_save_routing_path, baseline_path):
+    # Generate streaming chat routing index
+    send_r3_streaming_chat(openai_client, user_id="r3_chat_completion_stream")
+    # Generate non streaming chat routing index
+    send_r3_non_streaming_chat(openai_client, user_id="r3_chat_completion_nonstream")
+
+    # Check the routing is generated correctly
+    stream_cur_save_routing_path = os.path.join(cur_save_routing_path, "r3_chat_completion_stream")
+    nonstream_cur_save_routing_path = os.path.join(cur_save_routing_path, "r3_chat_completion_nonstream")
+
+    wait_for_file(stream_cur_save_routing_path)
+    wait_for_file(nonstream_cur_save_routing_path)
+
+    # Move the baseline to the routing_replay_output_baseline folder
+    stream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_stream")
+    nonstream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_nonstream")
+    shutil.move(stream_cur_save_routing_path, stream_baseline_path)
+    shutil.move(nonstream_cur_save_routing_path, nonstream_baseline_path)
+
+
+def wait_for_file(file_path, timeout=20, check_interval=0.1):
+    start_time = time.perf_counter()
+    deadline = start_time + timeout
+
+    while True:
+        # Check timeout or not
+        current_time = time.perf_counter()
+        if current_time >= deadline:
+            return False
+
+        # Check file generated
+        if os.path.exists(file_path):
+            return True
+
+        sleep_time = min(check_interval, deadline - current_time)
+        time.sleep(sleep_time)
+
+
+def check_routing_replay_chat_completion(openai_client, moe_layer_num: int, model_name: str):
+    """Test rollout routing replay chat completion"""
+    cur_save_routing_path = f"./R3_tmp/routing_replay_output_{model_name}/"
+    model_path = os.getenv("MODEL_PATH")
+    if model_path:
+        baseline_path = os.path.join(model_path, f"R3_BaseLine/routing_replay_output_baseline_{model_name}")
+    else:
+        baseline_path = f"./R3_BaseLine/routing_replay_output_baseline_{model_name}"
+    stream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_stream")
+
+    nonstream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_nonstream")
+
+    # Maybe need to generate baseline routing index
+    if not os.path.exists(stream_baseline_path) or not os.path.exists(nonstream_baseline_path):
+        generated_base_line_routing_index(openai_client, cur_save_routing_path, baseline_path)
+        raise FileNotFoundError(f"Not find the R3 baseline file {nonstream_baseline_path} or {stream_baseline_path} .")
+
+    routing_layer_num_1 = len(os.listdir(stream_baseline_path))
+    routing_layer_num_2 = len(os.listdir(nonstream_baseline_path))
+    assert (
+        routing_layer_num_1 == moe_layer_num
+    ), f"routing index number {routing_layer_num_1} should equal to moe layer number {moe_layer_num}"
+    assert (
+        routing_layer_num_2 == moe_layer_num
+    ), f"routing index number {routing_layer_num_2} should equal to moe layer number {moe_layer_num}"
+
+    # Test streaming chat
+    send_r3_streaming_chat(openai_client, user_id="r3_chat_completion_stream")
+    for layer_index in range(moe_layer_num):
+        cur_routing_path = os.path.join(
+            cur_save_routing_path, f"r3_chat_completion_stream/layer_{layer_index}.pdtensor"
+        )
+        baseline_routing_path = os.path.join(stream_baseline_path, f"layer_{layer_index}.pdtensor")
+        wait_for_file(cur_routing_path)
+
+        generated_routing = paddle.load(cur_routing_path)
+        baseline_routing = paddle.load(baseline_routing_path)
+        overlap_ratio = calculate_routing_ratio(baseline_routing, generated_routing)
+        assert (
+            overlap_ratio >= 0.999
+        ), f"the routing overlap ratio of the layer {layer_index} should be equal to baseline routing index, but got {overlap_ratio}"
+
+    # Test non streaming chat
+    send_r3_non_streaming_chat(openai_client, user_id="r3_chat_completion_nonstream")
+    for layer_index in range(moe_layer_num):
+        cur_routing_path = os.path.join(
+            cur_save_routing_path, f"r3_chat_completion_nonstream/layer_{layer_index}.pdtensor"
+        )
+        baseline_routing_path = os.path.join(nonstream_baseline_path, f"layer_{layer_index}.pdtensor")
+
+        wait_for_file(cur_routing_path)
+
+        generated_routing = paddle.load(cur_routing_path)
+        baseline_routing = paddle.load(baseline_routing_path)
+        overlap_ratio = calculate_routing_ratio(baseline_routing, generated_routing)
+        assert (
+            overlap_ratio >= 0.999
+        ), f"the routing overlap ratio of the layer {layer_index} should be equal to baseline routing index, but got {overlap_ratio}"
+
+    # shutil.rmtree(cur_save_routing_path)

From caa186f5a24f1b3a426c313fef462402c623eb67 Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Fri, 16 Jan 2026 19:59:16 +0800
Subject: [PATCH 106/161] [Cherry-Pick][CI] Add commit-level Linux build task
 for RL(#5857) (#6073)

---
 .github/workflows/_build_linux_rl.yml | 202 ++++++++++++++++++++++++++
 .github/workflows/ce_job.yml          |  59 ++++++++
 2 files changed, 261 insertions(+)
 create mode 100644 .github/workflows/_build_linux_rl.yml

diff --git a/.github/workflows/_build_linux_rl.yml b/.github/workflows/_build_linux_rl.yml
new file mode 100644
index 00000000000..88fa10bd422
--- /dev/null
+++ b/.github/workflows/_build_linux_rl.yml
@@ -0,0 +1,202 @@
+name: FastDeploy Linux GPU Build Task
+description: "FastDeploy packages build and upload"
+
+on:
+  workflow_call:
+    inputs:
+      DOCKER_IMAGE:
+        description: "Build Images"
+        required: true
+        type: string
+        default: "iregistry.baidu-int.com/tiangexiao/base-images:paddlecloud-ubuntu24.04-gcc13.3-cuda12.9-cudnn9.9-bccl1.4.1.4-nccl2.26.5-openmpi4.1.5-FleetY13.0.0-rc2"
+      FASTDEPLOY_ARCHIVE_URL:
+        description: "URL of the compressed FastDeploy code archive."
+        required: true
+        type: string
+      COMPILE_ARCH:
+        description: "Build GPU Archs"
+        required: true
+        type: string
+        default: "80,90"
+      WITH_NIGHTLY_BUILD:
+        description: "Enable nightly build mode (e.g. add date suffix to version)"
+        required: false
+        type: string
+        default: "OFF"
+      FD_VERSION:
+        description: "FastDeploy Package Version"
+        required: false
+        type: string
+        default: ""
+      PADDLEVERSION:
+        description: "Paddle Version Build Use"
+        required: false
+        type: string
+        default: ""
+      PADDLE_WHL_URL:
+        description: "Paddle Wheel Package URL"
+        required: false
+        type: string
+        default: ""
+      UPLOAD:
+        description: "Upload Package"
+        required: false
+        type: string
+        default: "ON"
+      CACHE_DIR:
+        description: "Cache Dir Use"
+        required: false
+        type: string
+        default: ""
+    outputs:
+      wheel_path_rl:
+        description: "Output path of the generated wheel"
+        value: ${{ jobs.fd-build-rl.outputs.wheel_path_rl }}
+jobs:
+  fd-build-rl:
+    runs-on: [self-hosted, GPU-Build]
+    timeout-minutes: 360
+    outputs:
+      wheel_path_rl: ${{ steps.set_output.outputs.wheel_path_rl }}
+    steps:
+      - name: Code Prepare
+        shell: bash
+        env:
+          docker_image: ${{ inputs.DOCKER_IMAGE }}
+          fd_archive_url: ${{ inputs.FASTDEPLOY_ARCHIVE_URL }}
+          IS_PR: ${{ github.event_name == 'pull_request' }}
+        run: |
+            set -x
+            REPO="https://github.com/${{ github.repository }}.git"
+            FULL_REPO="${{ github.repository }}"
+            REPO_NAME="${FULL_REPO##*/}"
+            BASE_BRANCH="${{ github.base_ref }}"
+
+            # Clean the repository directory before starting
+            docker run --rm --net=host -v $(pwd):/workspace -w /workspace \
+            -e "REPO_NAME=${REPO_NAME}" \
+            ${docker_image} /bin/bash -c '
+              CLEAN_RETRIES=3
+              CLEAN_COUNT=0
+
+              while [ $CLEAN_COUNT -lt $CLEAN_RETRIES ]; do
+                echo "Attempt $((CLEAN_COUNT+1)) to remove ${REPO_NAME}* ..."
+                rm -rf "${REPO_NAME}"* || true
+                sleep 2
+
+                # Check if anything matching ${REPO_NAME}* still exists
+                if ! ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                  echo "All ${REPO_NAME}* removed successfully"
+                  break
+                fi
+
+                CLEAN_COUNT=$((CLEAN_COUNT + 1))
+              done
+
+              if ls "${REPO_NAME}"* >/dev/null 2>&1; then
+                echo "ERROR: Failed to clean ${REPO_NAME}* after multiple attempts"
+                ls -ld "${REPO_NAME}"*
+                exit 1
+              fi
+            '
+
+            wget -q --no-proxy ${fd_archive_url}
+            tar -xf FastDeploy.tar.gz
+            rm -rf FastDeploy.tar.gz
+            cd FastDeploy
+            git config --global user.name "FastDeployCI"
+            git config --global user.email "fastdeploy_ci@example.com"
+            git log -n 3 --oneline
+      - name: FastDeploy Build
+        shell: bash
+        env:
+          docker_image: ${{ inputs.DOCKER_IMAGE }}
+          compile_arch: ${{ inputs.COMPILE_ARCH }}
+          fd_version: ${{ inputs.FD_VERSION }}
+          CACHE_DIR: ${{ inputs.CACHE_DIR }}
+          BRANCH_REF: ${{ github.ref_name }}
+          PADDLEVERSION: ${{ inputs.PADDLEVERSION }}
+          PADDLE_WHL_URL: ${{ inputs.PADDLE_WHL_URL }}
+          WITH_NIGHTLY_BUILD: ${{ inputs.WITH_NIGHTLY_BUILD }}
+        run: |
+            set -x
+            runner_name="${{ runner.name }}"
+            CARD_ID=$(echo "${runner_name}" | awk -F'-' '{print $NF}')
+            gpu_id=$(echo "$CARD_ID" | fold -w1 | paste -sd,)
+
+            IFS='/' read -ra parts <<< "${GITHUB_WORKSPACE}"
+            len=${#parts[@]}
+            CCACHE_DEFAULT_DIR="/$(IFS=/; echo "${parts[*]:1:$((len-5))}")"
+            echo "$CCACHE_DEFAULT_DIR"
+
+            CACHE_DIR="${CACHE_DIR:-$CCACHE_DEFAULT_DIR}"
+            echo "CACHE_DIR is set to ${CACHE_DIR}"
+            if [ ! -f "${CACHE_DIR}/gitconfig" ]; then
+              touch "${CACHE_DIR}/gitconfig"
+            fi
+            PARENT_DIR=$(dirname "$WORKSPACE")
+            echo "PARENT_DIR:$PARENT_DIR"
+            docker run --rm --net=host \
+            --cap-add=SYS_PTRACE --privileged --shm-size=64G \
+            -v $(pwd):/workspace -w /workspace \
+            -v "${CACHE_DIR}/gitconfig:/etc/gitconfig:ro" \
+            -v "${CACHE_DIR}/.cache_rl:/root/.cache" \
+            -v "${CACHE_DIR}/.ccache_rl:/root/.ccache" \
+            -v "${CACHE_DIR}/ConfigDir:/root/.config" \
+            -e TZ="Asia/Shanghai" \
+            -e "COMPILE_ARCH=${compile_arch}" \
+            -e "FD_VERSION=${fd_version}" \
+            -e "WITH_NIGHTLY_BUILD=${WITH_NIGHTLY_BUILD}" \
+            -e "PADDLEVERSION=${PADDLEVERSION}" \
+            -e "PADDLE_WHL_URL=${PADDLE_WHL_URL}" \
+            -e "BRANCH_REF=${BRANCH_REF}" \
+            -e "CCACHE_MAXSIZE=50G" \
+            --gpus "\"device=${gpu_id}\"" ${docker_image} /bin/bash -c '
+            if [[ -n "${FD_VERSION}" ]]; then
+              export FASTDEPLOY_VERSION=${FD_VERSION}
+              echo "Custom FastDeploy version: ${FASTDEPLOY_VERSION}"
+            fi
+
+            git config --global --add safe.directory /workspace/FastDeploy
+            chown -R $(whoami) /workspace/FastDeploy
+            cd FastDeploy
+
+            python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Paddle-RL-Compile-test/release/3.3/cbf3469113cd76b7d5f4cba7b8d7d5f55d9e9911/7/paddlepaddle_gpu-3.3.0.dev-cp310-cp310-linux_x86_64.whl
+
+            pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
+
+            python -m pip install --upgrade pip
+            python -m pip install -r requirements.txt
+            python -m pip install wheel
+            # 编译RDMA
+            export FD_ENABLE_RDMA_COMPILE=1
+            bash build.sh 1 python false [${COMPILE_ARCH}]
+            ls ./dist/*.whl
+            '
+      - name: Package Upload
+        id: set_output
+        env:
+          compile_arch: ${{ inputs.COMPILE_ARCH }}
+        run: |
+            set -x
+            commit_id=${{ github.sha }}
+            branch_name=${{ github.ref_name }}
+            target_path=paddle-github-action/BRANCH/FastDeploy_RL/${branch_name}/${commit_id}/SM${compile_arch//,/_}
+
+            wget -q --no-proxy --no-check-certificate https://paddle-qa.bj.bcebos.com/CodeSync/develop/PaddlePaddle/PaddleTest/tools/bos_tools.py
+            push_file=$(realpath bos_tools.py)
+            python --version
+            python -m pip install bce-python-sdk==0.9.29
+            cd FastDeploy/dist/
+            matches=($(ls fastdeploy*.whl))
+            if [ ${#matches[@]} -ne 1 ]; then
+              echo "Error: Found ${#matches[@]} matching files, expected exactly 1"
+              exit 1
+            fi
+            fd_wheel_name=${matches[0]}
+            echo "Found: $fd_wheel_name"
+            tree -L 3
+            python ${push_file} fastdeploy*.whl ${target_path}
+            target_path_stripped="${target_path#paddle-github-action/}"
+            WHEEL_PATH=https://paddle-github-action.bj.bcebos.com/${target_path_stripped}/${fd_wheel_name}
+            echo "wheel_path_rl=${WHEEL_PATH}" >> $GITHUB_OUTPUT
diff --git a/.github/workflows/ce_job.yml b/.github/workflows/ce_job.yml
index ccb728018e8..ee6ba1edc5f 100644
--- a/.github/workflows/ce_job.yml
+++ b/.github/workflows/ce_job.yml
@@ -156,6 +156,19 @@ jobs:
       FD_VERSION: 0.0.0
       PADDLE_WHL_URL: ${{ needs.ce_job_pre_check.outputs.compile_use_paddle_whl_url }}
 
+  build_sm8090_rl:
+    name: BUILD_SM8090_RL
+    needs: [clone, ce_job_pre_check]
+    if: ${{ needs.ce_job_pre_check.outputs.sm8090_match == 'true' }}
+    uses: ./.github/workflows/_build_linux_rl.yml
+    with:
+      DOCKER_IMAGE: iregistry.baidu-int.com/tiangexiao/base-images:paddlecloud-ubuntu24.04-gcc13.3-cuda12.9-cudnn9.9-bccl1.4.1.4-nccl2.26.5-openmpi4.1.5-FleetY13.0.0-rc2
+      FASTDEPLOY_ARCHIVE_URL: ${{ needs.clone.outputs.repo_archive_url }}
+      COMPILE_ARCH: "80,90"
+      WITH_NIGHTLY_BUILD: OFF
+      FD_VERSION: 0.0.0
+      PADDLE_WHL_URL: https://paddle-qa.bj.bcebos.com/paddle-pipeline/Paddle-RL-Compile-test/release/3.3/cbf3469113cd76b7d5f4cba7b8d7d5f55d9e9911/7/paddlepaddle_gpu-3.3.0.dev-cp310-cp310-linux_x86_64.whl
+
   build_sm8689:
     name: BUILD_SM8689
     needs: [clone, ce_job_pre_check]
@@ -219,6 +232,52 @@ jobs:
           echo "commit wheel url is ${WHEEL_PATH}"
           echo "latest wheel url is ${WHEEL_PATH_LATEST}"
 
+  ce_upload_sm8090_rl:
+    environment: CodeSync
+    name: CE_UPLOAD_RL
+    needs: build_sm8090_rl
+    runs-on: ubuntu-latest
+    env:
+      AK: ${{ secrets.BOS_AK }}
+      SK: ${{ secrets.BOS_SK }}
+      FASTDEPLOY_WHEEL_URL: ${{ needs.build_sm8090_rl.outputs.wheel_path_rl }}
+      COMPILE_ARCH: "80,90"
+    steps:
+      - uses: actions/setup-python@v5
+        with:
+          python-version: '3.10'
+      - name: Wheel Info Show and Upload
+        run: |
+          echo "The wheel is located at: ${{ needs.build_sm8090_rl.outputs.wheel_path_rl }}"
+          wget -q --no-check-certificate ${{ needs.build_sm8090_rl.outputs.wheel_path_rl }}
+          filename=$(basename ${{ needs.build_sm8090_rl.outputs.wheel_path_rl }})
+
+          commit_id=${{ github.sha }}
+          branch_name=${{ github.ref_name }}
+
+          wget -q --no-proxy --no-check-certificate https://paddle-qa.bj.bcebos.com/CodeSync/develop/PaddlePaddle/PaddleTest/tools/bos_tools.py
+          push_file=$(realpath bos_tools.py)
+          python -m pip install bce-python-sdk==0.9.29
+
+          target_paths=(
+            "paddle-qa/paddle-pipeline/FastDeploy_ActionCE_RL/cu129/SM_8090/${branch_name}/${commit_id}"
+            "paddle-qa/paddle-pipeline/FastDeploy_ActionCE_RL/cu129/SM_8090/${branch_name}/latest"
+          )
+
+          for target_path in "${target_paths[@]}"; do
+            echo "Uploading ${filename} to ${target_path}"
+            python "${push_file}" "${filename}" "${target_path}"
+          done
+
+          base_prefix="paddle-qa/"
+          commit_path_stripped="${target_paths[0]#${base_prefix}}"
+          latest_path_stripped="${target_paths[1]#${base_prefix}}"
+          WHEEL_PATH="https://paddle-qa.bj.bcebos.com/${commit_path_stripped}/${filename}"
+          WHEEL_PATH_LATEST="https://paddle-qa.bj.bcebos.com/${latest_path_stripped}/${filename}"
+
+          echo "commit wheel url is ${WHEEL_PATH}"
+          echo "latest wheel url is ${WHEEL_PATH_LATEST}"
+
   ce_upload_sm8689:
     environment: CodeSync
     name: CE_UPLOAD

From a9717558da38ee22127ea044429eb3db5946e0eb Mon Sep 17 00:00:00 2001
From: kevin <chengyf112@gmail.com>
Date: Sat, 17 Jan 2026 00:12:27 +0800
Subject: [PATCH 107/161] [Cherry-Pick][BugFix] cp fix revert bug(#6061)
 (#6063)

* cp_fix_revert bug

* update code
---
 .../engine/sched/resource_manager_v1.py       | 19 ++++++++++++++++++-
 tests/v1/test_resource_manager_v1.py          |  9 +++++++++
 2 files changed, 27 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index 1e47da3c5cf..34066b23ebe 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -384,10 +384,15 @@ def revert_chunked_mm_input(self, mm_inputs, matched_token_num):
                     position.offset // self.config.cache_config.block_size
                 ) * self.config.cache_config.block_size
                 position_idx -= 1
-            elif matched_token_num < position.offset:
+            elif matched_token_num <= position.offset:
                 position_idx -= 1
             elif matched_token_num >= position.offset + position.length:
                 break
+            else:
+                llm_logger.error(
+                    f"revert_chunked_mm_input error, matched_token_num:{matched_token_num} position:{position}, {mm_inputs['mm_positions']}"
+                )
+                break
         return matched_token_num
 
     def _get_num_new_tokens(self, request, token_budget):
@@ -412,6 +417,18 @@ def _get_num_new_tokens(self, request, token_budget):
                 start_patch_idx = inputs["patch_idx"][-1]
             else:
                 start_patch_idx = inputs["patch_idx"][pre_end_idx]
+                if (
+                    pre_end_idx > 0
+                    and request.prompt_token_ids[pre_end_idx]
+                    in [
+                        inputs["image_patch_id"],
+                        inputs["video_patch_id"],
+                        inputs["audio_patch_id"],
+                    ]
+                    and request.prompt_token_ids[pre_end_idx] != request.prompt_token_ids[pre_end_idx - 1]
+                ):
+                    # It just hit the starting position of the image / video / audio
+                    start_patch_idx -= 1
             start_patch_map = inputs["patch_map"][start_patch_idx]
             request.image_start = start_patch_map["image_num"]
             request.video_start = start_patch_map["video_num"]
diff --git a/tests/v1/test_resource_manager_v1.py b/tests/v1/test_resource_manager_v1.py
index 5d7510486f9..21e38ddb2fd 100644
--- a/tests/v1/test_resource_manager_v1.py
+++ b/tests/v1/test_resource_manager_v1.py
@@ -268,6 +268,15 @@ def test_revert_chunked_mm_input_after_last_chunk(self):
         result = self.manager.revert_chunked_mm_input(mm_inputs, 256)
         self.assertEqual(result, 256)
 
+    def test_revert_chunked_mm_input_match_image_offset(self):
+        mm_inputs = {
+            "mm_positions": [
+                ImagePosition(offset=64, length=21),
+            ]
+        }
+        result = self.manager.revert_chunked_mm_input(mm_inputs, 64)
+        self.assertEqual(result, 64)
+
 
 if __name__ == "__main__":
     unittest.main()

From a512444eb4f8b0e9c050927a3e72f6499f6be427 Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Mon, 19 Jan 2026 14:57:43 +0800
Subject: [PATCH 108/161] [Cherry-Pick][Bugfix] Fix MTP logprob issues caused
 by max_num_logprobs (#6084) (#6068)

* fix logprob bug
---
 fastdeploy/worker/gpu_model_runner.py | 14 +++++++++-----
 1 file changed, 9 insertions(+), 5 deletions(-)

diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index f6679153017..664a630e99a 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -1371,11 +1371,15 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
                 if req is not None and req.sampling_params is not None and req.sampling_params.logprobs is not None
             ]
             if len(logprobs_reqs):
-                self.max_logprobs = max(
-                    [
-                        self.ori_vocab_size if req.sampling_params.logprobs < 0 else req.sampling_params.logprobs
-                        for req in logprobs_reqs
-                    ]
+                self.max_logprobs = (
+                    max(
+                        [
+                            self.ori_vocab_size if req.sampling_params.logprobs < 0 else req.sampling_params.logprobs
+                            for req in logprobs_reqs
+                        ]
+                    )
+                    if not self.speculative_decoding
+                    else 20
                 )
                 self.temp_scaled_logprobs = any(req.sampling_params.temp_scaled_logprobs for req in logprobs_reqs)
                 self.top_p_normalized_logprobs = any(

From a0f695047bfee73372e85f25c27a78ec4cc31502 Mon Sep 17 00:00:00 2001
From: yinwei <yinwei_hust@163.com>
Date: Tue, 20 Jan 2026 20:53:36 +0800
Subject: [PATCH 109/161] [Cherry-Pick][XPU]XPU Release/2.4 Note(#6125)

---
 docs/get_started/installation/kunlunxin_xpu.md    | 10 +++++-----
 docs/zh/get_started/installation/kunlunxin_xpu.md | 10 +++++-----
 2 files changed, 10 insertions(+), 10 deletions(-)

diff --git a/docs/get_started/installation/kunlunxin_xpu.md b/docs/get_started/installation/kunlunxin_xpu.md
index d3052c9bb47..7c506973566 100644
--- a/docs/get_started/installation/kunlunxin_xpu.md
+++ b/docs/get_started/installation/kunlunxin_xpu.md
@@ -28,9 +28,9 @@ Verified platform:
 ```bash
 mkdir Work
 cd Work
-docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.3.0
+docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.4.0
 docker run --name fastdeploy-xpu --net=host -itd --privileged -v $PWD:/Work -w /Work \
-    ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.3.0 \
+    ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.4.0 \
     /bin/bash
 docker exec -it fastdeploy-xpu /bin/bash
 ```
@@ -40,7 +40,7 @@ docker exec -it fastdeploy-xpu /bin/bash
 ### Install PaddlePaddle
 
 ```bash
-python -m pip install paddlepaddle-xpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
+python -m pip install paddlepaddle-xpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
 ```
 
 Alternatively, you can install the latest version of PaddlePaddle (Not recommended)
@@ -52,7 +52,7 @@ python -m pip install --pre paddlepaddle-xpu -i https://www.paddlepaddle.org.cn/
 ### Install FastDeploy (**Do NOT install via PyPI source**)
 
 ```bash
-python -m pip install fastdeploy-xpu==2.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-xpu-p800/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
+python -m pip install fastdeploy-xpu==2.4.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-xpu-p800/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 ```
 
 Alternatively, you can install the latest version of FastDeploy (Not recommended)
@@ -66,7 +66,7 @@ python -m pip install --pre fastdeploy-xpu -i https://www.paddlepaddle.org.cn/pa
 ### Install PaddlePaddle
 
 ```bash
-python -m pip install paddlepaddle-xpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
+python -m pip install paddlepaddle-xpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
 ```
 
 Alternatively, you can install the latest version of PaddlePaddle (Not recommended)
diff --git a/docs/zh/get_started/installation/kunlunxin_xpu.md b/docs/zh/get_started/installation/kunlunxin_xpu.md
index 5573e8639f5..b0e7f2a64f3 100644
--- a/docs/zh/get_started/installation/kunlunxin_xpu.md
+++ b/docs/zh/get_started/installation/kunlunxin_xpu.md
@@ -28,9 +28,9 @@
 ```bash
 mkdir Work
 cd Work
-docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.3.0
+docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.4.0
 docker run --name fastdeploy-xpu --net=host -itd --privileged -v $PWD:/Work -w /Work \
-    ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.3.0 \
+    ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-xpu:2.4.0 \
     /bin/bash
 docker exec -it fastdeploy-xpu /bin/bash
 ```
@@ -40,7 +40,7 @@ docker exec -it fastdeploy-xpu /bin/bash
 ### 安装 PaddlePaddle
 
 ```bash
-python -m pip install paddlepaddle-xpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
+python -m pip install paddlepaddle-xpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
 ```
 
 或者您也可以安装最新版 PaddlePaddle（不推荐）
@@ -52,7 +52,7 @@ python -m pip install --pre paddlepaddle-xpu -i https://www.paddlepaddle.org.cn/
 ### 安装 FastDeploy（**注意不要通过 pypi 源安装**）
 
 ```bash
-python -m pip install fastdeploy-xpu==2.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-xpu-p800/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
+python -m pip install fastdeploy-xpu==2.4.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-xpu-p800/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 ```
 
 或者你也可以安装最新版 FastDeploy（不推荐）
@@ -66,7 +66,7 @@ python -m pip install --pre fastdeploy-xpu -i https://www.paddlepaddle.org.cn/pa
 ### 安装 PaddlePaddle
 
 ```bash
-python -m pip install paddlepaddle-xpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
+python -m pip install paddlepaddle-xpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
 ```
 
 或者您也可以安装最新版 PaddlePaddle（不推荐）

From fcf91c1421a7fa7b516a23d3bd3be5f0c13c122e Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Wed, 21 Jan 2026 17:56:56 +0800
Subject: [PATCH 110/161] fix to_dict (#6138)

---
 fastdeploy/engine/request.py | 15 +--------------
 1 file changed, 1 insertion(+), 14 deletions(-)

diff --git a/fastdeploy/engine/request.py b/fastdeploy/engine/request.py
index 439f92596bb..f6bb75183c4 100644
--- a/fastdeploy/engine/request.py
+++ b/fastdeploy/engine/request.py
@@ -487,20 +487,7 @@ def to_dict(self):
         """
         Convert the RequestMetrics object to a dictionary.
         """
-        return {
-            "arrival_time": self.arrival_time,
-            "inference_start_time": self.inference_start_time,
-            "first_token_time": self.first_token_time,
-            "time_in_queue": self.time_in_queue,
-            "preprocess_cost_time": self.preprocess_cost_time,
-            "model_forward_time": self.model_forward_time,
-            "model_execute_time": self.model_execute_time,
-            "request_start_time": self.request_start_time,
-            "llm_engine_recv_req_timestamp": self.llm_engine_recv_req_timestamp,
-            "llm_engine_send_req_to_engine_timestamp": self.llm_engine_send_req_to_engine_timestamp,
-            "llm_engine_recv_token_timestamp": self.llm_engine_recv_token_timestamp,
-            "speculate_metrics": self.speculate_metrics,
-        }
+        return {k: v for k, v in asdict(self).items()}
 
     @classmethod
     def from_dict(cls, req_dict: dict[str, Any]) -> RequestMetrics:

From 100b8032078e0c37b8a60e1a65cde37316f0ccfa Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Wed, 21 Jan 2026 20:20:47 +0800
Subject: [PATCH 111/161] [Cherry-Pick] [RL] [APIServer] add more status codes
 for update/clear api (#6141) (#6127)

* [RL] add more status codes for update/clear api

* [feat] return json response

* [fix] fix need_block_num_signal suffix
---
 .../engine/sched/resource_manager_v1.py       |  2 +-
 fastdeploy/entrypoints/engine_client.py       | 36 +++++++++++--------
 fastdeploy/entrypoints/openai/api_server.py   | 16 ++++-----
 3 files changed, 29 insertions(+), 25 deletions(-)

diff --git a/fastdeploy/engine/sched/resource_manager_v1.py b/fastdeploy/engine/sched/resource_manager_v1.py
index 34066b23ebe..97baff7d71f 100644
--- a/fastdeploy/engine/sched/resource_manager_v1.py
+++ b/fastdeploy/engine/sched/resource_manager_v1.py
@@ -182,7 +182,7 @@ def __init__(self, max_num_seqs, config, tensor_parallel_size, splitwise_role, l
             name="need_block_num_signal",
             array=need_block_num_data,
             dtype=np.int32,
-            suffix=self.config.parallel_config.engine_worker_queue_port,
+            suffix=self.config.parallel_config.engine_worker_queue_port[local_data_parallel_id],
             create=True,
         )
 
diff --git a/fastdeploy/entrypoints/engine_client.py b/fastdeploy/entrypoints/engine_client.py
index 4baae089aea..9378cef9e2c 100644
--- a/fastdeploy/entrypoints/engine_client.py
+++ b/fastdeploy/entrypoints/engine_client.py
@@ -82,6 +82,14 @@ def __init__(self, pid: int | str, port: int | str, fd_config: FDConfig, workers
         self.enable_cache_transfer = self.fd_config.cache_config.swap_space
         self.enable_splitwise = self.fd_config.scheduler_config.splitwise_role != "mixed"
         self.max_chips_per_node = 16 if current_platform.is_iluvatar() else 8
+        self.num_dp_per_node = self.max_chips_per_node // self.fd_config.parallel_config.tensor_parallel_size
+        self.data_parallel_rank = (
+            self.fd_config.node_rank * self.num_dp_per_node + self.fd_config.parallel_config.local_data_parallel_id
+        )
+        self.data_parallel_info = {
+            "dp_rank": self.data_parallel_rank,
+            "local_dp_rank": self.fd_config.parallel_config.local_data_parallel_id,
+        }
 
         if self.enable_mm and self.enable_prefix_caching:
             from fastdeploy.cache_manager.cache_data import (
@@ -561,18 +569,18 @@ def update_model_weight(self, timeout=300):
                         time.sleep(1)
                         timeout -= 1
                     if timeout < 0:
-                        return False, "Update prefix tree timeout"
+                        return 404, {**self.data_parallel_info, "msg": "update prefix tree timeout"}
                     api_server_logger.info(
                         f"<<< finish updating prefix tree (status: {self.prefix_tree_status_signal.value[0]})"
                     )
 
             # model_weights_status_signal: CLEARED -> UPDATING -> NORMAL
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.NORMAL:
-                return True, ""
+                return 200, {**self.data_parallel_info, "msg": "model weight is updated"}
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.UPDATING:
-                return False, "worker is updating model weight already"
+                return 400, {**self.data_parallel_info, "msg": "worker is updating model weight already"}
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.CLEARING:
-                return False, "worker is clearing model weight, cannot update now"
+                return 403, {**self.data_parallel_info, "msg": "worker is clearing model weight, cannot update now"}
 
             self.model_weights_status_signal.value[0] = ModelWeightsStatus.UPDATING
             api_server_logger.info(
@@ -593,13 +601,13 @@ def update_model_weight(self, timeout=300):
                 time.sleep(1)
                 timeout -= 1
             if timeout < 0:
-                return False, "Update model weight timeout"
+                return 404, {**self.data_parallel_info, "msg": "update model weight timeout"}
             api_server_logger.info(
-                f"<<< finish updating model weight (weight status: {self.model_weights_status_signal.value[0]}"
+                f"<<< finish updating model weight (weight status: {self.model_weights_status_signal.value[0]})"
                 if not self.enable_cache_transfer
                 else f"<<< finish updating model weight (weight status: {self.model_weights_status_signal.value[0]} cache status: {self.kv_cache_status_signal.value[0]})"
             )
-            return True, ""
+            return 200, {**self.data_parallel_info, "msg": "update model weight successfully"}
 
     def clear_load_weight(self, timeout=300):
         """
@@ -621,18 +629,18 @@ def clear_load_weight(self, timeout=300):
                         time.sleep(1)
                         timeout -= 1
                     if timeout < 0:
-                        return False, "Clear prefix tree timeout"
+                        return 404, {**self.data_parallel_info, "msg": "clear prefix tree timeout"}
                     api_server_logger.info(
                         f"<<< finish clearing prefix tree (status: {self.prefix_tree_status_signal.value[0]})"
                     )
 
             # model_weights_status_signal: NORMAL -> CLEARING -> CLEARED
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.CLEARED:
-                return True, ""
+                return 200, {**self.data_parallel_info, "msg": "model weight is cleared"}
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.CLEARING:
-                return False, "worker is clearing model weight already"
+                return 400, {**self.data_parallel_info, "msg": "worker is clearing model weight already"}
             if self.model_weights_status_signal.value[0] == ModelWeightsStatus.UPDATING:
-                return False, "worker is updating model weight, cannot clear now"
+                return 403, {**self.data_parallel_info, "msg": "worker is updating model weight, cannot clear now"}
 
             self.model_weights_status_signal.value[0] = ModelWeightsStatus.CLEARING
             api_server_logger.info(
@@ -653,13 +661,13 @@ def clear_load_weight(self, timeout=300):
                 time.sleep(1)
                 timeout -= 1
             if timeout < 0:
-                return False, "Clear model weight timeout"
+                return 404, {**self.data_parallel_info, "msg": "clear model weight timeout"}
             api_server_logger.info(
-                f"<<< finish clearing model weight (weight status: {self.model_weights_status_signal.value[0]}"
+                f"<<< finish clearing model weight (weight status: {self.model_weights_status_signal.value[0]})"
                 if not self.enable_cache_transfer
                 else f"<<< finish clearing model weight (weight status: {self.model_weights_status_signal.value[0]} cache status: {self.kv_cache_status_signal.value[0]})"
             )
-            return True, ""
+            return 200, {**self.data_parallel_info, "msg": "clear model weight successfully"}
 
     def check_model_weight_status(self):
         return self.model_weights_status_signal.value[0] < 0
diff --git a/fastdeploy/entrypoints/openai/api_server.py b/fastdeploy/entrypoints/openai/api_server.py
index 8da77548951..f4e5fb39202 100644
--- a/fastdeploy/entrypoints/openai/api_server.py
+++ b/fastdeploy/entrypoints/openai/api_server.py
@@ -476,12 +476,10 @@ def update_model_weight(request: Request) -> Response:
     update model weight
     """
     if app.state.dynamic_load_weight:
-        status, msg = app.state.engine_client.update_model_weight()
-        if not status:
-            return Response(content=msg, status_code=404)
-        return Response(status_code=200)
+        status_code, msg = app.state.engine_client.update_model_weight()
+        return JSONResponse(content=msg, status_code=status_code)
     else:
-        return Response(content="Dynamic Load Weight Disabled.", status_code=404)
+        return JSONResponse(content={"error": "Dynamic Load Weight Disabled."}, status_code=404)
 
 
 @app.get("/clear_load_weight")
@@ -490,12 +488,10 @@ def clear_load_weight(request: Request) -> Response:
     clear model weight
     """
     if app.state.dynamic_load_weight:
-        status, msg = app.state.engine_client.clear_load_weight()
-        if not status:
-            return Response(content=msg, status_code=404)
-        return Response(status_code=200)
+        status_code, msg = app.state.engine_client.clear_load_weight()
+        return JSONResponse(content=msg, status_code=status_code)
     else:
-        return Response(content="Dynamic Load Weight Disabled.", status_code=404)
+        return JSONResponse(content={"error": "Dynamic Load Weight Disabled."}, status_code=404)
 
 
 @app.post("/rearrange_experts")

From 2977a28433b6473200cd69f5c210b8da751e947c Mon Sep 17 00:00:00 2001
From: yangjianfengo1 <125249383+yangjianfengo1@users.noreply.github.com>
Date: Wed, 21 Jan 2026 20:21:59 +0800
Subject: [PATCH 112/161] [Cherry-Pick][Docs] Update docs for 2.4.0 tag (#6145)
 (#6147)

* fix text (#6145)
---
 dockerfiles/Dockerfile.gpu                     |  4 ++--
 docs/get_started/installation/nvidia_gpu.md    | 10 +++++-----
 docs/zh/get_started/installation/nvidia_gpu.md | 10 +++++-----
 3 files changed, 12 insertions(+), 12 deletions(-)

diff --git a/dockerfiles/Dockerfile.gpu b/dockerfiles/Dockerfile.gpu
index a9639286140..5ce8b05b199 100644
--- a/dockerfiles/Dockerfile.gpu
+++ b/dockerfiles/Dockerfile.gpu
@@ -1,6 +1,6 @@
 FROM ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-cuda-12.6:tag-base
-ARG PADDLE_VERSION=3.2.1
-ARG FD_VERSION=2.3.0
+ARG PADDLE_VERSION=3.3.0
+ARG FD_VERSION=2.4.0
 
 ENV DEBIAN_FRONTEND=noninteractive
 
diff --git a/docs/get_started/installation/nvidia_gpu.md b/docs/get_started/installation/nvidia_gpu.md
index 8a9a91f18f3..29f2bbc3a5b 100644
--- a/docs/get_started/installation/nvidia_gpu.md
+++ b/docs/get_started/installation/nvidia_gpu.md
@@ -23,7 +23,7 @@ docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-cuda-12
 First install paddlepaddle-gpu. For detailed instructions, refer to [PaddlePaddle Installation](https://www.paddlepaddle.org.cn/en/install/quick?docurl=/documentation/docs/en/develop/install/pip/linux-pip_en.html)
 ```shell
 # Install stable release
-python -m pip install paddlepaddle-gpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
 # Install latest Nightly build
 python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
@@ -34,7 +34,7 @@ Then install fastdeploy. **Do not install from PyPI**. Use the following methods
 For SM80/90 architecture GPUs(e.g A30/A100/H100/):
 ```
 # Install stable release
-python -m pip install fastdeploy-gpu==2.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
+python -m pip install fastdeploy-gpu==2.4.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
 # Install latest Nightly build
 python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
@@ -43,7 +43,7 @@ python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages
 For SM86/89 architecture GPUs(e.g A10/4090/L20/L40):
 ```
 # Install stable release
-python -m pip install fastdeploy-gpu==2.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
+python -m pip install fastdeploy-gpu==2.4.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
 # Install latest Nightly build
 python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
@@ -64,7 +64,7 @@ docker build -f dockerfiles/Dockerfile.gpu -t fastdeploy:gpu .
 
 First install paddlepaddle-gpu. For detailed instructions, refer to [PaddlePaddle Installation](https://www.paddlepaddle.org.cn/en/install/quick?docurl=/documentation/docs/en/develop/install/pip/linux-pip_en.html)
 ```shell
-python -m pip install paddlepaddle-gpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 ```
 
 Then clone the source code and build:
@@ -92,7 +92,7 @@ First, install paddlepaddle-gpu.
 For detailed instructions, please refer to the [PaddlePaddle Installation Guide](https://www.paddlepaddle.org.cn/).
 
 ```shell
-python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 ```
 
 Then, clone the FastDeploy repository and build using the precompiled operator wheels:
diff --git a/docs/zh/get_started/installation/nvidia_gpu.md b/docs/zh/get_started/installation/nvidia_gpu.md
index 9cb8d65304c..4c3ebdfe623 100644
--- a/docs/zh/get_started/installation/nvidia_gpu.md
+++ b/docs/zh/get_started/installation/nvidia_gpu.md
@@ -26,7 +26,7 @@ docker pull ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-cuda-12
 
 ``` shell
 # Install stable release
-python -m pip install paddlepaddle-gpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
 # Install latest Nightly build
 python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/cu126/
@@ -38,7 +38,7 @@ python -m pip install --pre paddlepaddle-gpu -i https://www.paddlepaddle.org.cn/
 
 ```
 # 安装稳定版本fastdeploy
-python -m pip install fastdeploy-gpu==2.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
+python -m pip install fastdeploy-gpu==2.4.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
 # 安装Nightly Build的最新版本fastdeploy
 python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/fastdeploy-gpu-80_90/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
@@ -48,7 +48,7 @@ python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages
 
 ```
 # 安装稳定版本fastdeploy
-python -m pip install fastdeploy-gpu==2.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
+python -m pip install fastdeploy-gpu==2.4.0 -i https://www.paddlepaddle.org.cn/packages/stable/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
 # 安装Nightly Build的最新版本fastdeploy
 python -m pip install fastdeploy-gpu -i https://www.paddlepaddle.org.cn/packages/nightly/fastdeploy-gpu-86_89/ --extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
@@ -70,7 +70,7 @@ docker build -f dockerfiles/Dockerfile.gpu -t fastdeploy:gpu .
 首先安装 paddlepaddle-gpu，详细安装方式参考 [PaddlePaddle安装](https://www.paddlepaddle.org.cn/)
 
 ``` shell
-python -m pip install paddlepaddle-gpu==3.2.1 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 ```
 
 接着克隆源代码，编译安装
@@ -98,7 +98,7 @@ FastDeploy 提供了 GPU 算子预编译版 Wheel 包，可在无需完整源码
 首先安装 paddlepaddle-gpu，详细安装方式参考 [PaddlePaddle安装](https://www.paddlepaddle.org.cn/)
 
 ``` shell
-python -m pip install paddlepaddle-gpu==3.2.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 ```
 
 接着克隆源代码，拉取 whl 包并安装

From 7ba13f94f5be23364cd35412eb4ab3d0e84ddb96 Mon Sep 17 00:00:00 2001
From: a31413510 <31413510@qq.com>
Date: Thu, 22 Jan 2026 16:42:59 +0800
Subject: [PATCH 113/161] update requirements paddleformers 0.4.1 (#6136)

* update requirements paddleformers 0.4.1

* guidance_backend.py rm mock

---------

Co-authored-by: root <15625257+ST-XX@users.noreply.github.com>
---
 .../model_executor/guided_decoding/guidance_backend.py       | 5 ++---
 requirements.txt                                             | 2 +-
 tests/layers/test_guided_decoding.py                         | 4 +++-
 .../model_executor/guided_decoding/test_guidance_checker.py  | 1 +
 .../model_executor/guided_decoding/test_xgrammar_checker.py  | 4 +++-
 5 files changed, 10 insertions(+), 6 deletions(-)

diff --git a/fastdeploy/model_executor/guided_decoding/guidance_backend.py b/fastdeploy/model_executor/guided_decoding/guidance_backend.py
index 5bcaa628d14..e1234f15e08 100644
--- a/fastdeploy/model_executor/guided_decoding/guidance_backend.py
+++ b/fastdeploy/model_executor/guided_decoding/guidance_backend.py
@@ -22,7 +22,6 @@
 import llguidance
 import llguidance.hf
 import llguidance.torch
-import torch
 
 from fastdeploy.config import FDConfig
 from fastdeploy.engine.request import Request
@@ -69,13 +68,13 @@ def _check_error(self):
                 self._printed_error = True
                 llm_logger.warning(f"LLGuidance Matcher error: {err}")
 
-    def allocate_token_bitmask(self) -> torch.Tensor:
+    def allocate_token_bitmask(self):
         """
         Allocate a token bitmask tensor for grammar constraints.
         """
         return llguidance.torch.allocate_token_bitmask(self.batch_size, self.vocab_size)
 
-    def fill_token_bitmask(self, token_bitmask: torch.Tensor, idx: int) -> None:
+    def fill_token_bitmask(self, token_bitmask, idx: int) -> None:
         """
         Fill the token bitmask with allowed tokens for the given index.
         This will automatically provide an EOS mask if the matcher is stopped.
diff --git a/requirements.txt b/requirements.txt
index 2ebb853c519..f97b5f59028 100644
--- a/requirements.txt
+++ b/requirements.txt
@@ -10,7 +10,7 @@ tqdm
 pynvml
 uvicorn>=0.38.0
 fastapi
-paddleformers @ https://paddle-qa.bj.bcebos.com/ernie/paddleformers-0.4.0.post20251222-py3-none-any.whl
+paddleformers==0.4.1
 redis
 etcd3
 httpx
diff --git a/tests/layers/test_guided_decoding.py b/tests/layers/test_guided_decoding.py
index 964ad1dc02b..ad592c118ed 100644
--- a/tests/layers/test_guided_decoding.py
+++ b/tests/layers/test_guided_decoding.py
@@ -11,10 +11,12 @@
 
 mock_torch = MagicMock()
 mock_xgrammar = MagicMock()
-sys.modules["torch"] = mock_torch
 sys.modules["xgrammar"] = mock_xgrammar
 
+sys.modules["torch"] = None
 from fastdeploy.model_executor.guided_decoding import LogitsProcessorBase
+
+sys.modules["torch"] = mock_torch
 from fastdeploy.model_executor.layers.sample.sampler import GuidedDecoding
 from fastdeploy.reasoning import ReasoningParser
 
diff --git a/tests/model_executor/guided_decoding/test_guidance_checker.py b/tests/model_executor/guided_decoding/test_guidance_checker.py
index 454231bfbef..574f310550a 100644
--- a/tests/model_executor/guided_decoding/test_guidance_checker.py
+++ b/tests/model_executor/guided_decoding/test_guidance_checker.py
@@ -51,6 +51,7 @@ def llguidance_checker_with_options():
     return LLGuidanceChecker(disable_any_whitespace=True)
 
 
+sys.modules["torch"] = None
 from fastdeploy.model_executor.guided_decoding.guidance_backend import LLGuidanceChecker
 
 
diff --git a/tests/model_executor/guided_decoding/test_xgrammar_checker.py b/tests/model_executor/guided_decoding/test_xgrammar_checker.py
index b911e499339..ca550655a69 100644
--- a/tests/model_executor/guided_decoding/test_xgrammar_checker.py
+++ b/tests/model_executor/guided_decoding/test_xgrammar_checker.py
@@ -20,10 +20,12 @@
 mock_torch = MagicMock()
 mock_xgrammar = MagicMock()
 
-sys.modules["torch"] = mock_torch
+sys.modules["torch"] = None
 sys.modules["xgrammar"] = mock_xgrammar
 
 from fastdeploy.engine.request import Request
+
+sys.modules["torch"] = mock_torch
 from fastdeploy.model_executor.guided_decoding.xgrammar_backend import XGrammarChecker
 
 
From 9a91a5c5c3997d22cc21dc984889c36e94e76269 Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Thu, 22 Jan 2026 19:08:18 +0800
Subject: [PATCH 114/161] [Cherry-Pick][CI] Update image used by build_rl in
 ce_job.yml and fix docker_build(#6128) (#6167)

* [CI] Update image used by build_rl in ce_job.yml

* [Cherry-Pick][CI] Update image used by build_rl in ce_job.yml and fix docker_build(#6128)
---
 .github/workflows/ce_job.yml      | 2 +-
 .github/workflows/publish_job.yml | 2 ++
 2 files changed, 3 insertions(+), 1 deletion(-)

diff --git a/.github/workflows/ce_job.yml b/.github/workflows/ce_job.yml
index ee6ba1edc5f..92ebe43245b 100644
--- a/.github/workflows/ce_job.yml
+++ b/.github/workflows/ce_job.yml
@@ -162,7 +162,7 @@ jobs:
     if: ${{ needs.ce_job_pre_check.outputs.sm8090_match == 'true' }}
     uses: ./.github/workflows/_build_linux_rl.yml
     with:
-      DOCKER_IMAGE: iregistry.baidu-int.com/tiangexiao/base-images:paddlecloud-ubuntu24.04-gcc13.3-cuda12.9-cudnn9.9-bccl1.4.1.4-nccl2.26.5-openmpi4.1.5-FleetY13.0.0-rc2
+      DOCKER_IMAGE: iregistry.baidu-int.com/new_rl_infra/base-images:paddlecloud-ubuntu24.04-gcc13.3-cuda12.9-cudnn9.9-bccl1.4.1.4-nccl2.26.5-openmpi4.1.5-FleetY13.0.0-v2.4.0-rc1
       FASTDEPLOY_ARCHIVE_URL: ${{ needs.clone.outputs.repo_archive_url }}
       COMPILE_ARCH: "80,90"
       WITH_NIGHTLY_BUILD: OFF
diff --git a/.github/workflows/publish_job.yml b/.github/workflows/publish_job.yml
index f27afe5ebe8..a301a79309e 100644
--- a/.github/workflows/publish_job.yml
+++ b/.github/workflows/publish_job.yml
@@ -310,6 +310,8 @@ jobs:
           git config --global user.email "fastdeploy_ci@example.com"
           git log -n 3 --oneline
 
+          cd ./dockerfiles
+
           PRODUCT_NAME=ccr-2vdh3abv-pub.cnc.bj.baidubce.com/paddlepaddle/fastdeploy-cuda-12.6:${FD_VERSION}
           docker build --no-cache -t ${PRODUCT_NAME} -f Dockerfile.gpu . \
             --network host \

From 122eae1769cd0054abc5d5c9dbed9ffbe4dd8656 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Thu, 22 Jan 2026 23:31:36 +0800
Subject: [PATCH 115/161] [WIP] origin code

---
 .../layers/moe/routing_indices_cache.py       |  31 ++
 .../layers/moe/routing_indices_cache_old.py   | 462 ++++++++++++++++++
 fastdeploy/worker/block_table_utils.py        |  34 ++
 fastdeploy/worker/gpu_model_runner.py         |  38 +-
 4 files changed, 557 insertions(+), 8 deletions(-)
 create mode 100644 fastdeploy/model_executor/layers/moe/routing_indices_cache_old.py
 create mode 100644 fastdeploy/worker/block_table_utils.py

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index d754f54651a..3dc21f5b6fa 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -152,6 +152,7 @@ def __init__(
         self,
         fd_config: FDConfig,
     ):
+        self.fd_config = fd_config
         self.max_num_seqs = fd_config.scheduler_config.max_num_seqs
         self.max_model_len = fd_config.model_config.max_model_len
         self.num_moe_layers = fd_config.model_config.num_hidden_layers - fd_config.model_config.moe_layer_start_index
@@ -165,12 +166,42 @@ def __init__(
 
         self.routing_store = get_routing_store(fd_config=fd_config)
         self.routing_batch_to_request: Dict[int, str] = {}
+
+        self._init_routing_cache(dtype="uint8")
+
+    def _init_routing_cache(self, dtype: str):
+        """Initialize the device buffer and host buffer."""
+
+        max_num_kv_tokens = self.fd_config.cache_config.total_block_num * self.fd_config.cache_config.block_size
+
+        self._host_cache = paddle.full(
+            shape=[max_num_kv_tokens, self.num_moe_layers, self.moe_top_k], fill_value=-1, dtype=dtype, device="cpu"
+        )
+
         self.routing_replay_table = paddle.full(
             shape=[self.max_num_seqs, self.num_moe_layers, self.max_model_len, self.moe_top_k],
             fill_value=-1,
             dtype="int32",
         )
 
+        # self._device_cache = paddle.full(
+        #     shape=[self.fd_config.scheduler_config.max_num_batched_tokens, self.num_moe_layers, self.moe_top_k],
+        #     fill_value=-1,
+        #     dtype=dtype,
+        #     device="gpu",
+        # )
+
+    def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tensor):
+        """ """
+
+        for batch_id, position in enumerate(positions):
+            if position is not None:
+                routing_ids = self.routing_replay_table[batch_id, :, position, :]
+                # reshape [a, b, c] -> [b, a, c]
+                routing_ids = routing_ids.transpose([1, 0, 2])
+
+                self._host_cache[slot_mapping[batch_id], :, :] = routing_ids
+
     def register_request(self, batch_id: int, request_id: str):
         """
         Register a new request to routing replay table
diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache_old.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache_old.py
new file mode 100644
index 00000000000..d754f54651a
--- /dev/null
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache_old.py
@@ -0,0 +1,462 @@
+"""
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+
+import asyncio
+import copy
+import os
+import shutil
+import time
+from abc import ABC, abstractmethod
+from typing import Dict, List, Optional
+
+import paddle
+import paddle.distributed as dist
+import triton
+import triton.language as tl
+from paddleformers.utils.log import logger
+
+from fastdeploy.config import FDConfig
+
+
+@triton.jit
+def _save_routing_kernel(
+    ROUTING_REPLAY_TABLE_PTR,
+    TOPK_IDS_PTR,
+    BATCH_ID_PER_TOKEN_PTR,
+    CU_SEQLENS_Q_PTR,
+    SEQ_LENS_DECODER_PTR,
+    LAYER_IDX,
+    TOKEN_NUM,
+    TOP_K,
+    NUM_HIDDEN_LAYERS,
+    MAX_MODEL_LEN,
+    BLOCK_SIZE_M: tl.constexpr,
+    BLOCK_SIZE_K: tl.constexpr,
+):
+    pid_m = tl.program_id(axis=0)
+
+    token_offsets = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
+    token_mask = token_offsets < TOKEN_NUM
+
+    k_offsets = tl.arange(0, BLOCK_SIZE_K)
+
+    k_mask = k_offsets < TOP_K
+
+    topk_ids_ptrs = TOPK_IDS_PTR + token_offsets[:, None] * TOP_K + k_offsets[None, :]
+    # [BLOCK_SIZE_M, BLOCK_SIZE_K]
+
+    load_mask = token_mask[:, None] & k_mask[None, :]
+    topk_vals = tl.load(topk_ids_ptrs, mask=load_mask)
+
+    batch_ids = tl.load(BATCH_ID_PER_TOKEN_PTR + token_offsets, mask=token_mask)
+    pad_mask = token_mask & (batch_ids != -1)
+    # [0, 3, 4, 10, 12][0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 3, 3]
+    # -> [0, 0, 0, 0, 4, 4, 4, 4, 4, 4, 10, 10]
+    # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11] - [0, 0, 0, 0, 4, 4, 4, 4, 4, 4, 10, 10]
+    # -> [0, 1, 2, 3, 0, 1, 2, 3, 4, 5, 0, 1]
+    start_offsets = tl.load(CU_SEQLENS_Q_PTR + batch_ids, mask=pad_mask)
+    token_relative_index = token_offsets - start_offsets
+
+    # [BLOCK_SIZE_M]
+    len_decoder = tl.load(SEQ_LENS_DECODER_PTR + batch_ids, mask=pad_mask)
+    token_seq_pos = len_decoder + token_relative_index
+
+    STRIDE_BUF_SEQ = NUM_HIDDEN_LAYERS * MAX_MODEL_LEN * TOP_K
+    STRIDE_BUF_LAYER = MAX_MODEL_LEN * TOP_K
+    STRIDE_BUF_TOKEN = TOP_K
+
+    # [BLOCK_SIZE_M, BLOCK_SIZE_K]
+    output_ptrs = (
+        ROUTING_REPLAY_TABLE_PTR
+        + batch_ids[:, None] * STRIDE_BUF_SEQ
+        + LAYER_IDX * STRIDE_BUF_LAYER
+        + token_seq_pos[:, None] * STRIDE_BUF_TOKEN
+        + k_offsets[None, :]
+    )
+
+    pos_mask = token_seq_pos < MAX_MODEL_LEN
+    pos_mask = pos_mask & pad_mask
+
+    # [BLOCK_SIZE_M, BLOCK_SIZE_K]
+    pos_mask = pos_mask[:, None] & k_mask[None, :]
+
+    final_mask = load_mask & pos_mask
+
+    tl.store(output_ptrs, topk_vals, mask=final_mask)
+
+
+def save_routing_to_buffer(
+    routing_replay_table: paddle.Tensor,  # [max_num_seqs, num_layers, max_len, top_k]
+    topk_ids: paddle.Tensor,  # [token_num, top_k]
+    batch_id_per_token: paddle.Tensor,  # [token_num, 1]
+    seq_lens_decoder: paddle.Tensor,  # [max_num_seqs, 1]
+    cu_seqlens_q: paddle.Tensor,  # [max_num_seqs + 1, 1]
+    layer_idx: int,
+    tp_size: int,
+    ep_size: int,
+    tp_group: dist.communication.group.Group,
+):
+    if tp_size > 1 and ep_size > 1:
+        token_num_per_rank = topk_ids.shape[0]
+        if token_num_per_rank == 0:
+            return
+        topk_ids_all = paddle.zeros([token_num_per_rank * tp_size, topk_ids.shape[1]], dtype=topk_ids.dtype)
+        paddle.distributed.all_gather(topk_ids_all, topk_ids, tp_group)
+        topk_ids = topk_ids_all[: batch_id_per_token.shape[0], :]
+
+    token_num, top_k = topk_ids.shape
+    max_num_seqs, num_hidden_layers, max_model_len, _ = routing_replay_table.shape
+    assert token_num > 0
+
+    assert topk_ids.shape[1] == routing_replay_table.shape[3], (topk_ids.shape[1], routing_replay_table.shape[3])
+    assert batch_id_per_token.shape[0] == token_num, (batch_id_per_token.shape[0], token_num)
+    assert seq_lens_decoder.shape[0] == max_num_seqs, (seq_lens_decoder.shape[0], max_num_seqs)
+
+    BLOCK_SIZE_M = 128
+    BLOCK_SIZE_K = triton.next_power_of_2(top_k)  # top_k
+
+    grid = (triton.cdiv(token_num, BLOCK_SIZE_M),)
+    _save_routing_kernel[grid](
+        routing_replay_table,
+        topk_ids,
+        batch_id_per_token,
+        cu_seqlens_q,
+        seq_lens_decoder,
+        LAYER_IDX=layer_idx,
+        TOKEN_NUM=token_num,
+        TOP_K=top_k,
+        NUM_HIDDEN_LAYERS=num_hidden_layers,
+        MAX_MODEL_LEN=max_model_len,
+        BLOCK_SIZE_M=BLOCK_SIZE_M,
+        BLOCK_SIZE_K=BLOCK_SIZE_K,
+    )
+
+
+class RoutingReplayManager:
+    """Request level routing replay table manager"""
+
+    def __init__(
+        self,
+        fd_config: FDConfig,
+    ):
+        self.max_num_seqs = fd_config.scheduler_config.max_num_seqs
+        self.max_model_len = fd_config.model_config.max_model_len
+        self.num_moe_layers = fd_config.model_config.num_hidden_layers - fd_config.model_config.moe_layer_start_index
+        self.only_last_turn = fd_config.routing_replay_config.only_last_turn
+
+        if fd_config.model_config.architectures[0] == "Glm4MoeForCausalLM":
+            self.moe_top_k = fd_config.model_config.num_experts_per_tok
+        else:
+            self.moe_top_k = fd_config.model_config.moe_k
+        self.tp_rank = fd_config.parallel_config.tensor_parallel_rank
+
+        self.routing_store = get_routing_store(fd_config=fd_config)
+        self.routing_batch_to_request: Dict[int, str] = {}
+        self.routing_replay_table = paddle.full(
+            shape=[self.max_num_seqs, self.num_moe_layers, self.max_model_len, self.moe_top_k],
+            fill_value=-1,
+            dtype="int32",
+        )
+
+    def register_request(self, batch_id: int, request_id: str):
+        """
+        Register a new request to routing replay table
+        Args:
+            batch_id: The batch ID of this request
+            request_id: The global ID of the request is usually executed by the training process in RL
+        """
+        # Save requests that have been finished for the current slot
+        if batch_id in self.routing_batch_to_request:
+            pre_request_id = self._deregister_request(batch_id)
+            asyncio.run(self._put_request_to_store(batch_id, pre_request_id))
+        # Register the new request
+        self.routing_batch_to_request[batch_id] = request_id
+        logger.info(f"[R3] Register request {request_id} with batch id {batch_id}")
+
+    def _deregister_request(self, batch_id: int) -> str:
+        """
+        Deregister a request from routing replay table
+        """
+        assert batch_id in self.routing_batch_to_request
+        return self.routing_batch_to_request.pop(batch_id)
+
+    async def _put_request_to_store(
+        self,
+        batch_id: int,
+        request_id: str,
+    ):
+        before_put_request_time = time.perf_counter()
+        if self.tp_rank == 0:
+            batch_buffer = self.routing_replay_table[batch_id]
+            tasks = []
+            for layer_id in range(self.num_moe_layers):
+                layer_buffer = batch_buffer[layer_id]
+                rollout_id = self.split_request_id(request_id)
+                tasks.append(
+                    self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)
+                )
+            if self.only_last_turn:
+                prefix_batch = self.get_needed_clear_ids(rollout_id)
+                tasks.append(self.routing_store.clear_prefix_batch(roullout_id_prefixes=prefix_batch))
+            await asyncio.gather(*tasks)
+        logger.info(f"[R3] Async put {request_id} time cost: {time.perf_counter() - before_put_request_time}")
+        self._clear_table_slot(batch_id)
+
+    def put_table_to_store(self):
+        """Put the routing table"""
+        logger.info("[R3] Put routing table to store.")
+        batch_ids = copy.deepcopy(list(self.routing_batch_to_request.keys()))
+        for batch_id in batch_ids:
+            request_id = self._deregister_request(batch_id)
+            asyncio.run(self._put_request_to_store(batch_id, request_id))
+
+    def _clear_table_slot(self, batch_id: int):
+        assert 0 <= batch_id < self.max_num_seqs
+        self.routing_replay_table[batch_id].fill_(-1)
+
+    def clear_routing_table(self):
+        """Clear all slots of the routing replay table"""
+        self.routing_replay_table.fill_(-1)
+
+    def _clear_store(self):
+        """Clear routing store"""
+        self.routing_store.clear_store()
+
+    def _clear_request_of_store(self, request_id):
+        """Clear one request of routing store"""
+        rollout_id = self.split_request_id(request_id)
+        for layer_idx in range(self.num_moe_layers):
+            self.routing_store.clear(rollout_id=rollout_id, layer_idx=layer_idx)
+
+    def get_request_from_store(self, request_id: str) -> List[paddle.Tensor]:
+        """Get the routing indices of the request from store"""
+        routing_list = []
+        rollout_id = self.split_request_id(request_id)
+        for layer_idx in range(self.num_moe_layers):
+            one_layer_routing = self.routing_store.get(rollout_id, layer_idx)
+            routing_list.append(one_layer_routing)
+
+        return routing_list
+
+    def get_routing_table(self) -> paddle.Tensor:
+        return self.routing_replay_table
+
+    def split_request_id(self, request_id: str):
+        """
+        Split the request id to get rollout id.
+
+        request_id: "chatcmpl-request.user-uuid"
+        rollout_id: "request.user"
+            example: "chatcmpl-xxx_xxx_epoch_15:2:2:1-d9f16c5c-65f6-4815-b44d-14e2c581907c_0" -> "xxx_xxx_epoch_15:2:2:1"
+        """
+        chat_type, tmp_str = request_id.split("-", 1)
+        # NOTE(gongshaotian): only support chatcmpl now
+        assert (
+            chat_type == "chatcmpl"
+        ), "Rollout Routing Replay only supports chatcmpl. Please check whether the request type and userid settings are correct."
+        reversed_tmp_str = tmp_str[::-1].split("-", 5)
+        rollout_id = reversed_tmp_str[-1][::-1]
+        return rollout_id
+
+    def get_needed_clear_ids(self, roullout_id: str) -> List[str]:
+        """
+        Generate the prefix IDs for all closed multi-round tasks.
+        rollout_id: "xxx_xxx_epoch_15:2:2:1"
+            example: xxx_xxx_data_id:gen_id:turn_id:segment_id
+        """
+        reversed_segment_id, reversed_turn_id, reversed_prefix_gen_id = roullout_id[::-1].split(":", 2)
+        prefix_gen_id = reversed_prefix_gen_id[::-1]
+        turn_id = eval(reversed_turn_id[::-1])
+        segment_id = eval(reversed_segment_id[::-1])
+
+        assert turn_id >= 0 and segment_id >= 0
+        prefix_batch = []
+        if turn_id > 0:
+            prefix_batch.append(f"{prefix_gen_id}:{(turn_id-1)}:{segment_id}")
+        return prefix_batch
+
+    def clear_request(self, batch_id: int):
+        """Clear the routing indices of the request"""
+        self._clear_table_slot(batch_id)
+        self.routing_batch_to_request.pop(batch_id, None)
+
+
+class RoutingStoreBase(ABC):
+    """Base class for routing store"""
+
+    def __init__(self, fd_config: FDConfig) -> None:
+        self.fd_config = fd_config
+
+    @abstractmethod
+    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: Optional[int] = None) -> None:
+        """Put the routing indices into store"""
+        raise NotImplementedError
+
+    @abstractmethod
+    def get(self, rollout_id: str, layer_idx: Optional[int] = None) -> paddle.Tensor:
+        """Get the routing indices from store"""
+        raise NotImplementedError
+
+    @abstractmethod
+    def clear(self, rollout_id: str, layer_idx: Optional[int] = None) -> None:
+        """Clear the routing indices of the request"""
+        raise NotImplementedError
+
+    @abstractmethod
+    def clear_store(
+        self,
+    ):
+        """Clear the routing indices store"""
+        raise NotImplementedError
+
+    @abstractmethod
+    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
+        """Clear the routing indices"""
+        raise NotImplementedError
+
+
+class RoutingStoreLocal(RoutingStoreBase):
+    """Routing Store using local memory"""
+
+    def __init__(self, fd_config) -> None:
+        super().__init__(fd_config=fd_config)
+        self.local_store_dir = fd_config.routing_replay_config.local_store_dir
+        self.clear_store()
+
+    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+        """Put the routing indices into store"""
+        routing_key = f"{rollout_id}_{layer_idx}"
+
+        # async put
+        time_before_put = time.perf_counter()
+        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
+        os.makedirs(dir_path, exist_ok=True)
+        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
+        paddle.save(routing_indices, file_path)
+        logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
+
+    def get(
+        self,
+        rollout_id: str,
+        layer_idx: int = None,
+    ) -> paddle.Tensor:
+        """Get the routing indices from store"""
+        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
+        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
+        assert os.path.exists(file_path), f"File not found: {file_path}"
+        layer_routing_indices = paddle.load(file_path)
+
+        return layer_routing_indices
+
+    def clear(
+        self,
+        rollout_id: str,
+        layer_idx: int = None,
+    ) -> None:
+        """Clear the routing indices of the request"""
+        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
+        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
+        assert os.path.exists(file_path), f"File not found: {file_path}"
+        os.remove(file_path)
+
+        # Delete empty directory
+        if len(os.listdir(dir_path)) == 0:
+            os.rmdir(dir_path)
+
+    def clear_store(self):
+        """Clear the routing indices store"""
+        if os.path.isdir(self.local_store_dir):
+            for file_name in os.listdir(self.local_store_dir):
+                file_path = os.path.join(self.local_store_dir, file_name)
+                shutil.rmtree(file_path)
+
+    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
+        # async delete
+        logger.info(f"[R3] clear_prefix_batch {roullout_id_prefixes}")
+
+
+class RoutingStoreRDMA(RoutingStoreBase):
+    """Routing Store using RDMA"""
+
+    def __init__(self, fd_config) -> None:
+        super().__init__(fd_config=fd_config)
+        try:
+            # Only used in RLHF
+            from p2pstore import P2PClient, P2PConfig
+        except ModuleNotFoundError:
+            raise ModuleNotFoundError(" RoutingStoreRDMA and p2pstore only support in RLHF. ")
+
+        rdma_store_server = fd_config.routing_replay_config.rdma_store_server
+        p2pConfig = P2PConfig(metadata_server=rdma_store_server)
+        self.p2p_client = P2PClient(p2pConfig)
+        self.clear_store()
+
+    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+        """Put the routing indices into store"""
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
+
+        # async put
+        time_before_put = time.perf_counter()
+        routing_indices_pin = routing_indices.cpu()
+        routing_indices_np = routing_indices_pin.numpy()
+        copy_time = time.perf_counter()
+        await self.p2p_client.put(rdma_rollout_key, routing_indices_np)
+        logger.info(
+            f"[R3] The routing key {rdma_rollout_key} copy cost is {copy_time-time_before_put}s, put cost is {time.perf_counter()-time_before_put}s"
+        )
+
+    def get(
+        self,
+        rollout_id: str,
+        layer_idx: int = None,
+    ) -> paddle.Tensor:
+        """Get the routing indices from store"""
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
+        # sync get
+        tmp_routing = asyncio.run(self.p2p_client.get(rdma_rollout_key))
+        return tmp_routing
+
+    def clear(
+        self,
+        rollout_id: str,
+        layer_idx: int = None,
+    ) -> None:
+        """Clear the routing indices of the request"""
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
+        # sync delete
+        asyncio.run(self.p2p_client.delete(rdma_rollout_key))
+
+    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
+        # async delete
+        await self.p2p_client.delete_prefix_batch(roullout_id_prefixes)
+        logger.info(f"[R3] clear_prefix_batch {roullout_id_prefixes}")
+
+    def clear_store(self):
+        """Clear the routing indices store"""
+        # sync clear routing store
+        asyncio.run(self.p2p_client.clear())
+
+
+def get_routing_store(fd_config: FDConfig) -> RoutingStoreBase:
+    if fd_config.routing_replay_config.routing_store_type == "local":
+        return RoutingStoreLocal(fd_config=fd_config)
+    elif fd_config.routing_replay_config.routing_store_type == "rdma":
+        return RoutingStoreRDMA(fd_config=fd_config)
+    else:
+        raise ValueError(
+            f"Invalid routing store type: '{fd_config.routing_replay_config.routing_store_type}'. "
+            "Valid types are: 'local', 'rdma'"
+        )
diff --git a/fastdeploy/worker/block_table_utils.py b/fastdeploy/worker/block_table_utils.py
new file mode 100644
index 00000000000..12c53c3c327
--- /dev/null
+++ b/fastdeploy/worker/block_table_utils.py
@@ -0,0 +1,34 @@
+import numpy as np
+import paddle
+
+
+def get_token_positions(seq_lens_decoder: paddle.Tensor, seq_lens_this_time: paddle.Tensor, max_num_seqs: int):
+    """Get token position of each sequence in a batch."""
+    print("seq_lens_decoder", seq_lens_decoder)
+    print("seq_lens_this_time", seq_lens_this_time)
+    starts = seq_lens_decoder.numpy()[:, 0]
+    increase_num = seq_lens_this_time.numpy()[:, 0]
+
+    positions = []
+    for i in range(max_num_seqs):
+        if seq_lens_this_time[i] == 0:
+            positions.append([])
+            continue
+        repeated_base = np.repeat(starts[i], increase_num[i])
+        positions.append(list(repeated_base + np.arange(1, increase_num[i] + 1)))
+
+    return positions
+
+
+def compute_slot_mapping(block_table, positions: np.ndarray, block_size: int = 64):
+    """ """
+    slot_mapping = []
+    for batch_id, position in enumerate(positions):
+        block_table_indices = (position + block_size - 1) // block_size
+        token_block_ids = block_table[batch_id, block_table_indices]
+        block_offset = position % block_size
+
+        token_cache_ids = token_block_ids * block_size + block_offset
+        slot_mapping.append(token_cache_ids)
+
+    return slot_mapping
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 664a630e99a..0b68c08d73b 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -53,6 +53,10 @@
 from fastdeploy.model_executor.layers.sample.sampler import Sampler, SpeculativeSampler
 from fastdeploy.model_executor.model_loader import get_model_loader
 from fastdeploy.platforms import current_platform
+from fastdeploy.worker.block_table_utils import (
+    compute_slot_mapping,
+    get_token_positions,
+)
 
 if current_platform.is_iluvatar():
     from fastdeploy.model_executor.ops.iluvatar import (
@@ -577,10 +581,6 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
         req_dict: A list of Request dict
         num_running_requests: batch_size
         """
-        # NOTE(luotingdan): Lazy initialize kv cache
-        if "caches" not in self.share_inputs:
-            self.initialize_kv_cache()
-
         req_len = len(req_dicts)
         has_prefill_task = False
         has_decode_task = False
@@ -1409,6 +1409,8 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
         # NOTE: (changwenbin) Initialized to max_num_seq '-1' before copying, marking illegal positions
         self.share_inputs["batch_id_per_token"][:] = -1
         self.share_inputs["batch_id_per_token"].copy_(batch_id_per_token, False)
+        logger.info(f"{self.share_inputs['ids_remove_padding']}")
+        logger.info(f"{self.share_inputs['batch_id_per_token']}")
         self.share_inputs["cu_seqlens_q"].copy_(cu_seqlens_q, False)
         self.share_inputs["cu_seqlens_k"].copy_(cu_seqlens_k, False)
 
@@ -1419,6 +1421,13 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
 
         # Update bad tokens len
         max_bad_tokens_len = np.max(self.share_inputs["bad_tokens_len"].numpy())
+        logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
+        self.positions = get_token_positions(
+            seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
+            seq_lens_this_time=self.seq_lens_this_time_buffer,
+            max_num_seqs=self.scheduler_config.max_num_seqs,
+        )
+        logger.info(f"positions {self.positions}")
 
         # Initialize forward meta data
         self.initialize_forward_meta(is_dummy_or_profile_run=is_dummy_or_profile_run)
@@ -1595,10 +1604,6 @@ def initialize_kv_cache(self, profile: bool = False) -> None:
         logger.info(f"Initializing kv cache for all layers. {cache_ready_signal.value}")
         cache_kvs_list = []
 
-        # NOTE:(changwenbin) Determine whether it is Multi-Head Latent Attention,
-        # To rationalize the allocation of kvcache.
-        from fastdeploy import envs
-
         self.mla_cache = envs.FD_ATTENTION_BACKEND == "MLA_ATTN"
         for i in range(self.model_config.num_hidden_layers):
             # init key cache
@@ -2483,12 +2488,29 @@ class at the server level, which is too granular for ModelRunner.
 
         # Routing replay
         if self.fd_config.routing_replay_config.enable_routing_replay:
+            # Update host cache
+            logger.info(f"block_tables before compute_slot_mapping : {self.share_inputs['block_tables']}")
+            slot_mapping = compute_slot_mapping(
+                block_table=self.share_inputs["block_tables"],
+                positions=self.positions,
+                block_size=self.cache_config.block_size,
+            )
+            self.routing_replay_manager.update_host_cache(positions=self.positions, slot_mapping=slot_mapping)
+
+            # query -> query_token_idx -> _inner_block_token_id
+
             if (
                 not self.exist_prefill()
                 and not self.exist_decode()
                 and self.share_inputs["is_block_step"].sum() == 0
                 and self.share_inputs["is_chunk_step"].sum() == 0
             ):
+                # Get the mapping from tokens to blocks id
+                # batch_id(request_id) -> query_token_idx -> _inner_block_token_id
+
+                # Gollective all routing of finished requests
+
+                # Put routing of finished requests to store
                 self.routing_replay_manager.put_table_to_store()
             return None
 

From 5f04bd07a6db552ac315854b416688e53e7426f7 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Fri, 23 Jan 2026 12:11:39 +0800
Subject: [PATCH 116/161] success save routing to cpu cache

---
 .../layers/moe/routing_indices_cache.py              | 10 +++++++---
 fastdeploy/worker/block_table_utils.py               | 12 +++++++++---
 fastdeploy/worker/worker_process.py                  |  2 +-
 3 files changed, 17 insertions(+), 7 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 3dc21f5b6fa..824ed290f6f 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -193,14 +193,17 @@ def _init_routing_cache(self, dtype: str):
 
     def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tensor):
         """ """
-
+        logger.info("[R3] Update host cache.")
         for batch_id, position in enumerate(positions):
-            if position is not None:
+            if len(position) > 0 and len(slot_mapping[batch_id]) > 0:
+                logger.info(f"position: {position}, slot mapping: {slot_mapping[batch_id]}")
                 routing_ids = self.routing_replay_table[batch_id, :, position, :]
+                logger.info(f"routing_ids: {routing_ids}")
                 # reshape [a, b, c] -> [b, a, c]
                 routing_ids = routing_ids.transpose([1, 0, 2])
-
+                logger.info(f"after transpose routing ids: {routing_ids}")
                 self._host_cache[slot_mapping[batch_id], :, :] = routing_ids
+                logger.info(f" update host cache: {self._host_cache[slot_mapping[batch_id], :, :]}")
 
     def register_request(self, batch_id: int, request_id: str):
         """
@@ -376,6 +379,7 @@ async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx:
         dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
         os.makedirs(dir_path, exist_ok=True)
         file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
+        logger.info(f"[R3] The routing key {routing_key} routing value {routing_indices}")
         paddle.save(routing_indices, file_path)
         logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
 
diff --git a/fastdeploy/worker/block_table_utils.py b/fastdeploy/worker/block_table_utils.py
index 12c53c3c327..e21c5a57450 100644
--- a/fastdeploy/worker/block_table_utils.py
+++ b/fastdeploy/worker/block_table_utils.py
@@ -15,7 +15,7 @@ def get_token_positions(seq_lens_decoder: paddle.Tensor, seq_lens_this_time: pad
             positions.append([])
             continue
         repeated_base = np.repeat(starts[i], increase_num[i])
-        positions.append(list(repeated_base + np.arange(1, increase_num[i] + 1)))
+        positions.append(repeated_base + np.arange(0, increase_num[i]))  # + 1
 
     return positions
 
@@ -24,11 +24,17 @@ def compute_slot_mapping(block_table, positions: np.ndarray, block_size: int = 6
     """ """
     slot_mapping = []
     for batch_id, position in enumerate(positions):
-        block_table_indices = (position + block_size - 1) // block_size
+        print("position", position)
+        if len(position) == 0:
+            slot_mapping.append([])
+            continue
+        block_table_indices = position // block_size
+        print("block_table_indices", block_table_indices)
         token_block_ids = block_table[batch_id, block_table_indices]
         block_offset = position % block_size
 
-        token_cache_ids = token_block_ids * block_size + block_offset
+        token_cache_ids = np.array(token_block_ids) * block_size + block_offset
         slot_mapping.append(token_cache_ids)
 
+    print("slot_mapping", slot_mapping)
     return slot_mapping
diff --git a/fastdeploy/worker/worker_process.py b/fastdeploy/worker/worker_process.py
index 3003513da1d..14ba5c95b3e 100644
--- a/fastdeploy/worker/worker_process.py
+++ b/fastdeploy/worker/worker_process.py
@@ -581,7 +581,7 @@ def initialize_kv_cache(self) -> None:
 
             if num_blocks_local <= 0:
                 raise ValueError(
-                    "The total number of blocks cannot be less than zero. "
+                    f"The total number of blocks cannot be less than zero bug got {num_blocks_local}. "
                     "Please increase gpu_memory_utilization "
                     "Or decrease max_num_batched_tokens(max model length)."
                 )

From 29d5b898f795d056efb8163151c4274973b0c04e Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Fri, 23 Jan 2026 17:57:42 +0800
Subject: [PATCH 117/161] delete self.seq_lens_decoder

---
 .../layers/moe/routing_indices_cache.py       | 78 ++++++++++++++++---
 fastdeploy/worker/block_table_utils.py        | 16 +++-
 fastdeploy/worker/gpu_model_runner.py         | 69 ++++++++--------
 3 files changed, 120 insertions(+), 43 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 824ed290f6f..7a5fc6354d4 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -20,6 +20,7 @@
 import shutil
 import time
 from abc import ABC, abstractmethod
+import numpy as np
 from typing import Dict, List, Optional
 
 import paddle
@@ -151,6 +152,7 @@ class RoutingReplayManager:
     def __init__(
         self,
         fd_config: FDConfig,
+        block_table
     ):
         self.fd_config = fd_config
         self.max_num_seqs = fd_config.scheduler_config.max_num_seqs
@@ -169,6 +171,8 @@ def __init__(
 
         self._init_routing_cache(dtype="uint8")
 
+        self.block_table = block_table
+
     def _init_routing_cache(self, dtype: str):
         """Initialize the device buffer and host buffer."""
 
@@ -184,13 +188,6 @@ def _init_routing_cache(self, dtype: str):
             dtype="int32",
         )
 
-        # self._device_cache = paddle.full(
-        #     shape=[self.fd_config.scheduler_config.max_num_batched_tokens, self.num_moe_layers, self.moe_top_k],
-        #     fill_value=-1,
-        #     dtype=dtype,
-        #     device="gpu",
-        # )
-
     def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tensor):
         """ """
         logger.info("[R3] Update host cache.")
@@ -199,12 +196,69 @@ def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tenso
                 logger.info(f"position: {position}, slot mapping: {slot_mapping[batch_id]}")
                 routing_ids = self.routing_replay_table[batch_id, :, position, :]
                 logger.info(f"routing_ids: {routing_ids}")
-                # reshape [a, b, c] -> [b, a, c]
+                # Reshape [layer, token, topk] -> [token, layer, topk]
                 routing_ids = routing_ids.transpose([1, 0, 2])
                 logger.info(f"after transpose routing ids: {routing_ids}")
                 self._host_cache[slot_mapping[batch_id], :, :] = routing_ids
                 logger.info(f" update host cache: {self._host_cache[slot_mapping[batch_id], :, :]}")
 
+    def get_token_positions(self, seq_lens_decoder, seq_lens_this_time):
+        """Get token position of each sequence in a batch."""
+        print("seq_lens_decoder", seq_lens_decoder)
+        print("seq_lens_this_time", seq_lens_this_time)
+        starts = seq_lens_decoder.numpy()[:, 0]
+        increase_num = seq_lens_this_time.numpy()[:, 0]
+
+        positions = []
+        for i in range(self.max_num_seqs):
+            if seq_lens_this_time[i] == 0:
+                positions.append([])
+                continue
+            repeated_base = np.repeat(starts[i], increase_num[i])
+            positions.append(repeated_base + np.arange(0, increase_num[i]))
+
+        return positions
+
+    def compute_slot_mapping(self, positions: np.ndarray):
+        """ """
+        slot_mapping = []
+        for batch_id, position in enumerate(positions):
+            print("position", position)
+            if len(position) == 0:
+                slot_mapping.append([])
+                continue
+            block_table_indices = position // self.fd_config.cache_config.block_size
+            print("block_table_indices", block_table_indices)
+            token_block_ids = self.block_table[batch_id, block_table_indices]
+            block_offset = position % self.fd_config.cache_config.block_size
+
+            token_cache_ids = np.array(token_block_ids) * self.fd_config.cache_config.block_size + block_offset
+            slot_mapping.append(token_cache_ids)
+
+        print("slot_mapping", slot_mapping)
+        return slot_mapping
+
+    def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder, seq_lens_this_time):
+        """ 
+        1. finish the step: after update input
+        2. clear parameter: after update input """
+        current_token_nums = seq_lens_decoder.numpy()[:, 0] + seq_lens_this_time.numpy()[:, 0]
+        print(f"{seq_lens_decoder} {seq_lens_this_time}")
+        print("current_token_nums", current_token_nums)
+        positions = []
+        for batch_id in range(self.max_num_seqs):
+            position = []
+            if batch_id in finished_batch_ids:
+                position = np.arange(0, current_token_nums[batch_id])
+            positions.append(position)
+
+        return self.compute_slot_mapping(positions=positions)
+
+    def _get_routing_from_cache(self, token_cache_ids):
+        """Collection the cached routing information"""
+        token_cached_routing = self._host_cache[token_cache_ids, :, :]
+        return token_cached_routing.transpose([1, 0, 2])
+
     def register_request(self, batch_id: int, request_id: str):
         """
         Register a new request to routing replay table
@@ -234,7 +288,13 @@ async def _put_request_to_store(
     ):
         before_put_request_time = time.perf_counter()
         if self.tp_rank == 0:
-            batch_buffer = self.routing_replay_table[batch_id]
+            batch_buffe_old = self.routing_replay_table[batch_id]
+            logger.info(f"batch id {batch_id}, request id {request_id}")
+            slot_mapping = self._get_request_cache_ids([batch_id])
+            logger.info(f"slot_mapping {slot_mapping}")
+            batch_buffer = self._get_routing_from_cache(token_cache_ids=slot_mapping)
+            logger.info(f"batch_buffer {batch_buffer} batch_buffe_old {batch_buffe_old}")
+            logger.info(f"batch_buffer_old equal batch_buffer{paddle.allclose(batch_buffe_old, batch_buffer)}")
             tasks = []
             for layer_id in range(self.num_moe_layers):
                 layer_buffer = batch_buffer[layer_id]
diff --git a/fastdeploy/worker/block_table_utils.py b/fastdeploy/worker/block_table_utils.py
index e21c5a57450..4c040cb1417 100644
--- a/fastdeploy/worker/block_table_utils.py
+++ b/fastdeploy/worker/block_table_utils.py
@@ -15,7 +15,7 @@ def get_token_positions(seq_lens_decoder: paddle.Tensor, seq_lens_this_time: pad
             positions.append([])
             continue
         repeated_base = np.repeat(starts[i], increase_num[i])
-        positions.append(repeated_base + np.arange(0, increase_num[i]))  # + 1
+        positions.append(repeated_base + np.arange(0, increase_num[i]))
 
     return positions
 
@@ -38,3 +38,17 @@ def compute_slot_mapping(block_table, positions: np.ndarray, block_size: int = 6
 
     print("slot_mapping", slot_mapping)
     return slot_mapping
+
+
+def get_token_cache_ids(finished_batch_ids, seq_lens_decoder, seq_lens_this_time, block_table, block_size: int = 64):
+    """ """
+    current_token_nums = seq_lens_decoder.numpy()[:, 0] + seq_lens_this_time.numpy()[:, 0]
+
+    positions = []
+    for batch_id in range(len(seq_lens_decoder)):
+        position = []
+        if batch_id in finished_batch_ids:
+            position = np.arange(0, current_token_nums[batch_id])
+        positions.append(position)
+
+    return compute_slot_mapping(block_table=block_table, positions=positions, block_size=block_size)
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 0b68c08d73b..0793130faaf 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -223,7 +223,12 @@ def __init__(
         # Rollout routing replay config
         self.routing_replay_manager = None
         if self.fd_config.routing_replay_config.enable_routing_replay:
-            self.routing_replay_manager = RoutingReplayManager(fd_config=self.fd_config)
+            self.routing_replay_manager = RoutingReplayManager(
+                fd_config=self.fd_config,
+                seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
+                seq_lens_this_time=self.seq_lens_this_time_buffer,
+                block_table = self.share_inputs["block_tables"]
+            )
 
         self.zmq_client = None
         self.async_output_queue = None
@@ -1422,11 +1427,7 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
         # Update bad tokens len
         max_bad_tokens_len = np.max(self.share_inputs["bad_tokens_len"].numpy())
         logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
-        self.positions = get_token_positions(
-            seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
-            seq_lens_this_time=self.seq_lens_this_time_buffer,
-            max_num_seqs=self.scheduler_config.max_num_seqs,
-        )
+        self.positions = self.routing_replay_manager.get_token_positions()
         logger.info(f"positions {self.positions}")
 
         # Initialize forward meta data
@@ -2267,6 +2268,32 @@ class at the server level, which is too granular for ModelRunner.
 
         prompt_logprobs_list = self._get_prompt_logprobs_list(model_output)
 
+        # Routing replay
+        if self.fd_config.routing_replay_config.enable_routing_replay:
+            # Update host cache
+            logger.info(f"block_tables before compute_slot_mapping : {self.share_inputs['block_tables']}")
+            slot_mapping = self.routing_replay_manager.compute_slot_mapping(
+                positions=self.positions,
+            )
+            self.routing_replay_manager.update_host_cache(positions=self.positions, slot_mapping=slot_mapping)
+
+            # query -> query_token_idx -> _inner_block_token_id
+
+            if (
+                not self.exist_prefill()
+                and not self.exist_decode()
+                and self.share_inputs["is_block_step"].sum() == 0
+                and self.share_inputs["is_chunk_step"].sum() == 0
+            ):
+                # Get the mapping from tokens to blocks id
+                # batch_id(request_id) -> query_token_idx -> _inner_block_token_id
+
+                # Gollective all routing of finished requests
+
+                # Put routing of finished requests to store
+                self.routing_replay_manager.put_table_to_store()
+            return None
+        
         if self.is_pooling_model:
             pooler_output = self._pool(model_output, num_running_requests)
 
@@ -2426,6 +2453,9 @@ class at the server level, which is too granular for ModelRunner.
             else:
                 skip_save_output = False
 
+        
+
+
             post_process(
                 sampler_or_pooler_output=sampler_output,
                 model_output=model_output_data,
@@ -2486,33 +2516,6 @@ class at the server level, which is too granular for ModelRunner.
                     self.speculative_config.num_speculative_tokens,
                 )
 
-        # Routing replay
-        if self.fd_config.routing_replay_config.enable_routing_replay:
-            # Update host cache
-            logger.info(f"block_tables before compute_slot_mapping : {self.share_inputs['block_tables']}")
-            slot_mapping = compute_slot_mapping(
-                block_table=self.share_inputs["block_tables"],
-                positions=self.positions,
-                block_size=self.cache_config.block_size,
-            )
-            self.routing_replay_manager.update_host_cache(positions=self.positions, slot_mapping=slot_mapping)
-
-            # query -> query_token_idx -> _inner_block_token_id
-
-            if (
-                not self.exist_prefill()
-                and not self.exist_decode()
-                and self.share_inputs["is_block_step"].sum() == 0
-                and self.share_inputs["is_chunk_step"].sum() == 0
-            ):
-                # Get the mapping from tokens to blocks id
-                # batch_id(request_id) -> query_token_idx -> _inner_block_token_id
-
-                # Gollective all routing of finished requests
-
-                # Put routing of finished requests to store
-                self.routing_replay_manager.put_table_to_store()
-            return None
 
     def _pool(self, hidden_states: paddle.Tensor, num_running_requests: int) -> Optional[ModelRunnerOutput]:
 

From 3032632352a45d53e2ce95e4273ce5cc7a0aa350 Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Fri, 23 Jan 2026 19:34:56 +0800
Subject: [PATCH 118/161] [Cherry-Pick] [BugFix] move cache creation back to
 cache transfer process and adapt clear/update (#6144) (#6159)

* [fix] move cache creation back to cache transfer process

* [fix] fix clear cache

* [chore] change some log level

* [fix] fix clear cache

* [fix] fix token processor when token_id=0 and add warning log

* [fix] fix clear cache for blockwisefp8 and mtp

* [fix] fix c8

* [fix] fix clear_mtp_cache args

* [chore] update cache_transfer_manager

* [fix] fix update mtp cache

* [fix] fix clear_mtp_cache create_cache_tensor condition
---
 .../cache_manager/cache_transfer_manager.py   | 93 ++++++++++++-------
 .../cache_manager/prefix_cache_manager.py     |  2 +-
 fastdeploy/output/token_processor.py          |  4 +-
 fastdeploy/spec_decode/mtp.py                 | 65 ++++++++-----
 fastdeploy/worker/gpu_model_runner.py         | 58 +++++++++---
 tests/ce/stable_cases/run.sh                  |  1 +
 6 files changed, 152 insertions(+), 71 deletions(-)

diff --git a/fastdeploy/cache_manager/cache_transfer_manager.py b/fastdeploy/cache_manager/cache_transfer_manager.py
index e50bd70522c..cb5757045cb 100644
--- a/fastdeploy/cache_manager/cache_transfer_manager.py
+++ b/fastdeploy/cache_manager/cache_transfer_manager.py
@@ -206,16 +206,6 @@ def __init__(self, args):
 
     def _init_gpu_cache(self, args):
 
-        try:
-            assert not args.create_cache_tensor
-        except:
-            logger.warn(
-                f"In current implementation, cache transfer manager do not create cache tensors at all, "
-                f"meaning create_cache_tensor should be False, while we got {args.create_cache_tensor}. "
-                f"Cache tensor creation will occur in: 1) model runner in case of mixed deployment; "
-                f"or 2) cache messager in case of disaggregation deployment. "
-                f"Please check the codes and make sure they work correctly."
-            )
         if not args.create_cache_tensor:
             logger.info(f"[rank {self.rank}/{self.n_ranks}] Waiting for runners or messagers to create kv cache.")
             while self.cache_ready_signal.value[self.rank] != 1:
@@ -654,14 +644,15 @@ def check_cache_status(self, args):
         # TODO XPU support RL
         if unset_data_ipc is None:
             return
-        logger.info("Start a thread to clear/restore kv cache when model weights are cleared/updated.")
+        logger.info("[RL] Launch a thread to clear/restore kv cache when model weights are cleared/updated.")
         while True:
             # handle cache clearing/restoring
             if self.kv_cache_status_signal.value[0] == KVCacheStatus.CLEARING:
                 assert args.splitwise_role == "mixed", "Only mixed mode supports clearing cache."
                 try:
-                    logger.info(f"Start clearing caches {self.cache_ready_signal.value}")
                     # clear cpu caches
+                    logger.info("[RL] start clearing caches")
+                    logger.debug("[RL] start clearing cpu caches")
                     if self.num_cpu_blocks > 0 and envs.FD_ENABLE_SWAP_SPACE_CLEARING:
                         paddle.set_device("cpu")
                         for ptrs in self.k_dst_ptrs + self.v_dst_ptrs:
@@ -669,62 +660,102 @@ def check_cache_status(self, args):
                         self.cpu_cache_kvs.clear()
                         self.k_dst_ptrs.clear()
                         self.v_dst_ptrs.clear()
+                        if self.cache_dtype == "block_wise_fp8":
+                            self.k_scales_ptrs.clear()
+                            self.v_scales_ptrs.clear()
                         gc.collect()
+                        logger.debug("[RL] successfully cleared cpu caches")
                         # reset swap_space_ready_signal
                         self.swap_space_ready_signal.value[self.rank] = 0
                         while np.sum(self.swap_space_ready_signal.value) != 0:
                             time.sleep(0.1)
+                        logger.debug("[RL] all ranks cleared cpu caches")
+                    else:
+                        logger.debug("[RL] skip clearing cpu caches")
 
                     # clear gpu caches
-                    set_device(self.device)
-                    for name, tensor in self.gpu_cache_kvs.items():
-                        unset_data_ipc(tensor, name, True, False)
-                    self.gpu_cache_kvs.clear()
-                    self.gpu_cache_k_tensors.clear()
-                    self.gpu_cache_v_tensors.clear()
-
-                    # reset cache_ready_signal
-                    self.cache_ready_signal.value[self.rank] = 0
-                    logger.info(f"Finish clearing caches {self.cache_ready_signal.value}")
-
-                    # wait for all ranks caches to be cleared
-                    if np.sum(self.cache_ready_signal.value) != 0:
+                    logger.debug("[RL] start clearing gpu caches")
+                    if args.create_cache_tensor:
+                        logger.info("[RL] waiting for gpu runner to unlink cuda ipc")
+                        while self.cache_ready_signal.value[self.rank] != 0:
+                            time.sleep(0.1)
+                        logger.info("[RL] stop waiting! gpu runner has unlinked cuda ipc")
+                        paddle.set_device(f"gpu:{self.device}")
+                        self.gpu_cache_kvs.clear()
+                        self.gpu_cache_k_tensors.clear()
+                        self.gpu_cache_v_tensors.clear()
+                        if self.cache_dtype == "block_wise_fp8":
+                            self.gpu_cache_scales_k_tensors.clear()
+                            self.gpu_cache_scales_v_tensors.clear()
+                        paddle.device.cuda.empty_cache()
+                        logger.debug("[RL] successfully cleared gpu caches")
+                    else:
+                        for name, tensor in self.gpu_cache_kvs.items():
+                            unset_data_ipc(tensor, name, True, False)
+                        logger.debug("[RL] successfully unlinked gpu caches cuda ipc")
+                        self.cache_ready_signal.value[self.rank] = 0
+
+                    while np.sum(self.cache_ready_signal.value) != 0:
                         time.sleep(0.1)
+                    logger.info("[RL] all ranks cleared caches!")
 
                     # reset kv_cache_status_signal
                     self.kv_cache_status_signal.value[0] = KVCacheStatus.CLEARED
-                    logger.info(f"All ranks finish clearing caches {self.cache_ready_signal.value}")
+
+                    self._log_memory("after clearing caches")
 
                 except Exception as e:
-                    logger.error(f"Failed to clear caches: {e}")
+                    logger.error(f"[RL] failed to clear caches: {e}")
 
             elif self.kv_cache_status_signal.value[0] == KVCacheStatus.UPDATING:
                 assert args.splitwise_role == "mixed", "Only mixed mode supports updating cache."
                 try:
-                    logger.info(f"Start restoring caches {self.cache_ready_signal.value}")
                     # restore cpu cache
+                    logger.info("[RL] start restoring caches")
+                    logger.debug("[RL] start restoring cpu caches")
                     if self.num_cpu_blocks > 0 and envs.FD_ENABLE_SWAP_SPACE_CLEARING:
                         self._init_cpu_cache(args)
+                        logger.debug("[RL] successfully restored cpu caches")
                         while np.sum(self.swap_space_ready_signal.value) != args.mp_num:
                             time.sleep(0.1)
+                        logger.debug("[RL] all ranks restored cpu caches")
+                    else:
+                        logger.debug("[RL] skip restoring cpu caches")
 
                     # restore gpu cache and set cache_ready_signal
+                    logger.debug("[RL] start restoring gpu caches")
                     self._init_gpu_cache(args)
-                    logger.info(f"Finish restoring caches {self.cache_ready_signal.value}")
+                    logger.debug("[RL] successfully restored gpu caches")
 
                     # wait for all ranks caches to be ready
                     while np.sum(self.cache_ready_signal.value) != args.mp_num:
                         time.sleep(0.1)
+                    logger.info("[RL] all ranks restored caches!")
 
                     # set kv_cache_status_signal
-                    logger.info(f"All ranks finish restoring caches {self.cache_ready_signal.value}")
                     self.kv_cache_status_signal.value[0] = KVCacheStatus.NORMAL
 
+                    self._log_memory("after restoring caches")
                 except Exception as e:
-                    logger.error(f"Failed to restore caches: {e}")
+                    logger.error(f"[RL] failed to restore caches: {e}")
 
             time.sleep(0.1)
 
+    def _log_memory(self, context: str):
+        """Log current GPU memory usage."""
+        max_alloc = paddle.device.cuda.max_memory_allocated() / (1024**3)
+        max_reserved = paddle.device.cuda.max_memory_reserved() / (1024**3)
+        curr_alloc = paddle.device.cuda.memory_allocated() / (1024**3)
+        curr_reserved = paddle.device.cuda.memory_reserved() / (1024**3)
+
+        logger.warning(
+            f"GPU memory usage {context}:"
+            f"max_allocated: {max_alloc:.2f}GB "
+            f"max_reserved: {max_reserved:.2f}GB "
+            f"current_allocated: {curr_alloc:.2f}GB "
+            f"current_reserved: {curr_reserved:.2f}GB"
+        )
+
 
 def main():
     """
diff --git a/fastdeploy/cache_manager/prefix_cache_manager.py b/fastdeploy/cache_manager/prefix_cache_manager.py
index 8e366992fba..311645f6d5f 100644
--- a/fastdeploy/cache_manager/prefix_cache_manager.py
+++ b/fastdeploy/cache_manager/prefix_cache_manager.py
@@ -281,7 +281,7 @@ def launch_cache_manager(
                     + f" --local_data_parallel_id {self.local_data_parallel_id}"
                     + f" --rdma_port {cache_config.rdma_comm_ports[i] if cache_config.rdma_comm_ports is not None else '0'}"
                     + f" --speculative_config '{self.speculative_config.to_json_string()}'"
-                    + (" --create_cache_tensor" if create_cache_tensor else "")
+                    + (" --create_cache_tensor" if not self.enable_splitwise else "")
                     + f" >{log_dir}/launch_cache_transfer_manager_tprank{i}.log 2>&1"
                 )
                 logger.info(f"Launch cache transfer manager, command:{launch_cmd}")
diff --git a/fastdeploy/output/token_processor.py b/fastdeploy/output/token_processor.py
index afc8a8b7ce0..00eeb04dc76 100644
--- a/fastdeploy/output/token_processor.py
+++ b/fastdeploy/output/token_processor.py
@@ -692,7 +692,9 @@ def _process_batch_output(self):
                         + i * MAX_DRAFT_TOKENS
                         + accept_num[i]
                     ].tolist()
-                if (not recovery_stop) and (len(token_ids) == 0 or token_ids[-1] <= 0):
+                if len(token_ids) > 0 and token_ids[-1] <= 0:
+                    llm_logger.warning(f"Invalid token is generated! token_id {token_ids[-1]} at task {task_id}")
+                if (not recovery_stop) and (len(token_ids) == 0 or token_ids[-1] < 0):
                     if envs.ENABLE_V1_KVCACHE_SCHEDULER:
                         if task_id in self.resource_manager.to_be_rescheduled_request_id_set:
                             self.resource_manager.reschedule_preempt_task(task_id)
diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index a5079f5e668..2374477e6c6 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -69,6 +69,7 @@
         speculate_save_output_topk,
         update_attn_mask_offsets,
         set_data_ipc,
+        unset_data_ipc,
     )
     from fastdeploy.model_executor.pre_and_post_process import pre_process, rebuild_padding
 
@@ -99,6 +100,7 @@ def __init__(
         self.hybrid_mode = self.mtp_strategy == "with_ngram" and self.max_draft_token_num > self.num_model_steps
         self.enable_logprob = self.model_config.enable_logprob
         self.enable_draft_logprob = self.speculative_config.enable_draft_logprob
+        self.cache_kvs_map = {}
 
         # [mixed, prefill, decoder]
         self.role = self.scheduler_config.splitwise_role
@@ -220,8 +222,10 @@ def initialize_kv_cache(self, main_model_num_blocks, profile: bool = False):
 
         # Check if gpu runner needs to create kv cache
         # 1. During profiling, it creates its own kv cache.
-        # 2. GPU runner creates kv cache tensor unless p/d disaggregation is enabled.
-        create_cache_tensor = profile or self.scheduler_config.splitwise_role == "mixed"
+        # 2. If no need to profile, create kv cache if cache managers do not exist.
+        create_cache_tensor = profile or not (
+            self.fd_config.cache_config.num_cpu_blocks > 0 or self.fd_config.scheduler_config.splitwise_role != "mixed"
+        )
 
         if not create_cache_tensor:
             logger.info(f"Waiting for cache managers to create kv cache.. {cache_ready_signal.value}")
@@ -244,9 +248,11 @@ def initialize_kv_cache(self, main_model_num_blocks, profile: bool = False):
                 key_cache_name = f"key_caches_{i}_rank{local_rank}.device{self.device_id}"
                 val_cache_name = f"value_caches_{i}_rank{local_rank}.device{self.device_id}"
                 key_cache = share_external_data(key_cache, key_cache_name, key_cache_shape)
+                self.cache_kvs_map[key_cache_name] = key_cache
                 cache_kvs_list.append(key_cache)
                 value_cache = paddle.empty(shape=[], dtype=cache_type)
                 value_cache = share_external_data(value_cache, val_cache_name, value_cache_shape)
+                self.cache_kvs_map[val_cache_name] = value_cache
                 cache_kvs_list.append(value_cache)
 
                 if kv_cache_quant_type == "block_wise_fp8":
@@ -254,62 +260,66 @@ def initialize_kv_cache(self, main_model_num_blocks, profile: bool = False):
                     scale_val_cache_name = f"value_cache_scales_{i}_rank{local_rank}.device{self.device_id}"
                     key_scale_cache = paddle.empty(shape=[], dtype=paddle.get_default_dtype())
                     key_scale_cache = share_external_data(key_scale_cache, scale_key_cache_name, kv_cache_scale_shape)
+                    self.cache_kvs_map[scale_key_cache_name] = key_scale_cache
                     cache_kvs_list.append(key_scale_cache)
                     value_scale_cache = paddle.empty(shape=[], dtype=paddle.get_default_dtype())
                     value_scale_cache = share_external_data(
                         value_scale_cache, scale_val_cache_name, kv_cache_scale_shape
                     )
+                    self.cache_kvs_map[scale_val_cache_name] = value_scale_cache
                     cache_kvs_list.append(value_scale_cache)
 
             self.model_inputs["caches"] = cache_kvs_list
         else:
+            cache_kvs_list = []
             for i in range(
                 self.num_main_model_layers,
                 self.num_main_model_layers + self.model_config.num_hidden_layers,
             ):
                 logger.info(f"..creating kv cache for mtp layer {i}: key:{key_cache_shape}, value:{value_cache_shape}")
-                self.cache_kvs[f"key_caches_{i}"] = paddle.full(
+                key_cache = paddle.full(
                     shape=key_cache_shape,
                     fill_value=0,
                     dtype=cache_type,
                 )
-                set_data_ipc(
-                    self.cache_kvs[f"key_caches_{i}"], f"key_caches_{i}_rank{local_rank}.device{self.device_id}"
-                )
+                key_cache_name = f"key_caches_{i}_rank{local_rank}.device{self.device_id}"
+                set_data_ipc(key_cache, key_cache_name)
+                self.cache_kvs_map[key_cache_name] = key_cache
+                cache_kvs_list.append(key_cache)
 
-                self.cache_kvs[f"value_caches_{i}"] = paddle.full(
+                val_cache = paddle.full(
                     shape=value_cache_shape,
                     fill_value=0,
                     dtype=cache_type,
                 )
-                set_data_ipc(
-                    self.cache_kvs[f"value_caches_{i}"], f"value_caches_{i}_rank{local_rank}.device{self.device_id}"
-                )
+                val_cache_name = f"value_caches_{i}_rank{local_rank}.device{self.device_id}"
+                set_data_ipc(val_cache, val_cache_name)
+                self.cache_kvs_map[val_cache_name] = val_cache
+                cache_kvs_list.append(val_cache)
 
                 if kv_cache_quant_type == "block_wise_fp8":
-                    self.cache_kvs[f"key_cache_scales_{i}"] = paddle.full(
+                    key_cache_scales = paddle.full(
                         shape=kv_cache_scale_shape,
                         fill_value=0,
                         dtype=paddle.get_default_dtype(),
                     )
-                    set_data_ipc(
-                        self.cache_kvs[f"key_cache_scales_{i}"],
-                        f"key_cache_scales_{i}_rank{local_rank}.device{self.device_id}",
-                    )
+                    key_cache_scales_name = f"key_cache_scales_{i}_rank{local_rank}.device{self.device_id}"
+                    set_data_ipc(key_cache_scales, key_cache_scales_name)
+                    self.cache_kvs_map[key_cache_scales_name] = key_cache_scales
+                    cache_kvs_list.append(key_cache_scales)
 
-                    self.cache_kvs[f"value_cache_scales_{i}"] = paddle.full(
+                    val_cache_scales = paddle.full(
                         shape=kv_cache_scale_shape,
                         fill_value=0,
                         dtype=paddle.get_default_dtype(),
                     )
-                    set_data_ipc(
-                        self.cache_kvs[f"value_cache_scales_{i}"],
-                        f"value_cache_scales_{i}_rank{local_rank}.device{self.device_id}",
-                    )
+                    val_cache_scales_name = f"value_cache_scales_{i}_rank{local_rank}.device{self.device_id}"
+                    set_data_ipc(val_cache_scales, val_cache_scales_name)
+                    self.cache_kvs_map[val_cache_scales_name] = val_cache_scales
+                    cache_kvs_list.append(val_cache_scales)
+
+            self.model_inputs["caches"] = cache_kvs_list
 
-            self.model_inputs["caches"] = list(self.cache_kvs.values())
-            for value in self.cache_kvs.values():
-                del value
         self._empty_cache()
 
     def _initialize_attn_backend(
@@ -384,10 +394,17 @@ def _initialize_attn_backend(
             )
         self.attn_backends.append(attn_backend)
 
-    def clear_mtp_cache(self):
+    def clear_mtp_cache(self, profile=False):
         """
         Clear allocated cacheKV
         """
+        create_cache_tensor = profile or not (
+            self.fd_config.cache_config.num_cpu_blocks > 0 or self.fd_config.scheduler_config.splitwise_role != "mixed"
+        )
+        if not create_cache_tensor:
+            for name, tensor in self.cache_kvs_map.items():
+                unset_data_ipc(tensor, name, True, False)
+        self.cache_kvs_map.clear()
         del self.model_inputs["caches"]
         if self.forward_meta is not None:
             del self.forward_meta.caches
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 664a630e99a..bb980351863 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -74,6 +74,7 @@
         share_external_data,
         speculate_schedule_cache,
         set_data_ipc,
+        unset_data_ipc,
     )
 
 from fastdeploy.model_executor.pre_and_post_process import (
@@ -138,6 +139,7 @@ def __init__(
         self.prompt_logprobs_reqs: dict[str, Request] = {}
         self.in_progress_prompt_logprobs: dict[str, LogprobsTensors] = {}
         self.forward_batch_reqs_list: list[Request] = [None for _ in range(self.scheduler_config.max_num_seqs)]
+        self.cache_kvs_map: dict = {}
 
         # VL model config:
         if self.enable_mm:
@@ -238,6 +240,16 @@ def __init__(
 
         self.enable_entropy = self.model_config.enable_entropy
 
+        # init signal
+        cache_ready_signal_data = np.zeros(shape=[self.parallel_config.tensor_parallel_size], dtype=np.int32)
+        self.cache_ready_signal = IPCSignal(
+            name="cache_ready_signal",
+            array=cache_ready_signal_data,
+            dtype=np.int32,
+            suffix=self.parallel_config.engine_worker_queue_port,
+            create=False,
+        )
+
     def _async_output_busy_loop(self):
         """Entrypoint for the thread which handles outputs asynchronously."""
         while True:
@@ -1572,20 +1584,14 @@ def initialize_kv_cache(self, profile: bool = False) -> None:
             kv_cache_scale_shape = [key_cache_shape[0], key_cache_shape[1], key_cache_shape[2]]
         local_rank = self.local_rank % self.parallel_config.tensor_parallel_size
 
-        cache_ready_signal_data = np.zeros(shape=[self.parallel_config.tensor_parallel_size], dtype=np.int32)
-        cache_ready_signal = IPCSignal(
-            name="cache_ready_signal",
-            array=cache_ready_signal_data,
-            dtype=np.int32,
-            suffix=self.parallel_config.engine_worker_queue_port,
-            create=False,
-        )
-
         # Check if gpu runner needs to create kv cache
         # 1. During profiling, it creates its own kv cache.
-        # 2. GPU runner creates kv cache tensor unless p/d disaggregation is enabled.
-        create_cache_tensor = profile or self.scheduler_config.splitwise_role == "mixed"
+        # 2. If no need to profile, create kv cache if cache managers do not exist.
+        create_cache_tensor = profile or not (
+            self.fd_config.cache_config.num_cpu_blocks > 0 or self.fd_config.scheduler_config.splitwise_role != "mixed"
+        )
 
+        cache_ready_signal = self.cache_ready_signal
         if not create_cache_tensor:
             logger.info(f"Waiting for cache managers to create kv cache.. {cache_ready_signal.value}")
             while cache_ready_signal.value[local_rank] != 1:
@@ -1611,9 +1617,11 @@ def initialize_kv_cache(self, profile: bool = False) -> None:
                 logger.info(f"..creating kv cache for layer {i}: key:{key_cache_shape}, value:{value_cache_shape}")
                 key_cache = paddle.full(shape=key_cache_shape, fill_value=0, dtype=cache_type)
                 set_data_ipc(key_cache, key_cache_name)
+                self.cache_kvs_map[key_cache_name] = key_cache
                 if value_cache_shape:
                     val_cache = paddle.full(shape=value_cache_shape, fill_value=0, dtype=cache_type)
                     set_data_ipc(val_cache, val_cache_name)
+                    self.cache_kvs_map[val_cache_name] = val_cache
                     cache_kvs_list.extend([key_cache, val_cache])
                 else:
                     cache_kvs_list.extend([key_cache])
@@ -1622,11 +1630,13 @@ def initialize_kv_cache(self, profile: bool = False) -> None:
                         shape=kv_cache_scale_shape, fill_value=0, dtype=paddle.get_default_dtype()
                     )
                     set_data_ipc(key_cache_scales, key_cache_scales_name)
+                    self.cache_kvs_map[key_cache_scales_name] = key_cache_scales
                     if value_cache_shape:
                         val_cache_scales = paddle.full(
                             shape=kv_cache_scale_shape, fill_value=0, dtype=paddle.get_default_dtype()
                         )
                         set_data_ipc(val_cache_scales, value_cache_scales_name)
+                        self.cache_kvs_map[value_cache_scales_name] = val_cache_scales
                         cache_kvs_list.extend([key_cache_scales, val_cache_scales])
                     else:
                         cache_kvs_list.extend([key_cache_scales])
@@ -1634,20 +1644,24 @@ def initialize_kv_cache(self, profile: bool = False) -> None:
                 logger.info(f"..attaching kv cache for layer {i}: key:{key_cache_shape}, value:{value_cache_shape}")
                 key_cache = paddle.empty(shape=[], dtype=cache_type)
                 key_cache = share_external_data(key_cache, key_cache_name, key_cache_shape)
+                self.cache_kvs_map[key_cache_name] = key_cache
                 if kv_cache_quant_type == "block_wise_fp8":
                     key_cache_scales = paddle.empty(shape=[], dtype=paddle.get_default_dtype())
                     key_cache_scales = share_external_data(
                         key_cache_scales, key_cache_scales_name, kv_cache_scale_shape
                     )
+                    self.cache_kvs_map[key_cache_scales_name] = key_cache_scales
                 if value_cache_shape:
                     val_cache = paddle.empty(shape=[], dtype=cache_type)
                     val_cache = share_external_data(val_cache, val_cache_name, value_cache_shape)
+                    self.cache_kvs_map[val_cache_name] = val_cache
                     cache_kvs_list.extend([key_cache, val_cache])
                     if kv_cache_quant_type == "block_wise_fp8":
                         val_cache_scales = paddle.empty(shape=[], dtype=paddle.get_default_dtype())
                         val_cache_scales = share_external_data(
                             val_cache_scales, value_cache_scales_name, kv_cache_scale_shape
                         )
+                        self.cache_kvs_map[value_cache_scales_name] = val_cache_scales
                         cache_kvs_list.extend([key_cache_scales, val_cache_scales])
                 else:
                     cache_kvs_list.extend([key_cache])
@@ -2570,9 +2584,9 @@ def profile_run(self) -> None:
         )
 
         # 3. gc
-        self.clear_cache()
         if self.speculative_method in ["mtp"]:
-            self.proposer.clear_mtp_cache()
+            self.proposer.clear_mtp_cache(profile=True)
+        self.clear_cache(profile=True)
 
     def update_share_input_block_num(self, num_gpu_blocks: int) -> None:
         """
@@ -2653,8 +2667,20 @@ def not_need_stop(self) -> bool:
         """Stop decoding if the tensor meets the termination condition"""
         return self.share_inputs["not_need_stop"][0]
 
-    def clear_cache(self):
+    def clear_cache(self, profile=False):
         """Clear cached data from shared inputs and forward metadata"""
+        create_cache_tensor = profile or not (
+            self.fd_config.cache_config.num_cpu_blocks > 0
+            or self.fd_config.cache_config.kvcache_storage_backend
+            or self.fd_config.scheduler_config.splitwise_role != "mixed"
+        )
+        local_rank = self.local_rank % self.parallel_config.tensor_parallel_size
+
+        if not create_cache_tensor:
+            for name, tensor in self.cache_kvs_map.items():
+                unset_data_ipc(tensor, name, True, False)
+            self.cache_ready_signal.value[local_rank] = 0
+        self.cache_kvs_map.clear()
         self.share_inputs.pop("caches", None)
         if self.forward_meta is not None:
             self.forward_meta.clear_caches()
@@ -2669,6 +2695,8 @@ def clear_parameters(self, pid):
         self.dynamic_weight_manager.clear_parameters(
             pid, self.fd_config.parallel_config.shutdown_comm_group_if_worker_idle
         )
+        if self.speculative_method in ["mtp"]:
+            self.proposer.clear_mtp_cache()
         self.clear_cache()
         paddle.device.cuda.empty_cache()
 
@@ -2690,6 +2718,8 @@ def update_parameters(self, pid):
         self.dynamic_weight_manager.update_parameters(
             pid, self.fd_config.parallel_config.shutdown_comm_group_if_worker_idle
         )
+        if self.speculative_method in ["mtp"]:
+            self.proposer.initialize_kv_cache(main_model_num_blocks=self.num_gpu_blocks)
         self.initialize_kv_cache()
         # Recapture CUDAGraph
         if self.use_cudagraph:
diff --git a/tests/ce/stable_cases/run.sh b/tests/ce/stable_cases/run.sh
index e2f4aef71ea..e0d77eafbae 100644
--- a/tests/ce/stable_cases/run.sh
+++ b/tests/ce/stable_cases/run.sh
@@ -156,6 +156,7 @@ for round in $(seq 1 $TOTAL_ROUNDS); do
     echo "[Step 1] Clearing load weight..."
     curl_get_status -i "$BASE_URL/clear_load_weight"
     assert_eq "$http_code" "200" "/clear_load_weight failed with HTTP $http_code"
+    sleep 5
 
     # Step 2: Check GPU memory usage
     echo "[Step 2] Checking GPU memory..."

From 739c8a2cd95f7d6b8e6ac0a106b580685a86cfe9 Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Fri, 23 Jan 2026 19:37:09 +0800
Subject: [PATCH 119/161] [Cherry-Pick][Others] enable use PFCC/PaddleFleet
 deep_ep (#6191)

* use pfcc/paddlefleet deepep

* update
---
 fastdeploy/envs.py                         |  2 +
 fastdeploy/model_executor/layers/moe/ep.py | 68 +++++++++++++++-------
 2 files changed, 50 insertions(+), 20 deletions(-)

diff --git a/fastdeploy/envs.py b/fastdeploy/envs.py
index 7abbfd83ca2..676ab6a5fd6 100644
--- a/fastdeploy/envs.py
+++ b/fastdeploy/envs.py
@@ -164,6 +164,8 @@
     "GLOBAL_LOGGING_INSTRUMENT": lambda: int(os.getenv("GLOBAL_LOGGING_INSTRUMENT", "0")),
     # Timeout for worker process health check in seconds
     "FD_WORKER_ALIVE_TIMEOUT": lambda: int(os.getenv("FD_WORKER_ALIVE_TIMEOUT", "30")),
+    # Whether to use PFCCLab/DeepEP.
+    "FD_USE_PFCC_DEEP_EP": lambda: bool(int(os.getenv("FD_USE_PFCC_DEEP_EP", "0"))),
 }
 
 
diff --git a/fastdeploy/model_executor/layers/moe/ep.py b/fastdeploy/model_executor/layers/moe/ep.py
index b61fe48f6a1..4b33ec2a55c 100644
--- a/fastdeploy/model_executor/layers/moe/ep.py
+++ b/fastdeploy/model_executor/layers/moe/ep.py
@@ -14,16 +14,27 @@
 # limitations under the License.
 """
 
+import traceback
 from abc import abstractmethod
 
 import paddle
 from paddle import nn
 from paddleformers.utils.log import logger
 
+from fastdeploy import envs
+
 try:
-    from paddle.distributed.communication import deep_ep
-except:
-    logger.warning("import deep_ep Failed!")
+    if envs.FD_USE_PFCC_DEEP_EP:
+        paddle.compat.enable_torch_proxy(scope={"deep_ep"})  # Enable torch proxy before importing deep_ep
+        import paddlefleet.ops.deep_ep as deep_ep
+    else:
+        from paddle.distributed.communication import deep_ep
+except Exception as e:
+    logger.error(
+        f"import deep_ep failed! FD_USE_PFCC_DEEP_EP={envs.FD_USE_PFCC_DEEP_EP}. " f"type={type(e).__name__}, err={e}"
+    )
+    logger.error("Traceback:\n" + traceback.format_exc())
+    raise
 
 from typing import Optional
 
@@ -280,23 +291,40 @@ def low_latency_dispatch(
         if self.deepep_engine is None:
             raise RuntimeError("DeepEP buffer not initialized!")
 
-        (
-            packed_recv_x,
-            recv_expert_count,
-            handle,
-            _,
-            dispatch_hook,
-        ) = self.deepep_engine.low_latency_dispatch(
-            hidden_states,
-            topk_idx,
-            expertwise_scale,
-            self.buffer.num_max_dispatch_tokens_per_rank,
-            self.num_experts,
-            use_fp8=use_fp8,
-            async_finish=False,
-            return_recv_hook=True,
-            num_per_channel=quant_group_size,
-        )
+        if envs.FD_USE_PFCC_DEEP_EP:
+            (
+                packed_recv_x,
+                recv_expert_count,
+                handle,
+                _,
+                dispatch_hook,
+            ) = self.deepep_engine.low_latency_dispatch(
+                hidden_states,
+                topk_idx,
+                self.buffer.num_max_dispatch_tokens_per_rank,
+                self.num_experts,
+                use_fp8=use_fp8,
+                async_finish=False,
+                return_recv_hook=True,
+            )
+        else:
+            (
+                packed_recv_x,
+                recv_expert_count,
+                handle,
+                _,
+                dispatch_hook,
+            ) = self.deepep_engine.low_latency_dispatch(
+                hidden_states,
+                topk_idx,
+                expertwise_scale,
+                self.buffer.num_max_dispatch_tokens_per_rank,
+                self.num_experts,
+                use_fp8=use_fp8,
+                async_finish=False,
+                return_recv_hook=True,
+                num_per_channel=quant_group_size,
+            )
 
         return packed_recv_x, recv_expert_count, handle, dispatch_hook
 

From 36ef77f1b1be3c954d9785973cc135726302ff3d Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Fri, 23 Jan 2026 22:55:29 +0800
Subject: [PATCH 120/161] have put table bug

---
 .../layers/moe/routing_indices_cache.py       | 53 ++++++++++----
 fastdeploy/worker/gpu_model_runner.py         | 70 +++++++++++--------
 2 files changed, 78 insertions(+), 45 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 7a5fc6354d4..7f84ff63c43 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -169,7 +169,7 @@ def __init__(
         self.routing_store = get_routing_store(fd_config=fd_config)
         self.routing_batch_to_request: Dict[int, str] = {}
 
-        self._init_routing_cache(dtype="uint8")
+        self._init_routing_cache(dtype="int32")
 
         self.block_table = block_table
 
@@ -240,9 +240,9 @@ def compute_slot_mapping(self, positions: np.ndarray):
 
     def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder, seq_lens_this_time):
         """ 
-        1. finish the step: after update input
-        2. clear parameter: after update input """
-        current_token_nums = seq_lens_decoder.numpy()[:, 0] + seq_lens_this_time.numpy()[:, 0]
+        1. finish the step: after update input, lens = seq_lens_decoder_buffer
+        2. clear parameter: after update input, lens = seq_lens_decoder_buffer"""
+        current_token_nums = seq_lens_decoder.numpy()[:, 0] #  + seq_lens_this_time.numpy()[:, 0]
         print(f"{seq_lens_decoder} {seq_lens_this_time}")
         print("current_token_nums", current_token_nums)
         positions = []
@@ -256,10 +256,20 @@ def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder, seq_lens_
 
     def _get_routing_from_cache(self, token_cache_ids):
         """Collection the cached routing information"""
-        token_cached_routing = self._host_cache[token_cache_ids, :, :]
-        return token_cached_routing.transpose([1, 0, 2])
-
-    def register_request(self, batch_id: int, request_id: str):
+        for slot_map in token_cache_ids:
+            if len(slot_map)>0:
+                logger.info(f"[R3] _get_routing_from_cache {slot_map}")
+                token_cached_routing = self._host_cache[slot_map, :, :]
+                return token_cached_routing.transpose([1, 0, 2])
+        raise ValueError("No cached routing found")
+
+    def register_request(
+            self, 
+            batch_id: int, 
+            request_id: str,
+            seq_lens_decoder,
+            seq_lens_this_time
+        ):
         """
         Register a new request to routing replay table
         Args:
@@ -269,7 +279,14 @@ def register_request(self, batch_id: int, request_id: str):
         # Save requests that have been finished for the current slot
         if batch_id in self.routing_batch_to_request:
             pre_request_id = self._deregister_request(batch_id)
-            asyncio.run(self._put_request_to_store(batch_id, pre_request_id))
+            asyncio.run(
+                self._put_request_to_store(
+                    batch_id=batch_id, 
+                    request_id=pre_request_id, 
+                    seq_lens_decoder=seq_lens_decoder, 
+                    seq_lens_this_time=seq_lens_this_time
+                )
+            )
         # Register the new request
         self.routing_batch_to_request[batch_id] = request_id
         logger.info(f"[R3] Register request {request_id} with batch id {batch_id}")
@@ -285,16 +302,18 @@ async def _put_request_to_store(
         self,
         batch_id: int,
         request_id: str,
+        seq_lens_decoder,
+        seq_lens_this_time,
     ):
         before_put_request_time = time.perf_counter()
         if self.tp_rank == 0:
             batch_buffe_old = self.routing_replay_table[batch_id]
             logger.info(f"batch id {batch_id}, request id {request_id}")
-            slot_mapping = self._get_request_cache_ids([batch_id])
+            slot_mapping = self._get_request_cache_ids(finished_batch_ids=[batch_id], seq_lens_decoder=seq_lens_decoder, seq_lens_this_time=seq_lens_this_time)
             logger.info(f"slot_mapping {slot_mapping}")
             batch_buffer = self._get_routing_from_cache(token_cache_ids=slot_mapping)
             logger.info(f"batch_buffer {batch_buffer} batch_buffe_old {batch_buffe_old}")
-            logger.info(f"batch_buffer_old equal batch_buffer{paddle.allclose(batch_buffe_old, batch_buffer)}")
+            logger.info(f"batch_buffer_old equal batch_buffer{paddle.allclose(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}")
             tasks = []
             for layer_id in range(self.num_moe_layers):
                 layer_buffer = batch_buffer[layer_id]
@@ -309,14 +328,20 @@ async def _put_request_to_store(
         logger.info(f"[R3] Async put {request_id} time cost: {time.perf_counter() - before_put_request_time}")
         self._clear_table_slot(batch_id)
 
-    def put_table_to_store(self):
+    def put_table_to_store(self, seq_lens_decoder, seq_lens_this_time):
         """Put the routing table"""
         logger.info("[R3] Put routing table to store.")
         batch_ids = copy.deepcopy(list(self.routing_batch_to_request.keys()))
         for batch_id in batch_ids:
             request_id = self._deregister_request(batch_id)
-            asyncio.run(self._put_request_to_store(batch_id, request_id))
-
+            asyncio.run(
+                self._put_request_to_store(
+                    batch_id=batch_id, 
+                    request_id=request_id, 
+                    seq_lens_decoder=seq_lens_decoder, 
+                    seq_lens_this_time=seq_lens_this_time
+                )
+            )
     def _clear_table_slot(self, batch_id: int):
         assert 0 <= batch_id < self.max_num_seqs
         self.routing_replay_table[batch_id].fill_(-1)
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 0793130faaf..54c10a538f6 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -225,8 +225,6 @@ def __init__(
         if self.fd_config.routing_replay_config.enable_routing_replay:
             self.routing_replay_manager = RoutingReplayManager(
                 fd_config=self.fd_config,
-                seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
-                seq_lens_this_time=self.seq_lens_this_time_buffer,
                 block_table = self.share_inputs["block_tables"]
             )
 
@@ -689,7 +687,12 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                 # Routing Replay
                 if self.fd_config.routing_replay_config.enable_routing_replay:
                     if prefill_start_index == 0:
-                        self.routing_replay_manager.register_request(batch_id=idx, request_id=request.request_id)
+                        self.routing_replay_manager.register_request(
+                            batch_id=idx, 
+                            request_id=request.request_id,
+                            seq_lens_decoder=self.share_inputs["seq_lens_decoder"], 
+                            seq_lens_this_time=self.seq_lens_this_time_buffer
+                        )
 
                 if (
                     self.fd_config.scheduler_config.splitwise_role == "decode"
@@ -1177,6 +1180,7 @@ def _init_share_inputs(self, max_num_seqs: int):
             self.share_inputs["seq_lens_this_time"] = paddle.full([max_num_seqs, 1], 0, dtype="int32")
         self.share_inputs["seq_lens_encoder"] = paddle.full([max_num_seqs, 1], 0, dtype="int32")
         self.share_inputs["seq_lens_decoder"] = paddle.full([max_num_seqs, 1], 0, dtype="int32")
+        self.seq_lens_routing_buffer = paddle.full([max_num_seqs, 1], 0, dtype="int32")
         self.share_inputs["step_seq_lens_encoder"] = paddle.full([max_num_seqs, 1], 0, dtype="int32")
         self.share_inputs["step_seq_lens_decoder"] = paddle.full([max_num_seqs, 1], 0, dtype="int32")
         self.share_inputs["prompt_lens"] = paddle.full([max_num_seqs, 1], 0, dtype="int64")
@@ -1427,7 +1431,7 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
         # Update bad tokens len
         max_bad_tokens_len = np.max(self.share_inputs["bad_tokens_len"].numpy())
         logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
-        self.positions = self.routing_replay_manager.get_token_positions()
+        self.positions = self.routing_replay_manager.get_token_positions(seq_lens_decoder=self.share_inputs["seq_lens_decoder"], seq_lens_this_time=self.seq_lens_this_time_buffer)
         logger.info(f"positions {self.positions}")
 
         # Initialize forward meta data
@@ -2267,33 +2271,9 @@ class at the server level, which is too granular for ModelRunner.
             model_output = model_output[: self.real_token_num]
 
         prompt_logprobs_list = self._get_prompt_logprobs_list(model_output)
-
-        # Routing replay
-        if self.fd_config.routing_replay_config.enable_routing_replay:
-            # Update host cache
-            logger.info(f"block_tables before compute_slot_mapping : {self.share_inputs['block_tables']}")
-            slot_mapping = self.routing_replay_manager.compute_slot_mapping(
-                positions=self.positions,
-            )
-            self.routing_replay_manager.update_host_cache(positions=self.positions, slot_mapping=slot_mapping)
-
-            # query -> query_token_idx -> _inner_block_token_id
-
-            if (
-                not self.exist_prefill()
-                and not self.exist_decode()
-                and self.share_inputs["is_block_step"].sum() == 0
-                and self.share_inputs["is_chunk_step"].sum() == 0
-            ):
-                # Get the mapping from tokens to blocks id
-                # batch_id(request_id) -> query_token_idx -> _inner_block_token_id
-
-                # Gollective all routing of finished requests
-
-                # Put routing of finished requests to store
-                self.routing_replay_manager.put_table_to_store()
-            return None
+        logger.info(f"berfore update input {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}")
         
+
         if self.is_pooling_model:
             pooler_output = self._pool(model_output, num_running_requests)
 
@@ -2516,6 +2496,33 @@ class at the server level, which is too granular for ModelRunner.
                     self.speculative_config.num_speculative_tokens,
                 )
 
+        # Routing replay
+        if self.fd_config.routing_replay_config.enable_routing_replay:
+            # Update host cache
+            logger.info(f"block_tables before compute_slot_mapping : {self.share_inputs['block_tables']}")
+            slot_mapping = self.routing_replay_manager.compute_slot_mapping(
+                positions=self.positions)
+            self.routing_replay_manager.update_host_cache(positions=self.positions, slot_mapping=slot_mapping)
+
+            # query -> query_token_idx -> _inner_block_token_id
+
+            if (
+                not self.exist_prefill()
+                and not self.exist_decode()
+                and self.share_inputs["is_block_step"].sum() == 0
+                and self.share_inputs["is_chunk_step"].sum() == 0
+            ):
+                # Get the mapping from tokens to blocks id
+                # batch_id(request_id) -> query_token_idx -> _inner_block_token_id
+
+                # Gollective all routing of finished requests
+
+                # Put routing of finished requests to store
+                logger.info(f"berfore put to store {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}")
+                self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.seq_lens_routing_buffer, seq_lens_this_time=self.seq_lens_this_time_buffer)
+            
+            self.seq_lens_routing_buffer.copy_(self.share_inputs["seq_lens_decoder"])
+            return None
 
     def _pool(self, hidden_states: paddle.Tensor, num_running_requests: int) -> Optional[ModelRunnerOutput]:
 
@@ -2706,8 +2713,9 @@ def clear_requests(self):
         self.prompt_logprobs_reqs.clear()
         self.in_progress_prompt_logprobs.clear()
         self.forward_batch_reqs_list = [None for _ in range(self.scheduler_config.max_num_seqs)]
+
         if self.fd_config.routing_replay_config.enable_routing_replay:
-            self.routing_replay_manager.put_table_to_store()
+            self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.share_inputs["seq_lens_decoder"], seq_lens_this_time=self.seq_lens_this_time_buffer)
 
     def update_parameters(self, pid):
         """Dynamic model loader use to update parameters use for RL"""

From 3868c2cea9ee611c508b1099f095ff0eff41a5dc Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sat, 24 Jan 2026 00:31:11 +0800
Subject: [PATCH 121/161] success put use stop flags

---
 .../layers/moe/routing_indices_cache.py       | 56 +++++++++++++------
 fastdeploy/worker/gpu_model_runner.py         | 36 ++++++++----
 2 files changed, 64 insertions(+), 28 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 7f84ff63c43..6a44192232d 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -263,30 +263,52 @@ def _get_routing_from_cache(self, token_cache_ids):
                 return token_cached_routing.transpose([1, 0, 2])
         raise ValueError("No cached routing found")
 
+    def put_finished_batch(
+        self,
+        finished_batch_ids,
+        seq_lens_decoder,
+        seq_lens_this_time,
+    ):
+        logger.info(f"[R3] put_finished_batch {finished_batch_ids}")
+        for batch_id, finished in enumerate(finished_batch_ids):
+            if finished:
+                assert batch_id in self.routing_batch_to_request
+                request_id = self._deregister_request(batch_id)
+                asyncio.run(
+                    self._put_request_to_store(
+                        batch_id=batch_id, 
+                        request_id=request_id,
+                        seq_lens_decoder=seq_lens_decoder, 
+                        seq_lens_this_time=seq_lens_this_time
+                    )
+                )
+                
+
     def register_request(
-            self, 
-            batch_id: int, 
-            request_id: str,
-            seq_lens_decoder,
-            seq_lens_this_time
-        ):
+        self, 
+        batch_id: int, 
+        request_id: str,
+        seq_lens_decoder,
+        seq_lens_this_time
+    ):
         """
         Register a new request to routing replay table
         Args:
             batch_id: The batch ID of this request
             request_id: The global ID of the request is usually executed by the training process in RL
         """
-        # Save requests that have been finished for the current slot
-        if batch_id in self.routing_batch_to_request:
-            pre_request_id = self._deregister_request(batch_id)
-            asyncio.run(
-                self._put_request_to_store(
-                    batch_id=batch_id, 
-                    request_id=pre_request_id, 
-                    seq_lens_decoder=seq_lens_decoder, 
-                    seq_lens_this_time=seq_lens_this_time
-                )
-            )
+        # # Save requests that have been finished for the current slot
+        # if batch_id in self.routing_batch_to_request:
+        #     pre_request_id = self._deregister_request(batch_id)
+        #     asyncio.run(
+        #         self._put_request_to_store(
+        #             batch_id=batch_id, 
+        #             request_id=pre_request_id, 
+        #             seq_lens_decoder=seq_lens_decoder, 
+        #             seq_lens_this_time=seq_lens_this_time
+        #         )
+        #     )
+        assert batch_id not in self.routing_batch_to_request
         # Register the new request
         self.routing_batch_to_request[batch_id] = request_id
         logger.info(f"[R3] Register request {request_id} with batch id {batch_id}")
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 54c10a538f6..c1081cc901d 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -2506,21 +2506,35 @@ class at the server level, which is too granular for ModelRunner.
 
             # query -> query_token_idx -> _inner_block_token_id
 
-            if (
-                not self.exist_prefill()
-                and not self.exist_decode()
-                and self.share_inputs["is_block_step"].sum() == 0
-                and self.share_inputs["is_chunk_step"].sum() == 0
-            ):
+            # if (
+            #     not self.exist_prefill()
+            #     and not self.exist_decode()
+            #     and self.share_inputs["is_block_step"].sum() == 0
+            #     and self.share_inputs["is_chunk_step"].sum() == 0
+            # ):
                 # Get the mapping from tokens to blocks id
                 # batch_id(request_id) -> query_token_idx -> _inner_block_token_id
 
                 # Gollective all routing of finished requests
 
                 # Put routing of finished requests to store
-                logger.info(f"berfore put to store {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}")
-                self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.seq_lens_routing_buffer, seq_lens_this_time=self.seq_lens_this_time_buffer)
-            
+            logger.info(f"berfore put to store {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}")
+                # self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.seq_lens_routing_buffer, seq_lens_this_time=self.seq_lens_this_time_buffer)
+            logger.info(f"is_block_step :{self.share_inputs['is_block_step']} is_chunk_step:{self.share_inputs['is_chunk_step']}")
+            logger.info(f"stop_flags: {self.share_inputs['stop_flags']}")
+            is_empty_batch = paddle.equal(self.seq_lens_routing_buffer[:, 0], 0)
+            not_block_chunk_empty = paddle.logical_not(
+                paddle.logical_or(
+                    is_empty_batch,
+                    paddle.logical_or(
+                        self.share_inputs["is_block_step"], 
+                        self.share_inputs["is_chunk_step"]
+                    )
+                )
+            )
+            logger.info(f"not_block_chunk_empty: {not_block_chunk_empty}")
+            finished_batch_ids = paddle.logical_and(self.share_inputs["stop_flags"][:, 0], not_block_chunk_empty)
+            self.routing_replay_manager.put_finished_batch(finished_batch_ids=finished_batch_ids, seq_lens_decoder=self.seq_lens_routing_buffer, seq_lens_this_time=self.seq_lens_this_time_buffer)
             self.seq_lens_routing_buffer.copy_(self.share_inputs["seq_lens_decoder"])
             return None
 
@@ -2714,8 +2728,8 @@ def clear_requests(self):
         self.in_progress_prompt_logprobs.clear()
         self.forward_batch_reqs_list = [None for _ in range(self.scheduler_config.max_num_seqs)]
 
-        if self.fd_config.routing_replay_config.enable_routing_replay:
-            self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.share_inputs["seq_lens_decoder"], seq_lens_this_time=self.seq_lens_this_time_buffer)
+        # if self.fd_config.routing_replay_config.enable_routing_replay:
+        #     self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.share_inputs["seq_lens_decoder"], seq_lens_this_time=self.seq_lens_this_time_buffer)
 
     def update_parameters(self, pid):
         """Dynamic model loader use to update parameters use for RL"""

From 3c88a522c2c314ebd08964ce11e9f632c4b847a1 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sat, 24 Jan 2026 00:45:25 +0800
Subject: [PATCH 122/161] =?UTF-8?q?pass=20cpu=5Fcache=E3=80=81block=5Ftabl?=
 =?UTF-8?q?e=20equal=20check?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

---
 fastdeploy/model_executor/layers/moe/routing_indices_cache.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 6a44192232d..b61e90dc3fc 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -335,7 +335,7 @@ async def _put_request_to_store(
             logger.info(f"slot_mapping {slot_mapping}")
             batch_buffer = self._get_routing_from_cache(token_cache_ids=slot_mapping)
             logger.info(f"batch_buffer {batch_buffer} batch_buffe_old {batch_buffe_old}")
-            logger.info(f"batch_buffer_old equal batch_buffer{paddle.allclose(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}")
+            logger.info(f"batch_buffer_old equal batch_buffer{paddle.equal_all(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}")
             tasks = []
             for layer_id in range(self.num_moe_layers):
                 layer_buffer = batch_buffer[layer_id]

From 13ad267ab8db7a0ac198cf265bb7144a2196761c Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Sat, 24 Jan 2026 15:56:17 +0800
Subject: [PATCH 123/161] [fix] fix cache config attribute error (#6199)

---
 fastdeploy/worker/gpu_model_runner.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index bb980351863..3a390b44ed3 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -2670,9 +2670,7 @@ def not_need_stop(self) -> bool:
     def clear_cache(self, profile=False):
         """Clear cached data from shared inputs and forward metadata"""
         create_cache_tensor = profile or not (
-            self.fd_config.cache_config.num_cpu_blocks > 0
-            or self.fd_config.cache_config.kvcache_storage_backend
-            or self.fd_config.scheduler_config.splitwise_role != "mixed"
+            self.fd_config.cache_config.num_cpu_blocks > 0 or self.fd_config.scheduler_config.splitwise_role != "mixed"
         )
         local_rank = self.local_rank % self.parallel_config.tensor_parallel_size
 

From 9a48206d627a65a1995717d7ef3b318af2a61094 Mon Sep 17 00:00:00 2001
From: fxyfxy777 <137464345+fxyfxy777@users.noreply.github.com>
Date: Sat, 24 Jan 2026 16:09:36 +0800
Subject: [PATCH 124/161] [Feature] Unify quant ops (#6021)

* quant stash

* blockwise_quant

* rm tensor.cut

* tp ok

* add paddle swiglu

* 21B test ok

* pre-commit

* fix ut error

* fix block quant

* edit whl

* e baseline

* e baseline 2

* chore: remove extra whitespace in test_EB_VL_Lite_serving.py

* chore: keep paddlepaddle-xpu unchanged

---------

Co-authored-by: Yuanle Liu <yuanlehome@163.com>
Co-authored-by: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
---
 .github/workflows/_accuracy_test.yml          |  2 +-
 .github/workflows/_base_test.yml              |  2 +-
 .github/workflows/_build_linux.yml            |  2 +-
 .github/workflows/_logprob_test_linux.yml     |  4 +--
 .github/workflows/_pre_ce_test.yml            |  2 +-
 .github/workflows/_stable_test.yml            |  2 +-
 .github/workflows/_unit_test_coverage.yml     |  2 +-
 .../model_executor/layers/activation.py       |  2 ++
 .../layers/moe/fused_moe_deepgemm_backend.py  | 27 +++++++-------
 .../layers/moe/fused_moe_triton_backend.py    | 10 ++++--
 .../layers/quantization/block_wise_fp8.py     |  6 ++--
 fastdeploy/model_executor/layers/utils.py     | 36 ++++++++++++++++---
 tests/ce/server/test_logprobs.py              | 12 +++----
 .../EB_VL_Lite/test_EB_VL_Lite_serving.py     |  4 +--
 tests/e2e/test_EB_VL_Lite_serving.py          |  4 +--
 .../rollout_routing_replay_test_utils.py      |  4 +--
 tests/layers/test_activation.py               |  7 ++--
 tests/model_loader/test_torch_model.py        |  2 +-
 18 files changed, 85 insertions(+), 45 deletions(-)

diff --git a/.github/workflows/_accuracy_test.yml b/.github/workflows/_accuracy_test.yml
index 832d6f266a4..7f969fa7397 100644
--- a/.github/workflows/_accuracy_test.yml
+++ b/.github/workflows/_accuracy_test.yml
@@ -161,7 +161,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_base_test.yml b/.github/workflows/_base_test.yml
index 56808b9fd49..377714b05bc 100644
--- a/.github/workflows/_base_test.yml
+++ b/.github/workflows/_base_test.yml
@@ -186,7 +186,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_build_linux.yml b/.github/workflows/_build_linux.yml
index 32c689d1ada..d6bb583d2d0 100644
--- a/.github/workflows/_build_linux.yml
+++ b/.github/workflows/_build_linux.yml
@@ -173,7 +173,7 @@ jobs:
             elif [[ "${PADDLEVERSION}" != "" ]];then
               python -m pip install paddlepaddle-gpu==${PADDLEVERSION} -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             else
-              python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+              python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
             fi
 
             pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
diff --git a/.github/workflows/_logprob_test_linux.yml b/.github/workflows/_logprob_test_linux.yml
index fd71f57c350..3af3b7a6052 100644
--- a/.github/workflows/_logprob_test_linux.yml
+++ b/.github/workflows/_logprob_test_linux.yml
@@ -156,7 +156,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
@@ -185,7 +185,7 @@ jobs:
             -d "{\"messages\": [{\"role\": \"user\", \"content\": \"1+1=?\"}], \"logprobs\": true}"
           set +e
           rm -rf ./baseline_output
-          cp -r baseline/ERNIE-4.5-0.3B-Paddle ./baseline_output
+          cp -r baseline_24/ERNIE-4.5-0.3B-Paddle ./baseline_output
           LOGPROB_EXIT_CODE=0
           python3.10 lanucher.py --request_template TOKEN_LOGPROB --url http://localhost:${FD_API_PORT}/v1/chat/completions  --case ./cases/demo.yaml  --concurrency 1 --name demo --exe logprob || LOGPROB_EXIT_CODE=$?
           echo "LOGPROB_EXIT_CODE=${LOGPROB_EXIT_CODE}" > /workspace/exit_code.env
diff --git a/.github/workflows/_pre_ce_test.yml b/.github/workflows/_pre_ce_test.yml
index 768d73b1c85..72720a6a682 100644
--- a/.github/workflows/_pre_ce_test.yml
+++ b/.github/workflows/_pre_ce_test.yml
@@ -172,7 +172,7 @@ jobs:
           --gpus "\"device=${DEVICES}\"" ${docker_image} /bin/bash -c '
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
           python -m pip install ${fd_wheel_url}
           bash scripts/run_pre_ce.sh
           '
diff --git a/.github/workflows/_stable_test.yml b/.github/workflows/_stable_test.yml
index 175f6288d76..4fd8739c41a 100644
--- a/.github/workflows/_stable_test.yml
+++ b/.github/workflows/_stable_test.yml
@@ -164,7 +164,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_unit_test_coverage.yml b/.github/workflows/_unit_test_coverage.yml
index 92843fd15bf..146df7e0fa7 100644
--- a/.github/workflows/_unit_test_coverage.yml
+++ b/.github/workflows/_unit_test_coverage.yml
@@ -203,7 +203,7 @@ jobs:
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
           git diff origin/${BASE_REF}..HEAD --unified=0 > diff.txt
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
           pip config set global.extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
           python -m pip install -r scripts/unittest_requirement.txt
diff --git a/fastdeploy/model_executor/layers/activation.py b/fastdeploy/model_executor/layers/activation.py
index 35aa40b77e0..9b038bae62b 100644
--- a/fastdeploy/model_executor/layers/activation.py
+++ b/fastdeploy/model_executor/layers/activation.py
@@ -120,6 +120,8 @@ def forward_cuda(self, x: paddle.Tensor) -> paddle.Tensor:
         Returns:
             Tensor: Output tensor.
         """
+        if self.bias is None and self.quant_scale == -1:
+            return paddle.nn.functional.swiglu(x)
         return fused_bias_act(
             x,
             bias=self.bias,
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
index 881f9a22c4d..dc088cf9eb9 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
@@ -155,9 +155,10 @@ def apply_ep_prefill(
             topk_ids_hookfunc(topk_ids=topk_idx)
 
         # 2. Dynamic compute blockwise quantization scales
-        x, x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
-            x, self.quant_config.weight_block_size[0]
+        x, x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            x, using_pow2_scale=False, output_scale_transpose=False
         )
+        x_scale_tensor = x_scale_tensor[: x.shape[0]]
 
         event = deep_ep.Buffer.capture()
         let_another_thread_run()
@@ -225,11 +226,10 @@ def apply_ep_prefill(
             ffn_out = paddle.incubate.nn.functional.swiglu(ffn_out, None)
 
             # down_proj
-            ffn_in_x, ffn_in_x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
-                ffn_out, self.quant_config.weight_block_size[0]
+            ffn_in_x, ffn_in_x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
+                ffn_out, using_pow2_scale=False
             )
-            ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0]).contiguous()
-            ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0])
+            ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.T[: ffn_in_x.shape[0]]
 
             ffn_out = paddle.empty(
                 (ffn_out.shape[0], getattr(layer, self.added_weight_attrs[1]).shape[1]),
@@ -381,7 +381,12 @@ def apply_tp(
 
         tmp = count_tokens_per_expert_func(topk_ids, layer.num_experts)
 
-        recv_x, recv_x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(x, 128)
+        recv_x, recv_x_scale = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            x,
+            using_pow2_scale=False,
+            output_scale_transpose=False,
+        )
+        recv_x_scale = recv_x_scale[: recv_x.shape[0]]
 
         (
             permute_input,
@@ -422,12 +427,10 @@ def apply_tp(
         ffn_out = paddle.incubate.nn.functional.swiglu(ffn_out)
 
         # down_proj
-        ffn_in_x, ffn_in_x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
-            ffn_out, self.quant_config.weight_block_size[0]
+        ffn_in_x, ffn_in_x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            ffn_out, using_pow2_scale=False
         )
-
-        ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0]).contiguous()
-        ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0])
+        ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.T[: ffn_in_x.shape[0]]
 
         ffn_out = paddle.empty(
             (ffn_out.shape[0], getattr(layer, self.added_weight_attrs[1]).shape[1]),
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
index da705357c12..922729d91bd 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
@@ -1525,7 +1525,10 @@ def apply(
 
         from .triton_moe_kernels import fused_moe_kernel_paddle
 
-        x_q, x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(x, self.quant_config.weight_block_size[0])
+        x_q, x_scale = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            x, using_pow2_scale=False, output_scale_transpose=False
+        )
+        x_scale = x_scale[: x.shape[0]]
 
         fused_moe_kernel_paddle[grid](
             x_q,
@@ -1578,9 +1581,10 @@ def apply(
             ceil_div(max_num_tokens_padded, config["BLOCK_SIZE_M"]) * ceil_div(hidden_size, config["BLOCK_SIZE_N"]),
         )
 
-        x_q, x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(
-            intermediate_cache2, self.quant_config.weight_block_size[0]
+        x_q, x_scale = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            intermediate_cache2, using_pow2_scale=False, output_scale_transpose=False
         )
+        x_scale = x_scale[: x_q.shape[0]]
 
         fused_moe_kernel_paddle[grid](
             x_q,
diff --git a/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py b/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
index 59daa238480..c13b429095a 100644
--- a/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
+++ b/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
@@ -18,7 +18,6 @@
 
 import paddle
 
-import fastdeploy
 from fastdeploy import envs
 from fastdeploy.model_executor.layers.linear import (
     MergedColumnParallelLinear,
@@ -226,9 +225,10 @@ def process_prequanted_weights(self, layer, state_dict, is_rearrange: bool = Fal
         layer.weight_scale_inv.set_value(weight_scale)
 
     def apply(self, layer, x):
-        x, x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant_padding(
-            x, self.quant_config.weight_block_size[0]
+        x, x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            x, using_pow2_scale=False, output_scale_transpose=True
         )
+        x_scale_tensor = x_scale_tensor.T
         linear_out = paddle.empty((x.shape[0], layer.output_size), dtype=paddle.bfloat16)
         from fastdeploy.model_executor.ops.gpu import deep_gemm
 
diff --git a/fastdeploy/model_executor/layers/utils.py b/fastdeploy/model_executor/layers/utils.py
index c18f062457e..fd55846aba7 100644
--- a/fastdeploy/model_executor/layers/utils.py
+++ b/fastdeploy/model_executor/layers/utils.py
@@ -220,6 +220,35 @@ def group_wise_int4_weight_quantize(weight: paddle.Tensor, group_size: int = 128
     return quant_weight.astype(paddle.int8), weight_scale
 
 
+def scale_wrapper(x_amax: paddle.Tensor, eps: float = 0.0) -> paddle.Tensor:
+    """
+    Paddle implementation of CUDA ScaleWrapper logic.
+    Args:
+        x_amax (paddle.Tensor): amax tensor (float32 recommended)
+        eps (float): epsilon to avoid division by zero
+    Returns:
+        paddle.Tensor: scale tensor, same shape as x_amax
+    """
+    fp8_max = 448.0
+    float_max = paddle.finfo(paddle.float32).max
+    amax_mod = paddle.maximum(
+        x_amax,
+        paddle.full_like(x_amax, eps),
+    )
+    scale = fp8_max / amax_mod
+    scale = paddle.where(
+        amax_mod == 0,
+        paddle.ones_like(scale),
+        scale,
+    )
+    scale = paddle.where(
+        paddle.isinf(scale),
+        paddle.full_like(scale, float_max),
+        scale,
+    )
+    return scale
+
+
 def per_block_cast_to_fp8(x: Tensor, block_size: list = [128, 128]) -> Tuple[Tensor, Tensor]:
     """
     Only used in deep_gemm block wise quant weight.
@@ -244,11 +273,10 @@ def per_block_cast_to_fp8(x: Tensor, block_size: list = [128, 128]) -> Tuple[Ten
 
     x_abs = paddle.abs(x_view).astype(paddle.float32)
     x_amax = paddle.amax(x_abs, axis=(1, 3), keepdim=True)
-    x_amax = paddle.clip(x_amax, min=1e-4)
-    x_scaled = (x_view * (448.0 / x_amax)).astype(paddle.float8_e4m3fn)
-
+    scale = scale_wrapper(x_amax)
+    x_scaled = (x_view * scale).astype(paddle.float8_e4m3fn)
     return x_scaled.view_as(x_padded)[:m, :n].contiguous(), (
-        paddle.view(x_amax / 448.0, (x_view.shape[0], x_view.shape[2]))
+        paddle.view(1.0 / scale, (x_view.shape[0], x_view.shape[2]))
     )
 
 
diff --git a/tests/ce/server/test_logprobs.py b/tests/ce/server/test_logprobs.py
index 83ca89486c9..3674b3a6b96 100644
--- a/tests/ce/server/test_logprobs.py
+++ b/tests/ce/server/test_logprobs.py
@@ -25,10 +25,10 @@ def test_unstream_with_logprobs():
     # 校验返回内容与概率信息
     assert resp_json["choices"][0]["message"]["content"] == "牛顿的"
     assert resp_json["choices"][0]["logprobs"]["content"][0]["token"] == "牛顿"
-    assert resp_json["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.031025361269712448
+    assert resp_json["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.03113006055355072
     assert resp_json["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0] == {
         "token": "牛顿",
-        "logprob": -0.031025361269712448,
+        "logprob": -0.03113006055355072,
         "bytes": [231, 137, 155, 233, 161, 191],
         "top_logprobs": None,
     }
@@ -102,10 +102,10 @@ def test_stream_with_logprobs():
     # 校验概率字段
     assert result_chunk["choices"][0]["delta"]["content"] == "牛顿"
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["token"] == "牛顿"
-    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.031025361269712448
+    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.03113006055355072
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0] == {
         "token": "牛顿",
-        "logprob": -0.031025361269712448,
+        "logprob": -0.03113006055355072,
         "bytes": [231, 137, 155, 233, 161, 191],
     }
 
@@ -187,10 +187,10 @@ def test_stream_with_temp_scaled_logprobs():
     # 校验概率字段
     assert result_chunk["choices"][0]["delta"]["content"] == "牛顿"
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["token"] == "牛顿"
-    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.006811376195400953
+    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.0068125599063932896
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0] == {
         "token": "牛顿",
-        "logprob": -0.006811376195400953,
+        "logprob": -0.0068125599063932896,
         "bytes": [231, 137, 155, 233, 161, 191],
     }
 
diff --git a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
index e51018f201e..acbf7872e66 100644
--- a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
+++ b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
@@ -205,9 +205,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-24")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-dev"
+        base_file = "ernie-4_5-vl-base-tp2-24"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/e2e/test_EB_VL_Lite_serving.py b/tests/e2e/test_EB_VL_Lite_serving.py
index f93f355a754..7783b844148 100644
--- a/tests/e2e/test_EB_VL_Lite_serving.py
+++ b/tests/e2e/test_EB_VL_Lite_serving.py
@@ -204,9 +204,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-24")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-dev"
+        base_file = "ernie-4_5-vl-base-tp2-24"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/e2e/utils/rollout_routing_replay_test_utils.py b/tests/e2e/utils/rollout_routing_replay_test_utils.py
index 499bbbed688..e5ecd4ca33f 100644
--- a/tests/e2e/utils/rollout_routing_replay_test_utils.py
+++ b/tests/e2e/utils/rollout_routing_replay_test_utils.py
@@ -151,9 +151,9 @@ def check_routing_replay_chat_completion(openai_client, moe_layer_num: int, mode
     cur_save_routing_path = f"./R3_tmp/routing_replay_output_{model_name}/"
     model_path = os.getenv("MODEL_PATH")
     if model_path:
-        baseline_path = os.path.join(model_path, f"R3_BaseLine/routing_replay_output_baseline_{model_name}")
+        baseline_path = os.path.join(model_path, f"R3_BaseLine_24/routing_replay_output_baseline_{model_name}")
     else:
-        baseline_path = f"./R3_BaseLine/routing_replay_output_baseline_{model_name}"
+        baseline_path = f"./R3_BaseLine_24/routing_replay_output_baseline_{model_name}"
     stream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_stream")
 
     nonstream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_nonstream")
diff --git a/tests/layers/test_activation.py b/tests/layers/test_activation.py
index 70f011d3964..b564c267520 100644
--- a/tests/layers/test_activation.py
+++ b/tests/layers/test_activation.py
@@ -84,8 +84,11 @@ def test_forward_cuda(self, mock_fused, mock_platform):
         layer = SiluAndMul(fd_config)
         x = paddle.ones([2, 2])
         out = layer.forward(x)
-        self.assertTrue((out.numpy() == 1).all())
-        mock_fused.assert_called_once()
+        if layer.bias is None and layer.quant_scale == -1:
+            self.assertTrue((out.numpy() == 0.73105854).all())
+        else:
+            self.assertTrue((out.numpy() == 1).all())
+            mock_fused.assert_called_once()
 
     # Test forward computation on GCU platform
     @patch(
diff --git a/tests/model_loader/test_torch_model.py b/tests/model_loader/test_torch_model.py
index bc8252a4427..0170bef1da6 100644
--- a/tests/model_loader/test_torch_model.py
+++ b/tests/model_loader/test_torch_model.py
@@ -140,7 +140,7 @@ def test_model_against_baseline(
 
     # Get baseline suffix from config
     model_config = hugging_face_model_param_map.get(model_name_or_path, {})
-    baseline_suffix = model_config.get("baseline_suffix", "tp2")
+    baseline_suffix = model_config.get("baseline_suffix", "tp2-24")
     baseline_filename = f"{model_name_or_path}-{baseline_suffix}"
 
     if base_path:

From f61a1573ba18b3b6db90a7165c60d2c08a2d4ed3 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sat, 24 Jan 2026 02:40:47 +0800
Subject: [PATCH 125/161] succes r3+prefixcache

---
 fastdeploy/config.py                  |  6 +-
 fastdeploy/worker/gpu_model_runner.py | 83 ++++++++++++++++-----------
 run_r3_test.sh                        | 27 +++++++++
 scripts/request_r3.py                 | 49 ++++++++++++++++
 4 files changed, 129 insertions(+), 36 deletions(-)
 create mode 100644 run_r3_test.sh
 create mode 100644 scripts/request_r3.py

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index a8f53f266cb..c878bee0e76 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1733,9 +1733,9 @@ def postprocess(self):
         self.cache_config.postprocess(self.scheduler_config.max_num_batched_tokens, self.scheduler_config.max_num_seqs)
         if self.model_config is not None and self.model_config.enable_mm and not envs.ENABLE_V1_KVCACHE_SCHEDULER:
             self.cache_config.enable_prefix_caching = False
-        if self.routing_replay_config is not None and self.routing_replay_config.enable_routing_replay:
-            # TODO(gongshaotian): R3 support prefix caching
-            self.cache_config.enable_prefix_caching = False
+        # if self.routing_replay_config is not None and self.routing_replay_config.enable_routing_replay:
+        #     # TODO(gongshaotian): R3 support prefix caching
+        #     self.cache_config.enable_prefix_caching = False
         if (
             self.structured_outputs_config is not None
             and self.structured_outputs_config.guided_decoding_backend != "off"
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index c1081cc901d..f26f29f6dbd 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -53,10 +53,6 @@
 from fastdeploy.model_executor.layers.sample.sampler import Sampler, SpeculativeSampler
 from fastdeploy.model_executor.model_loader import get_model_loader
 from fastdeploy.platforms import current_platform
-from fastdeploy.worker.block_table_utils import (
-    compute_slot_mapping,
-    get_token_positions,
-)
 
 if current_platform.is_iluvatar():
     from fastdeploy.model_executor.ops.iluvatar import (
@@ -224,8 +220,7 @@ def __init__(
         self.routing_replay_manager = None
         if self.fd_config.routing_replay_config.enable_routing_replay:
             self.routing_replay_manager = RoutingReplayManager(
-                fd_config=self.fd_config,
-                block_table = self.share_inputs["block_tables"]
+                fd_config=self.fd_config, block_table=self.share_inputs["block_tables"]
             )
 
         self.zmq_client = None
@@ -686,13 +681,19 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
 
                 # Routing Replay
                 if self.fd_config.routing_replay_config.enable_routing_replay:
-                    if prefill_start_index == 0:
-                        self.routing_replay_manager.register_request(
-                            batch_id=idx, 
-                            request_id=request.request_id,
-                            seq_lens_decoder=self.share_inputs["seq_lens_decoder"], 
-                            seq_lens_this_time=self.seq_lens_this_time_buffer
-                        )
+                    # if prefill_start_index == 0:
+                    # self.routing_replay_manager.register_request(
+                    #     batch_id=idx,
+                    #     request_id=request.request_id,
+                    #     seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
+                    #     seq_lens_this_time=self.seq_lens_this_time_buffer
+                    # )
+                    self.routing_replay_manager.register_request(
+                        batch_id=idx,
+                        request_id=request.request_id,
+                        seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
+                        seq_lens_this_time=self.seq_lens_this_time_buffer,
+                    )
 
                 if (
                     self.fd_config.scheduler_config.splitwise_role == "decode"
@@ -708,6 +709,20 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                 )
                 if self.share_inputs["is_block_step"][idx]:  # has tasks to continue to decode
                     has_decode_task = True
+
+                # Routing Replay
+                logger.info(f"[R3] self.share_inputs['is_block_step'][idx] {self.share_inputs['is_block_step'][idx]}")
+                logger.info(f"[R3] self.seq_lens_decoder[idx] {self.seq_lens_routing_buffer[idx]}")
+                if (
+                    self.fd_config.routing_replay_config.enable_routing_replay
+                    and self.seq_lens_routing_buffer[idx][0] == 0
+                ):  # new decode task
+                    self.routing_replay_manager.register_request(
+                        batch_id=idx,
+                        request_id=request.request_id,
+                        seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
+                        seq_lens_this_time=self.seq_lens_this_time_buffer,
+                    )
                 continue
             else:  # preempted task
                 logger.info(f"Handle preempted request {request} at idx {idx}")
@@ -1431,7 +1446,9 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
         # Update bad tokens len
         max_bad_tokens_len = np.max(self.share_inputs["bad_tokens_len"].numpy())
         logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
-        self.positions = self.routing_replay_manager.get_token_positions(seq_lens_decoder=self.share_inputs["seq_lens_decoder"], seq_lens_this_time=self.seq_lens_this_time_buffer)
+        self.positions = self.routing_replay_manager.get_token_positions(
+            seq_lens_decoder=self.share_inputs["seq_lens_decoder"], seq_lens_this_time=self.seq_lens_this_time_buffer
+        )
         logger.info(f"positions {self.positions}")
 
         # Initialize forward meta data
@@ -2272,7 +2289,6 @@ class at the server level, which is too granular for ModelRunner.
 
         prompt_logprobs_list = self._get_prompt_logprobs_list(model_output)
         logger.info(f"berfore update input {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}")
-        
 
         if self.is_pooling_model:
             pooler_output = self._pool(model_output, num_running_requests)
@@ -2433,9 +2449,6 @@ class at the server level, which is too granular for ModelRunner.
             else:
                 skip_save_output = False
 
-        
-
-
             post_process(
                 sampler_or_pooler_output=sampler_output,
                 model_output=model_output_data,
@@ -2500,8 +2513,7 @@ class at the server level, which is too granular for ModelRunner.
         if self.fd_config.routing_replay_config.enable_routing_replay:
             # Update host cache
             logger.info(f"block_tables before compute_slot_mapping : {self.share_inputs['block_tables']}")
-            slot_mapping = self.routing_replay_manager.compute_slot_mapping(
-                positions=self.positions)
+            slot_mapping = self.routing_replay_manager.compute_slot_mapping(positions=self.positions)
             self.routing_replay_manager.update_host_cache(positions=self.positions, slot_mapping=slot_mapping)
 
             # query -> query_token_idx -> _inner_block_token_id
@@ -2512,29 +2524,34 @@ class at the server level, which is too granular for ModelRunner.
             #     and self.share_inputs["is_block_step"].sum() == 0
             #     and self.share_inputs["is_chunk_step"].sum() == 0
             # ):
-                # Get the mapping from tokens to blocks id
-                # batch_id(request_id) -> query_token_idx -> _inner_block_token_id
+            # Get the mapping from tokens to blocks id
+            # batch_id(request_id) -> query_token_idx -> _inner_block_token_id
 
-                # Gollective all routing of finished requests
+            # Gollective all routing of finished requests
 
-                # Put routing of finished requests to store
-            logger.info(f"berfore put to store {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}")
-                # self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.seq_lens_routing_buffer, seq_lens_this_time=self.seq_lens_this_time_buffer)
-            logger.info(f"is_block_step :{self.share_inputs['is_block_step']} is_chunk_step:{self.share_inputs['is_chunk_step']}")
+            # Put routing of finished requests to store
+            logger.info(
+                f"berfore put to store {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}"
+            )
+            # self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.seq_lens_routing_buffer, seq_lens_this_time=self.seq_lens_this_time_buffer)
+            logger.info(
+                f"is_block_step :{self.share_inputs['is_block_step']} is_chunk_step:{self.share_inputs['is_chunk_step']}"
+            )
             logger.info(f"stop_flags: {self.share_inputs['stop_flags']}")
-            is_empty_batch = paddle.equal(self.seq_lens_routing_buffer[:, 0], 0)
+            is_empty_batch = paddle.equal(self.seq_lens_routing_buffer[:, 0], 0)  # 1.empty batch 2. preempted request
             not_block_chunk_empty = paddle.logical_not(
                 paddle.logical_or(
                     is_empty_batch,
-                    paddle.logical_or(
-                        self.share_inputs["is_block_step"], 
-                        self.share_inputs["is_chunk_step"]
-                    )
+                    paddle.logical_or(self.share_inputs["is_block_step"], self.share_inputs["is_chunk_step"]),
                 )
             )
             logger.info(f"not_block_chunk_empty: {not_block_chunk_empty}")
             finished_batch_ids = paddle.logical_and(self.share_inputs["stop_flags"][:, 0], not_block_chunk_empty)
-            self.routing_replay_manager.put_finished_batch(finished_batch_ids=finished_batch_ids, seq_lens_decoder=self.seq_lens_routing_buffer, seq_lens_this_time=self.seq_lens_this_time_buffer)
+            self.routing_replay_manager.put_finished_batch(
+                finished_batch_ids=finished_batch_ids,
+                seq_lens_decoder=self.seq_lens_routing_buffer,
+                seq_lens_this_time=self.seq_lens_this_time_buffer,
+            )
             self.seq_lens_routing_buffer.copy_(self.share_inputs["seq_lens_decoder"])
             return None
 
diff --git a/run_r3_test.sh b/run_r3_test.sh
new file mode 100644
index 00000000000..a0abd643424
--- /dev/null
+++ b/run_r3_test.sh
@@ -0,0 +1,27 @@
+unset http_proxy
+unset https_proxy
+export ENABLE_V1_KVCACHE_SCHEDULER=1
+export FD_DEBUG=1
+export PYTHONPATH=/root/paddlejob/workspace/env_run/output/gongshaotian/baidu/paddle_internal/FastDeploy:$PYTHONPATH
+export CUDA_VISIBLE_DEVICES=0
+export SPECULATE_VERIFY_USE_TARGET_SAMPLING=1
+
+rm -rf log
+rm -rf core.*
+
+config_yaml=./benchmarks/yaml/eb45-32k-wint2-tp4.yaml
+model_path=/root/paddlejob/workspace/env_run/output/models/paddle/ERNIE-4.5-21B-A3B-Paddle
+python -m fastdeploy.entrypoints.openai.api_server --config ${config_yaml} --model ${model_path} \
+    --tensor-parallel-size 1 --max-model-len 32768 --max-num-seqs 2 \
+    --enable-chunked-prefill --enable-prefix-caching --port 8888 --metrics-port 8889 --engine-worker-queue-port 9999 \
+    --graph-optimization-config '{"use_cudagraph": true}' \
+    --routing-replay-config '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./routing_replay_output", "use_fused_put":false}' \
+    # --speculative-config '{"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 1,"model": "'$model_path'/mtp"}' \
+
+
+curl -X POST "http://0.0.0.0:8888/v1/chat/completions" -H "Content-Type: application/json" -d '{
+    "messages": [
+        {"role": "system", "content": "你是谁"}
+    ] ,
+    "temperature":0                                    
+  }'
\ No newline at end of file
diff --git a/scripts/request_r3.py b/scripts/request_r3.py
new file mode 100644
index 00000000000..b62fe67f94b
--- /dev/null
+++ b/scripts/request_r3.py
@@ -0,0 +1,49 @@
+import openai
+
+
+def openai_client():
+    ip = "0.0.0.0"
+    service_http_port = 8888
+    client = openai.Client(
+        base_url=f"http://{ip}:{service_http_port}/v1",
+        api_key="EMPTY_API_KEY",
+    )
+    return client
+
+
+def send_r3_streaming_chat(openai_client, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
+    """
+    Test streaming chat functionality with the local service
+    """
+    response = openai_client.chat.completions.create(
+        model="default",
+        messages=[
+            {
+                "role": "system",
+                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。",
+            },
+        ],
+        temperature=1,
+        top_p=0,
+        max_tokens=32768,
+        seed=13,
+        stream=True,
+        user=user_id,  # "r3_chat_completion_stream_test",
+    )
+
+    return response
+
+
+if __name__ == "__main__":
+    openai_client = openai_client()
+    response = send_r3_streaming_chat(openai_client, user_id="r3_chat_completion_stream_test_prefixcache_1")
+    output = ""
+    for chunk in response:
+        output += chunk.choices[0].delta.content
+    print("\nr3_chat_completion_stream_test_prefixcache_1\n", output)
+
+    response = send_r3_streaming_chat(openai_client, user_id="r3_chat_completion_stream_test_prefixcache_2")
+    output = ""
+    for chunk in response:
+        output += chunk.choices[0].delta.content
+    print("\nr3_chat_completion_stream_test_prefixcache_2\n", output)

From 65fc827ebce95b79dd3c4fced9d5543d0027b482 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sun, 25 Jan 2026 00:56:09 +0800
Subject: [PATCH 126/161] Fix chunk prefill and prefix cache task bug

---
 .../layers/moe/routing_indices_cache.py       | 57 +++++++++----------
 fastdeploy/worker/gpu_model_runner.py         | 23 ++++----
 run_r3_test.sh                                |  8 +--
 scripts/request_r3.py                         | 23 ++++++++
 4 files changed, 65 insertions(+), 46 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index b61e90dc3fc..8bb6eebf31e 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -20,9 +20,9 @@
 import shutil
 import time
 from abc import ABC, abstractmethod
-import numpy as np
 from typing import Dict, List, Optional
 
+import numpy as np
 import paddle
 import paddle.distributed as dist
 import triton
@@ -149,11 +149,7 @@ def save_routing_to_buffer(
 class RoutingReplayManager:
     """Request level routing replay table manager"""
 
-    def __init__(
-        self,
-        fd_config: FDConfig,
-        block_table
-    ):
+    def __init__(self, fd_config: FDConfig, block_table):
         self.fd_config = fd_config
         self.max_num_seqs = fd_config.scheduler_config.max_num_seqs
         self.max_model_len = fd_config.model_config.max_model_len
@@ -239,10 +235,10 @@ def compute_slot_mapping(self, positions: np.ndarray):
         return slot_mapping
 
     def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder, seq_lens_this_time):
-        """ 
+        """
         1. finish the step: after update input, lens = seq_lens_decoder_buffer
         2. clear parameter: after update input, lens = seq_lens_decoder_buffer"""
-        current_token_nums = seq_lens_decoder.numpy()[:, 0] #  + seq_lens_this_time.numpy()[:, 0]
+        current_token_nums = seq_lens_decoder.numpy()[:, 0]
         print(f"{seq_lens_decoder} {seq_lens_this_time}")
         print("current_token_nums", current_token_nums)
         positions = []
@@ -257,7 +253,7 @@ def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder, seq_lens_
     def _get_routing_from_cache(self, token_cache_ids):
         """Collection the cached routing information"""
         for slot_map in token_cache_ids:
-            if len(slot_map)>0:
+            if len(slot_map) > 0:
                 logger.info(f"[R3] _get_routing_from_cache {slot_map}")
                 token_cached_routing = self._host_cache[slot_map, :, :]
                 return token_cached_routing.transpose([1, 0, 2])
@@ -276,21 +272,14 @@ def put_finished_batch(
                 request_id = self._deregister_request(batch_id)
                 asyncio.run(
                     self._put_request_to_store(
-                        batch_id=batch_id, 
+                        batch_id=batch_id,
                         request_id=request_id,
-                        seq_lens_decoder=seq_lens_decoder, 
-                        seq_lens_this_time=seq_lens_this_time
+                        seq_lens_decoder=seq_lens_decoder,
+                        seq_lens_this_time=seq_lens_this_time,
                     )
                 )
-                
 
-    def register_request(
-        self, 
-        batch_id: int, 
-        request_id: str,
-        seq_lens_decoder,
-        seq_lens_this_time
-    ):
+    def register_request(self, batch_id: int, request_id: str, seq_lens_decoder, seq_lens_this_time):
         """
         Register a new request to routing replay table
         Args:
@@ -302,13 +291,16 @@ def register_request(
         #     pre_request_id = self._deregister_request(batch_id)
         #     asyncio.run(
         #         self._put_request_to_store(
-        #             batch_id=batch_id, 
-        #             request_id=pre_request_id, 
-        #             seq_lens_decoder=seq_lens_decoder, 
+        #             batch_id=batch_id,
+        #             request_id=pre_request_id,
+        #             seq_lens_decoder=seq_lens_decoder,
         #             seq_lens_this_time=seq_lens_this_time
         #         )
         #     )
-        assert batch_id not in self.routing_batch_to_request
+        # assert batch_id not in self.routing_batch_to_request
+        if batch_id in self.routing_batch_to_request:
+            logger.warning(f"[R3] Request {request_id} has been registered")
+            return
         # Register the new request
         self.routing_batch_to_request[batch_id] = request_id
         logger.info(f"[R3] Register request {request_id} with batch id {batch_id}")
@@ -331,11 +323,15 @@ async def _put_request_to_store(
         if self.tp_rank == 0:
             batch_buffe_old = self.routing_replay_table[batch_id]
             logger.info(f"batch id {batch_id}, request id {request_id}")
-            slot_mapping = self._get_request_cache_ids(finished_batch_ids=[batch_id], seq_lens_decoder=seq_lens_decoder, seq_lens_this_time=seq_lens_this_time)
+            slot_mapping = self._get_request_cache_ids(
+                finished_batch_ids=[batch_id], seq_lens_decoder=seq_lens_decoder, seq_lens_this_time=seq_lens_this_time
+            )
             logger.info(f"slot_mapping {slot_mapping}")
             batch_buffer = self._get_routing_from_cache(token_cache_ids=slot_mapping)
             logger.info(f"batch_buffer {batch_buffer} batch_buffe_old {batch_buffe_old}")
-            logger.info(f"batch_buffer_old equal batch_buffer{paddle.equal_all(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}")
+            logger.info(
+                f"batch_buffer_old equal batch_buffer{paddle.equal_all(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}"
+            )
             tasks = []
             for layer_id in range(self.num_moe_layers):
                 layer_buffer = batch_buffer[layer_id]
@@ -358,12 +354,13 @@ def put_table_to_store(self, seq_lens_decoder, seq_lens_this_time):
             request_id = self._deregister_request(batch_id)
             asyncio.run(
                 self._put_request_to_store(
-                    batch_id=batch_id, 
-                    request_id=request_id, 
-                    seq_lens_decoder=seq_lens_decoder, 
-                    seq_lens_this_time=seq_lens_this_time
+                    batch_id=batch_id,
+                    request_id=request_id,
+                    seq_lens_decoder=seq_lens_decoder,
+                    seq_lens_this_time=seq_lens_this_time,
                 )
             )
+
     def _clear_table_slot(self, batch_id: int):
         assert 0 <= batch_id < self.max_num_seqs
         self.routing_replay_table[batch_id].fill_(-1)
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index f26f29f6dbd..fb543154375 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -681,13 +681,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
 
                 # Routing Replay
                 if self.fd_config.routing_replay_config.enable_routing_replay:
-                    # if prefill_start_index == 0:
-                    # self.routing_replay_manager.register_request(
-                    #     batch_id=idx,
-                    #     request_id=request.request_id,
-                    #     seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
-                    #     seq_lens_this_time=self.seq_lens_this_time_buffer
-                    # )
+                    # 1.prefix task(need regist) 2. chunkend task(not need regist)
                     self.routing_replay_manager.register_request(
                         batch_id=idx,
                         request_id=request.request_id,
@@ -1446,10 +1440,12 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
         # Update bad tokens len
         max_bad_tokens_len = np.max(self.share_inputs["bad_tokens_len"].numpy())
         logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
-        self.positions = self.routing_replay_manager.get_token_positions(
-            seq_lens_decoder=self.share_inputs["seq_lens_decoder"], seq_lens_this_time=self.seq_lens_this_time_buffer
-        )
-        logger.info(f"positions {self.positions}")
+        if self.fd_config.routing_replay_config.enable_routing_replay:
+            self.positions = self.routing_replay_manager.get_token_positions(
+                seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
+                seq_lens_this_time=self.seq_lens_this_time_buffer,
+            )
+            logger.info(f"positions {self.positions}")
 
         # Initialize forward meta data
         self.initialize_forward_meta(is_dummy_or_profile_run=is_dummy_or_profile_run)
@@ -2539,6 +2535,7 @@ class at the server level, which is too granular for ModelRunner.
             )
             logger.info(f"stop_flags: {self.share_inputs['stop_flags']}")
             is_empty_batch = paddle.equal(self.seq_lens_routing_buffer[:, 0], 0)  # 1.empty batch 2. preempted request
+            logger.info(f"is_empty_batch: {is_empty_batch} seq_lens_routing_buffer{self.seq_lens_routing_buffer}")
             not_block_chunk_empty = paddle.logical_not(
                 paddle.logical_or(
                     is_empty_batch,
@@ -2552,8 +2549,10 @@ class at the server level, which is too granular for ModelRunner.
                 seq_lens_decoder=self.seq_lens_routing_buffer,
                 seq_lens_this_time=self.seq_lens_this_time_buffer,
             )
+
             self.seq_lens_routing_buffer.copy_(self.share_inputs["seq_lens_decoder"])
-            return None
+
+        return None
 
     def _pool(self, hidden_states: paddle.Tensor, num_running_requests: int) -> Optional[ModelRunnerOutput]:
 
diff --git a/run_r3_test.sh b/run_r3_test.sh
index a0abd643424..a1f64f1840b 100644
--- a/run_r3_test.sh
+++ b/run_r3_test.sh
@@ -13,15 +13,15 @@ config_yaml=./benchmarks/yaml/eb45-32k-wint2-tp4.yaml
 model_path=/root/paddlejob/workspace/env_run/output/models/paddle/ERNIE-4.5-21B-A3B-Paddle
 python -m fastdeploy.entrypoints.openai.api_server --config ${config_yaml} --model ${model_path} \
     --tensor-parallel-size 1 --max-model-len 32768 --max-num-seqs 2 \
-    --enable-chunked-prefill --enable-prefix-caching --port 8888 --metrics-port 8889 --engine-worker-queue-port 9999 \
+    --enable-chunked-prefill --enable-prefix-caching --port 8888 --max-num-batched-tokens 64 --metrics-port 8889 --engine-worker-queue-port 9999 \
     --graph-optimization-config '{"use_cudagraph": true}' \
     --routing-replay-config '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./routing_replay_output", "use_fused_put":false}' \
-    # --speculative-config '{"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 1,"model": "'$model_path'/mtp"}' \
+    --speculative-config '{"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 1,"model": "'$model_path'/mtp"}' \
 
 
 curl -X POST "http://0.0.0.0:8888/v1/chat/completions" -H "Content-Type: application/json" -d '{
     "messages": [
         {"role": "system", "content": "你是谁"}
     ] ,
-    "temperature":0                                    
-  }'
\ No newline at end of file
+    "temperature":0
+  }'
diff --git a/scripts/request_r3.py b/scripts/request_r3.py
index b62fe67f94b..1c34a827a65 100644
--- a/scripts/request_r3.py
+++ b/scripts/request_r3.py
@@ -11,6 +11,29 @@ def openai_client():
     return client
 
 
+def send_r3_streaming_chat_sort(openai_client, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
+    """
+    Test streaming chat functionality with the local service
+    """
+    response = openai_client.chat.completions.create(
+        model="default",
+        messages=[
+            {
+                "role": "system",
+                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n",
+            },
+        ],
+        temperature=1,
+        top_p=0,
+        max_tokens=32768,
+        seed=13,
+        stream=True,
+        user=user_id,  # "r3_chat_completion_stream_test",
+    )
+
+    return response
+
+
 def send_r3_streaming_chat(openai_client, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
     """
     Test streaming chat functionality with the local service

From da97b188cdfbde99e6ae1d04bb9e5dcd387545cd Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sun, 25 Jan 2026 01:46:04 +0800
Subject: [PATCH 127/161] add long test case

---
 scripts/request_r3.py | 27 +++++++++++++++++++++++++--
 1 file changed, 25 insertions(+), 2 deletions(-)

diff --git a/scripts/request_r3.py b/scripts/request_r3.py
index 1c34a827a65..05fbbd80664 100644
--- a/scripts/request_r3.py
+++ b/scripts/request_r3.py
@@ -11,6 +11,29 @@ def openai_client():
     return client
 
 
+def send_r3_streaming_chat_long(openai_client, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
+    """
+    Test streaming chat functionality with the local service
+    """
+    response = openai_client.chat.completions.create(
+        model="default",
+        messages=[
+            {
+                "role": "system",
+                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。",
+            },
+        ],
+        temperature=1,
+        top_p=0,
+        max_tokens=4096,  # 32768
+        seed=13,
+        stream=True,
+        user=user_id,  # "r3_chat_completion_stream_test",
+    )
+
+    return response
+
+
 def send_r3_streaming_chat_sort(openai_client, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
     """
     Test streaming chat functionality with the local service
@@ -59,13 +82,13 @@ def send_r3_streaming_chat(openai_client, user_id: str = "r3_chat_completion_str
 
 if __name__ == "__main__":
     openai_client = openai_client()
-    response = send_r3_streaming_chat(openai_client, user_id="r3_chat_completion_stream_test_prefixcache_1")
+    response = send_r3_streaming_chat_long(openai_client, user_id="r3_chat_completion_stream_test_prefixcache_1")
     output = ""
     for chunk in response:
         output += chunk.choices[0].delta.content
     print("\nr3_chat_completion_stream_test_prefixcache_1\n", output)
 
-    response = send_r3_streaming_chat(openai_client, user_id="r3_chat_completion_stream_test_prefixcache_2")
+    response = send_r3_streaming_chat_long(openai_client, user_id="r3_chat_completion_stream_test_prefixcache_2")
     output = ""
     for chunk in response:
         output += chunk.choices[0].delta.content

From da9b356e0a4d210535c51ae8b6c72069e805c959 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sun, 25 Jan 2026 01:50:02 +0800
Subject: [PATCH 128/161] Revert "[Feature] Unify quant ops (#6021)"

This reverts commit 9a48206d627a65a1995717d7ef3b318af2a61094.
---
 .github/workflows/_accuracy_test.yml          |  2 +-
 .github/workflows/_base_test.yml              |  2 +-
 .github/workflows/_build_linux.yml            |  2 +-
 .github/workflows/_logprob_test_linux.yml     |  4 +--
 .github/workflows/_pre_ce_test.yml            |  2 +-
 .github/workflows/_stable_test.yml            |  2 +-
 .github/workflows/_unit_test_coverage.yml     |  2 +-
 .../model_executor/layers/activation.py       |  2 --
 .../layers/moe/fused_moe_deepgemm_backend.py  | 27 +++++++-------
 .../layers/moe/fused_moe_triton_backend.py    | 10 ++----
 .../layers/quantization/block_wise_fp8.py     |  6 ++--
 fastdeploy/model_executor/layers/utils.py     | 36 +++----------------
 tests/ce/server/test_logprobs.py              | 12 +++----
 .../EB_VL_Lite/test_EB_VL_Lite_serving.py     |  4 +--
 tests/e2e/test_EB_VL_Lite_serving.py          |  4 +--
 .../rollout_routing_replay_test_utils.py      |  4 +--
 tests/layers/test_activation.py               |  7 ++--
 tests/model_loader/test_torch_model.py        |  2 +-
 18 files changed, 45 insertions(+), 85 deletions(-)

diff --git a/.github/workflows/_accuracy_test.yml b/.github/workflows/_accuracy_test.yml
index 7f969fa7397..832d6f266a4 100644
--- a/.github/workflows/_accuracy_test.yml
+++ b/.github/workflows/_accuracy_test.yml
@@ -161,7 +161,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_base_test.yml b/.github/workflows/_base_test.yml
index 377714b05bc..56808b9fd49 100644
--- a/.github/workflows/_base_test.yml
+++ b/.github/workflows/_base_test.yml
@@ -186,7 +186,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_build_linux.yml b/.github/workflows/_build_linux.yml
index d6bb583d2d0..32c689d1ada 100644
--- a/.github/workflows/_build_linux.yml
+++ b/.github/workflows/_build_linux.yml
@@ -173,7 +173,7 @@ jobs:
             elif [[ "${PADDLEVERSION}" != "" ]];then
               python -m pip install paddlepaddle-gpu==${PADDLEVERSION} -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             else
-              python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+              python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             fi
 
             pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
diff --git a/.github/workflows/_logprob_test_linux.yml b/.github/workflows/_logprob_test_linux.yml
index 3af3b7a6052..fd71f57c350 100644
--- a/.github/workflows/_logprob_test_linux.yml
+++ b/.github/workflows/_logprob_test_linux.yml
@@ -156,7 +156,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
@@ -185,7 +185,7 @@ jobs:
             -d "{\"messages\": [{\"role\": \"user\", \"content\": \"1+1=?\"}], \"logprobs\": true}"
           set +e
           rm -rf ./baseline_output
-          cp -r baseline_24/ERNIE-4.5-0.3B-Paddle ./baseline_output
+          cp -r baseline/ERNIE-4.5-0.3B-Paddle ./baseline_output
           LOGPROB_EXIT_CODE=0
           python3.10 lanucher.py --request_template TOKEN_LOGPROB --url http://localhost:${FD_API_PORT}/v1/chat/completions  --case ./cases/demo.yaml  --concurrency 1 --name demo --exe logprob || LOGPROB_EXIT_CODE=$?
           echo "LOGPROB_EXIT_CODE=${LOGPROB_EXIT_CODE}" > /workspace/exit_code.env
diff --git a/.github/workflows/_pre_ce_test.yml b/.github/workflows/_pre_ce_test.yml
index 72720a6a682..768d73b1c85 100644
--- a/.github/workflows/_pre_ce_test.yml
+++ b/.github/workflows/_pre_ce_test.yml
@@ -172,7 +172,7 @@ jobs:
           --gpus "\"device=${DEVICES}\"" ${docker_image} /bin/bash -c '
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
           python -m pip install ${fd_wheel_url}
           bash scripts/run_pre_ce.sh
           '
diff --git a/.github/workflows/_stable_test.yml b/.github/workflows/_stable_test.yml
index 4fd8739c41a..175f6288d76 100644
--- a/.github/workflows/_stable_test.yml
+++ b/.github/workflows/_stable_test.yml
@@ -164,7 +164,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_unit_test_coverage.yml b/.github/workflows/_unit_test_coverage.yml
index 146df7e0fa7..92843fd15bf 100644
--- a/.github/workflows/_unit_test_coverage.yml
+++ b/.github/workflows/_unit_test_coverage.yml
@@ -203,7 +203,7 @@ jobs:
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
           git diff origin/${BASE_REF}..HEAD --unified=0 > diff.txt
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
           pip config set global.extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
           python -m pip install -r scripts/unittest_requirement.txt
diff --git a/fastdeploy/model_executor/layers/activation.py b/fastdeploy/model_executor/layers/activation.py
index 9b038bae62b..35aa40b77e0 100644
--- a/fastdeploy/model_executor/layers/activation.py
+++ b/fastdeploy/model_executor/layers/activation.py
@@ -120,8 +120,6 @@ def forward_cuda(self, x: paddle.Tensor) -> paddle.Tensor:
         Returns:
             Tensor: Output tensor.
         """
-        if self.bias is None and self.quant_scale == -1:
-            return paddle.nn.functional.swiglu(x)
         return fused_bias_act(
             x,
             bias=self.bias,
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
index dc088cf9eb9..881f9a22c4d 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
@@ -155,10 +155,9 @@ def apply_ep_prefill(
             topk_ids_hookfunc(topk_ids=topk_idx)
 
         # 2. Dynamic compute blockwise quantization scales
-        x, x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
-            x, using_pow2_scale=False, output_scale_transpose=False
+        x, x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
+            x, self.quant_config.weight_block_size[0]
         )
-        x_scale_tensor = x_scale_tensor[: x.shape[0]]
 
         event = deep_ep.Buffer.capture()
         let_another_thread_run()
@@ -226,10 +225,11 @@ def apply_ep_prefill(
             ffn_out = paddle.incubate.nn.functional.swiglu(ffn_out, None)
 
             # down_proj
-            ffn_in_x, ffn_in_x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
-                ffn_out, using_pow2_scale=False
+            ffn_in_x, ffn_in_x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
+                ffn_out, self.quant_config.weight_block_size[0]
             )
-            ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.T[: ffn_in_x.shape[0]]
+            ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0]).contiguous()
+            ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0])
 
             ffn_out = paddle.empty(
                 (ffn_out.shape[0], getattr(layer, self.added_weight_attrs[1]).shape[1]),
@@ -381,12 +381,7 @@ def apply_tp(
 
         tmp = count_tokens_per_expert_func(topk_ids, layer.num_experts)
 
-        recv_x, recv_x_scale = paddle.incubate.nn.functional.fp8_quant_blockwise(
-            x,
-            using_pow2_scale=False,
-            output_scale_transpose=False,
-        )
-        recv_x_scale = recv_x_scale[: recv_x.shape[0]]
+        recv_x, recv_x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(x, 128)
 
         (
             permute_input,
@@ -427,10 +422,12 @@ def apply_tp(
         ffn_out = paddle.incubate.nn.functional.swiglu(ffn_out)
 
         # down_proj
-        ffn_in_x, ffn_in_x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
-            ffn_out, using_pow2_scale=False
+        ffn_in_x, ffn_in_x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
+            ffn_out, self.quant_config.weight_block_size[0]
         )
-        ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.T[: ffn_in_x.shape[0]]
+
+        ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0]).contiguous()
+        ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0])
 
         ffn_out = paddle.empty(
             (ffn_out.shape[0], getattr(layer, self.added_weight_attrs[1]).shape[1]),
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
index 922729d91bd..da705357c12 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
@@ -1525,10 +1525,7 @@ def apply(
 
         from .triton_moe_kernels import fused_moe_kernel_paddle
 
-        x_q, x_scale = paddle.incubate.nn.functional.fp8_quant_blockwise(
-            x, using_pow2_scale=False, output_scale_transpose=False
-        )
-        x_scale = x_scale[: x.shape[0]]
+        x_q, x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(x, self.quant_config.weight_block_size[0])
 
         fused_moe_kernel_paddle[grid](
             x_q,
@@ -1581,10 +1578,9 @@ def apply(
             ceil_div(max_num_tokens_padded, config["BLOCK_SIZE_M"]) * ceil_div(hidden_size, config["BLOCK_SIZE_N"]),
         )
 
-        x_q, x_scale = paddle.incubate.nn.functional.fp8_quant_blockwise(
-            intermediate_cache2, using_pow2_scale=False, output_scale_transpose=False
+        x_q, x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(
+            intermediate_cache2, self.quant_config.weight_block_size[0]
         )
-        x_scale = x_scale[: x_q.shape[0]]
 
         fused_moe_kernel_paddle[grid](
             x_q,
diff --git a/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py b/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
index c13b429095a..59daa238480 100644
--- a/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
+++ b/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
@@ -18,6 +18,7 @@
 
 import paddle
 
+import fastdeploy
 from fastdeploy import envs
 from fastdeploy.model_executor.layers.linear import (
     MergedColumnParallelLinear,
@@ -225,10 +226,9 @@ def process_prequanted_weights(self, layer, state_dict, is_rearrange: bool = Fal
         layer.weight_scale_inv.set_value(weight_scale)
 
     def apply(self, layer, x):
-        x, x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
-            x, using_pow2_scale=False, output_scale_transpose=True
+        x, x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant_padding(
+            x, self.quant_config.weight_block_size[0]
         )
-        x_scale_tensor = x_scale_tensor.T
         linear_out = paddle.empty((x.shape[0], layer.output_size), dtype=paddle.bfloat16)
         from fastdeploy.model_executor.ops.gpu import deep_gemm
 
diff --git a/fastdeploy/model_executor/layers/utils.py b/fastdeploy/model_executor/layers/utils.py
index fd55846aba7..c18f062457e 100644
--- a/fastdeploy/model_executor/layers/utils.py
+++ b/fastdeploy/model_executor/layers/utils.py
@@ -220,35 +220,6 @@ def group_wise_int4_weight_quantize(weight: paddle.Tensor, group_size: int = 128
     return quant_weight.astype(paddle.int8), weight_scale
 
 
-def scale_wrapper(x_amax: paddle.Tensor, eps: float = 0.0) -> paddle.Tensor:
-    """
-    Paddle implementation of CUDA ScaleWrapper logic.
-    Args:
-        x_amax (paddle.Tensor): amax tensor (float32 recommended)
-        eps (float): epsilon to avoid division by zero
-    Returns:
-        paddle.Tensor: scale tensor, same shape as x_amax
-    """
-    fp8_max = 448.0
-    float_max = paddle.finfo(paddle.float32).max
-    amax_mod = paddle.maximum(
-        x_amax,
-        paddle.full_like(x_amax, eps),
-    )
-    scale = fp8_max / amax_mod
-    scale = paddle.where(
-        amax_mod == 0,
-        paddle.ones_like(scale),
-        scale,
-    )
-    scale = paddle.where(
-        paddle.isinf(scale),
-        paddle.full_like(scale, float_max),
-        scale,
-    )
-    return scale
-
-
 def per_block_cast_to_fp8(x: Tensor, block_size: list = [128, 128]) -> Tuple[Tensor, Tensor]:
     """
     Only used in deep_gemm block wise quant weight.
@@ -273,10 +244,11 @@ def per_block_cast_to_fp8(x: Tensor, block_size: list = [128, 128]) -> Tuple[Ten
 
     x_abs = paddle.abs(x_view).astype(paddle.float32)
     x_amax = paddle.amax(x_abs, axis=(1, 3), keepdim=True)
-    scale = scale_wrapper(x_amax)
-    x_scaled = (x_view * scale).astype(paddle.float8_e4m3fn)
+    x_amax = paddle.clip(x_amax, min=1e-4)
+    x_scaled = (x_view * (448.0 / x_amax)).astype(paddle.float8_e4m3fn)
+
     return x_scaled.view_as(x_padded)[:m, :n].contiguous(), (
-        paddle.view(1.0 / scale, (x_view.shape[0], x_view.shape[2]))
+        paddle.view(x_amax / 448.0, (x_view.shape[0], x_view.shape[2]))
     )
 
 
diff --git a/tests/ce/server/test_logprobs.py b/tests/ce/server/test_logprobs.py
index 3674b3a6b96..83ca89486c9 100644
--- a/tests/ce/server/test_logprobs.py
+++ b/tests/ce/server/test_logprobs.py
@@ -25,10 +25,10 @@ def test_unstream_with_logprobs():
     # 校验返回内容与概率信息
     assert resp_json["choices"][0]["message"]["content"] == "牛顿的"
     assert resp_json["choices"][0]["logprobs"]["content"][0]["token"] == "牛顿"
-    assert resp_json["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.03113006055355072
+    assert resp_json["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.031025361269712448
     assert resp_json["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0] == {
         "token": "牛顿",
-        "logprob": -0.03113006055355072,
+        "logprob": -0.031025361269712448,
         "bytes": [231, 137, 155, 233, 161, 191],
         "top_logprobs": None,
     }
@@ -102,10 +102,10 @@ def test_stream_with_logprobs():
     # 校验概率字段
     assert result_chunk["choices"][0]["delta"]["content"] == "牛顿"
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["token"] == "牛顿"
-    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.03113006055355072
+    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.031025361269712448
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0] == {
         "token": "牛顿",
-        "logprob": -0.03113006055355072,
+        "logprob": -0.031025361269712448,
         "bytes": [231, 137, 155, 233, 161, 191],
     }
 
@@ -187,10 +187,10 @@ def test_stream_with_temp_scaled_logprobs():
     # 校验概率字段
     assert result_chunk["choices"][0]["delta"]["content"] == "牛顿"
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["token"] == "牛顿"
-    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.0068125599063932896
+    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.006811376195400953
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0] == {
         "token": "牛顿",
-        "logprob": -0.0068125599063932896,
+        "logprob": -0.006811376195400953,
         "bytes": [231, 137, 155, 233, 161, 191],
     }
 
diff --git a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
index acbf7872e66..e51018f201e 100644
--- a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
+++ b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
@@ -205,9 +205,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-24")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-24"
+        base_file = "ernie-4_5-vl-base-tp2-dev"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/e2e/test_EB_VL_Lite_serving.py b/tests/e2e/test_EB_VL_Lite_serving.py
index 7783b844148..f93f355a754 100644
--- a/tests/e2e/test_EB_VL_Lite_serving.py
+++ b/tests/e2e/test_EB_VL_Lite_serving.py
@@ -204,9 +204,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-24")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-24"
+        base_file = "ernie-4_5-vl-base-tp2-dev"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/e2e/utils/rollout_routing_replay_test_utils.py b/tests/e2e/utils/rollout_routing_replay_test_utils.py
index e5ecd4ca33f..499bbbed688 100644
--- a/tests/e2e/utils/rollout_routing_replay_test_utils.py
+++ b/tests/e2e/utils/rollout_routing_replay_test_utils.py
@@ -151,9 +151,9 @@ def check_routing_replay_chat_completion(openai_client, moe_layer_num: int, mode
     cur_save_routing_path = f"./R3_tmp/routing_replay_output_{model_name}/"
     model_path = os.getenv("MODEL_PATH")
     if model_path:
-        baseline_path = os.path.join(model_path, f"R3_BaseLine_24/routing_replay_output_baseline_{model_name}")
+        baseline_path = os.path.join(model_path, f"R3_BaseLine/routing_replay_output_baseline_{model_name}")
     else:
-        baseline_path = f"./R3_BaseLine_24/routing_replay_output_baseline_{model_name}"
+        baseline_path = f"./R3_BaseLine/routing_replay_output_baseline_{model_name}"
     stream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_stream")
 
     nonstream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_nonstream")
diff --git a/tests/layers/test_activation.py b/tests/layers/test_activation.py
index b564c267520..70f011d3964 100644
--- a/tests/layers/test_activation.py
+++ b/tests/layers/test_activation.py
@@ -84,11 +84,8 @@ def test_forward_cuda(self, mock_fused, mock_platform):
         layer = SiluAndMul(fd_config)
         x = paddle.ones([2, 2])
         out = layer.forward(x)
-        if layer.bias is None and layer.quant_scale == -1:
-            self.assertTrue((out.numpy() == 0.73105854).all())
-        else:
-            self.assertTrue((out.numpy() == 1).all())
-            mock_fused.assert_called_once()
+        self.assertTrue((out.numpy() == 1).all())
+        mock_fused.assert_called_once()
 
     # Test forward computation on GCU platform
     @patch(
diff --git a/tests/model_loader/test_torch_model.py b/tests/model_loader/test_torch_model.py
index 0170bef1da6..bc8252a4427 100644
--- a/tests/model_loader/test_torch_model.py
+++ b/tests/model_loader/test_torch_model.py
@@ -140,7 +140,7 @@ def test_model_against_baseline(
 
     # Get baseline suffix from config
     model_config = hugging_face_model_param_map.get(model_name_or_path, {})
-    baseline_suffix = model_config.get("baseline_suffix", "tp2-24")
+    baseline_suffix = model_config.get("baseline_suffix", "tp2")
     baseline_filename = f"{model_name_or_path}-{baseline_suffix}"
 
     if base_path:

From 25a1d674f8021c4d65a3add762e3631ea600d19a Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Sun, 25 Jan 2026 14:41:22 +0800
Subject: [PATCH 129/161] Fd use pfcc deepep or paddlefleet/deepep (#6206)

* fd can use pfcc/deepep or paddlefleet/deepep

* fd can use pfcc/deepep or paddlefleet/deepep
---
 fastdeploy/model_executor/layers/moe/ep.py | 11 ++++++++++-
 1 file changed, 10 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/model_executor/layers/moe/ep.py b/fastdeploy/model_executor/layers/moe/ep.py
index 4b33ec2a55c..d037a135c75 100644
--- a/fastdeploy/model_executor/layers/moe/ep.py
+++ b/fastdeploy/model_executor/layers/moe/ep.py
@@ -26,9 +26,18 @@
 try:
     if envs.FD_USE_PFCC_DEEP_EP:
         paddle.compat.enable_torch_proxy(scope={"deep_ep"})  # Enable torch proxy before importing deep_ep
-        import paddlefleet.ops.deep_ep as deep_ep
+        try:
+            import paddlefleet.ops.deep_ep as deep_ep
+
+            logger.info("FD use PaddleFleet/DeepEP now.")
+        except ModuleNotFoundError:
+            import deep_ep
+
+            logger.info("FD use PFCCLab/DeepEP now.")
     else:
         from paddle.distributed.communication import deep_ep
+
+        logger.info("FD use Paddle/DeepEP now.")
 except Exception as e:
     logger.error(
         f"import deep_ep failed! FD_USE_PFCC_DEEP_EP={envs.FD_USE_PFCC_DEEP_EP}. " f"type={type(e).__name__}, err={e}"

From 110dcad012b59db703581bebd765c3d199a2c7f5 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sun, 25 Jan 2026 17:44:22 +0800
Subject: [PATCH 130/161] fix initialize and acc bug

---
 .../layers/moe/routing_indices_cache.py       | 38 +++++-------
 fastdeploy/worker/gpu_model_runner.py         | 59 +++++++------------
 fastdeploy/worker/gpu_worker.py               |  4 ++
 run_r3_test.sh                                |  2 +-
 4 files changed, 40 insertions(+), 63 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 8bb6eebf31e..caabf25613d 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -121,7 +121,7 @@ def save_routing_to_buffer(
     token_num, top_k = topk_ids.shape
     max_num_seqs, num_hidden_layers, max_model_len, _ = routing_replay_table.shape
     assert token_num > 0
-
+    logger.info(f"[R3] Origin routing {topk_ids}")
     assert topk_ids.shape[1] == routing_replay_table.shape[3], (topk_ids.shape[1], routing_replay_table.shape[3])
     assert batch_id_per_token.shape[0] == token_num, (batch_id_per_token.shape[0], token_num)
     assert seq_lens_decoder.shape[0] == max_num_seqs, (seq_lens_decoder.shape[0], max_num_seqs)
@@ -149,7 +149,7 @@ def save_routing_to_buffer(
 class RoutingReplayManager:
     """Request level routing replay table manager"""
 
-    def __init__(self, fd_config: FDConfig, block_table):
+    def __init__(self, fd_config: FDConfig, block_table, total_block_num):
         self.fd_config = fd_config
         self.max_num_seqs = fd_config.scheduler_config.max_num_seqs
         self.max_model_len = fd_config.model_config.max_model_len
@@ -165,15 +165,15 @@ def __init__(self, fd_config: FDConfig, block_table):
         self.routing_store = get_routing_store(fd_config=fd_config)
         self.routing_batch_to_request: Dict[int, str] = {}
 
-        self._init_routing_cache(dtype="int32")
+        self._init_routing_cache(dtype="int32", total_block_num=total_block_num)
 
         self.block_table = block_table
 
-    def _init_routing_cache(self, dtype: str):
+    def _init_routing_cache(self, dtype: str, total_block_num: int):
         """Initialize the device buffer and host buffer."""
 
-        max_num_kv_tokens = self.fd_config.cache_config.total_block_num * self.fd_config.cache_config.block_size
-
+        max_num_kv_tokens = total_block_num * self.fd_config.cache_config.block_size
+        logger.info(f"[R3] Init routing replay table, max_num_kv_tokens: {max_num_kv_tokens}")
         self._host_cache = paddle.full(
             shape=[max_num_kv_tokens, self.num_moe_layers, self.moe_top_k], fill_value=-1, dtype=dtype, device="cpu"
         )
@@ -191,11 +191,14 @@ def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tenso
             if len(position) > 0 and len(slot_mapping[batch_id]) > 0:
                 logger.info(f"position: {position}, slot mapping: {slot_mapping[batch_id]}")
                 routing_ids = self.routing_replay_table[batch_id, :, position, :]
-                logger.info(f"routing_ids: {routing_ids}")
+                routing_ids = routing_ids.cpu()
+
                 # Reshape [layer, token, topk] -> [token, layer, topk]
-                routing_ids = routing_ids.transpose([1, 0, 2])
-                logger.info(f"after transpose routing ids: {routing_ids}")
-                self._host_cache[slot_mapping[batch_id], :, :] = routing_ids
+                routing_ids_transponse = paddle.transpose(routing_ids, [1, 0, 2])
+                logger.info(f"after transpose routing ids: {routing_ids_transponse}")
+
+                logger.info(f"slice host cache {self._host_cache[slot_mapping[batch_id], :, :]}")
+                self._host_cache[slot_mapping[batch_id], :, :] = routing_ids_transponse
                 logger.info(f" update host cache: {self._host_cache[slot_mapping[batch_id], :, :]}")
 
     def get_token_positions(self, seq_lens_decoder, seq_lens_this_time):
@@ -256,7 +259,7 @@ def _get_routing_from_cache(self, token_cache_ids):
             if len(slot_map) > 0:
                 logger.info(f"[R3] _get_routing_from_cache {slot_map}")
                 token_cached_routing = self._host_cache[slot_map, :, :]
-                return token_cached_routing.transpose([1, 0, 2])
+                return paddle.transpose(token_cached_routing, [1, 0, 2])
         raise ValueError("No cached routing found")
 
     def put_finished_batch(
@@ -279,24 +282,13 @@ def put_finished_batch(
                     )
                 )
 
-    def register_request(self, batch_id: int, request_id: str, seq_lens_decoder, seq_lens_this_time):
+    def register_request(self, batch_id: int, request_id: str):
         """
         Register a new request to routing replay table
         Args:
             batch_id: The batch ID of this request
             request_id: The global ID of the request is usually executed by the training process in RL
         """
-        # # Save requests that have been finished for the current slot
-        # if batch_id in self.routing_batch_to_request:
-        #     pre_request_id = self._deregister_request(batch_id)
-        #     asyncio.run(
-        #         self._put_request_to_store(
-        #             batch_id=batch_id,
-        #             request_id=pre_request_id,
-        #             seq_lens_decoder=seq_lens_decoder,
-        #             seq_lens_this_time=seq_lens_this_time
-        #         )
-        #     )
         # assert batch_id not in self.routing_batch_to_request
         if batch_id in self.routing_batch_to_request:
             logger.warning(f"[R3] Request {request_id} has been registered")
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index b2fadd28ce5..4b09187354b 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -220,10 +220,6 @@ def __init__(
 
         # Rollout routing replay config
         self.routing_replay_manager = None
-        if self.fd_config.routing_replay_config.enable_routing_replay:
-            self.routing_replay_manager = RoutingReplayManager(
-                fd_config=self.fd_config, block_table=self.share_inputs["block_tables"]
-            )
 
         self.zmq_client = None
         self.async_output_queue = None
@@ -694,12 +690,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                 # Routing Replay
                 if self.fd_config.routing_replay_config.enable_routing_replay:
                     # 1.prefix task(need regist) 2. chunkend task(not need regist)
-                    self.routing_replay_manager.register_request(
-                        batch_id=idx,
-                        request_id=request.request_id,
-                        seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
-                        seq_lens_this_time=self.seq_lens_this_time_buffer,
-                    )
+                    self.routing_replay_manager.register_request(batch_id=idx, request_id=request.request_id)
 
                 if (
                     self.fd_config.scheduler_config.splitwise_role == "decode"
@@ -723,12 +714,7 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                     self.fd_config.routing_replay_config.enable_routing_replay
                     and self.seq_lens_routing_buffer[idx][0] == 0
                 ):  # new decode task
-                    self.routing_replay_manager.register_request(
-                        batch_id=idx,
-                        request_id=request.request_id,
-                        seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
-                        seq_lens_this_time=self.seq_lens_this_time_buffer,
-                    )
+                    self.routing_replay_manager.register_request(batch_id=idx, request_id=request.request_id)
                 continue
             else:  # preempted task
                 logger.info(f"Handle preempted request {request} at idx {idx}")
@@ -1451,13 +1437,6 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
 
         # Update bad tokens len
         max_bad_tokens_len = np.max(self.share_inputs["bad_tokens_len"].numpy())
-        logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
-        if self.fd_config.routing_replay_config.enable_routing_replay:
-            self.positions = self.routing_replay_manager.get_token_positions(
-                seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
-                seq_lens_this_time=self.seq_lens_this_time_buffer,
-            )
-            logger.info(f"positions {self.positions}")
 
         # Initialize forward meta data
         self.initialize_forward_meta(is_dummy_or_profile_run=is_dummy_or_profile_run)
@@ -2043,8 +2022,8 @@ def _dummy_run(
             if int((self.share_inputs["seq_lens_this_time"] > 0).sum()) == 0:
                 break
 
-        if self.fd_config.routing_replay_config.enable_routing_replay:
-            self.routing_replay_manager.clear_routing_table()
+        # if self.fd_config.routing_replay_config.enable_routing_replay:
+        #     self.routing_replay_manager.clear_routing_table()
 
     def _update_chunked_prefill(self, tasks):
         """
@@ -2521,24 +2500,18 @@ class at the server level, which is too granular for ModelRunner.
 
         # Routing replay
         if self.fd_config.routing_replay_config.enable_routing_replay:
+            logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
+            self.positions = self.routing_replay_manager.get_token_positions(
+                seq_lens_decoder=self.seq_lens_routing_buffer,
+                seq_lens_this_time=self.seq_lens_this_time_buffer,
+            )
+            logger.info(f"positions {self.positions}")
+
             # Update host cache
             logger.info(f"block_tables before compute_slot_mapping : {self.share_inputs['block_tables']}")
             slot_mapping = self.routing_replay_manager.compute_slot_mapping(positions=self.positions)
             self.routing_replay_manager.update_host_cache(positions=self.positions, slot_mapping=slot_mapping)
 
-            # query -> query_token_idx -> _inner_block_token_id
-
-            # if (
-            #     not self.exist_prefill()
-            #     and not self.exist_decode()
-            #     and self.share_inputs["is_block_step"].sum() == 0
-            #     and self.share_inputs["is_chunk_step"].sum() == 0
-            # ):
-            # Get the mapping from tokens to blocks id
-            # batch_id(request_id) -> query_token_idx -> _inner_block_token_id
-
-            # Gollective all routing of finished requests
-
             # Put routing of finished requests to store
             logger.info(
                 f"berfore put to store {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}"
@@ -2564,7 +2537,7 @@ class at the server level, which is too granular for ModelRunner.
                 seq_lens_this_time=self.seq_lens_this_time_buffer,
             )
 
-            self.seq_lens_routing_buffer.copy_(self.share_inputs["seq_lens_decoder"])
+            paddle.assign(self.share_inputs["seq_lens_decoder"], self.seq_lens_routing_buffer)
 
         return None
 
@@ -3055,3 +3028,11 @@ def _get_prompt_logprobs_list(
             del self.prompt_logprobs_reqs[req.request_id]
             del self.in_progress_prompt_logprobs[req.request_id]
         return prompt_logprobs_list
+
+    def initialize_routing_replay_manager(self):
+        """ """
+        self.routing_replay_manager = RoutingReplayManager(
+            fd_config=self.fd_config,
+            block_table=self.share_inputs["block_tables"],
+            total_block_num=self.num_gpu_blocks,
+        )
diff --git a/fastdeploy/worker/gpu_worker.py b/fastdeploy/worker/gpu_worker.py
index 9fcf9efcc9a..2744b51a8e0 100644
--- a/fastdeploy/worker/gpu_worker.py
+++ b/fastdeploy/worker/gpu_worker.py
@@ -184,6 +184,10 @@ def initialize_cache(self, num_gpu_blocks: int) -> None:
         # accurate cache size
         self.model_runner.update_share_input_block_num(num_gpu_blocks=num_gpu_blocks)
 
+        # Initialize routing replay manager
+        if self.fd_config.routing_replay_config.enable_routing_replay:
+            self.model_runner.initialize_routing_replay_manager()
+
     def execute_model(
         self,
         model_forward_batch: Optional[List[Request]] = None,
diff --git a/run_r3_test.sh b/run_r3_test.sh
index a1f64f1840b..d7a6bacbb43 100644
--- a/run_r3_test.sh
+++ b/run_r3_test.sh
@@ -14,7 +14,7 @@ model_path=/root/paddlejob/workspace/env_run/output/models/paddle/ERNIE-4.5-21B-
 python -m fastdeploy.entrypoints.openai.api_server --config ${config_yaml} --model ${model_path} \
     --tensor-parallel-size 1 --max-model-len 32768 --max-num-seqs 2 \
     --enable-chunked-prefill --enable-prefix-caching --port 8888 --max-num-batched-tokens 64 --metrics-port 8889 --engine-worker-queue-port 9999 \
-    --graph-optimization-config '{"use_cudagraph": true}' \
+    --graph-optimization-config '{"use_cudagraph": false}' \
     --routing-replay-config '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./routing_replay_output", "use_fused_put":false}' \
     --speculative-config '{"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 1,"model": "'$model_path'/mtp"}' \
 

From 0321695954141bbe0774b7baed7f6e872faf7f53 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sun, 25 Jan 2026 18:46:07 +0800
Subject: [PATCH 131/161] fix get position bug

---
 fastdeploy/worker/gpu_model_runner.py | 19 +++++++++++++------
 1 file changed, 13 insertions(+), 6 deletions(-)

diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 4b09187354b..ec89c5571d9 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -2245,6 +2245,13 @@ class at the server level, which is too granular for ModelRunner.
 
         self._prepare_inputs()
         self.sampler.pre_process(p_done_idxs)
+        if self.fd_config.routing_replay_config.enable_routing_replay:
+            logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
+            self.positions = self.routing_replay_manager.get_token_positions(
+                seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
+                seq_lens_this_time=self.seq_lens_this_time_buffer,
+            )
+            logger.info(f"positions {self.positions}")
 
         # 1.1 Update state of logits processor
         for proc in self.sampling_metadata.logits_processors:
@@ -2500,12 +2507,12 @@ class at the server level, which is too granular for ModelRunner.
 
         # Routing replay
         if self.fd_config.routing_replay_config.enable_routing_replay:
-            logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
-            self.positions = self.routing_replay_manager.get_token_positions(
-                seq_lens_decoder=self.seq_lens_routing_buffer,
-                seq_lens_this_time=self.seq_lens_this_time_buffer,
-            )
-            logger.info(f"positions {self.positions}")
+            # logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
+            # self.positions = self.routing_replay_manager.get_token_positions(
+            #     seq_lens_decoder=self.seq_lens_routing_buffer,
+            #     seq_lens_this_time=self.seq_lens_this_time_buffer,
+            # )
+            # logger.info(f"positions {self.positions}")
 
             # Update host cache
             logger.info(f"block_tables before compute_slot_mapping : {self.share_inputs['block_tables']}")

From c23379844acab146bd45e43682475ff68b54c181 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sun, 25 Jan 2026 19:21:21 +0800
Subject: [PATCH 132/161] refine code

---
 .../layers/moe/routing_indices_cache.py       |  21 +-
 .../layers/moe/routing_indices_cache_old.py   | 462 ------------------
 fastdeploy/worker/gpu_model_runner.py         |   9 -
 3 files changed, 8 insertions(+), 484 deletions(-)
 delete mode 100644 fastdeploy/model_executor/layers/moe/routing_indices_cache_old.py

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index caabf25613d..874fe6ffa3e 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -121,7 +121,6 @@ def save_routing_to_buffer(
     token_num, top_k = topk_ids.shape
     max_num_seqs, num_hidden_layers, max_model_len, _ = routing_replay_table.shape
     assert token_num > 0
-    logger.info(f"[R3] Origin routing {topk_ids}")
     assert topk_ids.shape[1] == routing_replay_table.shape[3], (topk_ids.shape[1], routing_replay_table.shape[3])
     assert batch_id_per_token.shape[0] == token_num, (batch_id_per_token.shape[0], token_num)
     assert seq_lens_decoder.shape[0] == max_num_seqs, (seq_lens_decoder.shape[0], max_num_seqs)
@@ -173,7 +172,7 @@ def _init_routing_cache(self, dtype: str, total_block_num: int):
         """Initialize the device buffer and host buffer."""
 
         max_num_kv_tokens = total_block_num * self.fd_config.cache_config.block_size
-        logger.info(f"[R3] Init routing replay table, max_num_kv_tokens: {max_num_kv_tokens}")
+
         self._host_cache = paddle.full(
             shape=[max_num_kv_tokens, self.num_moe_layers, self.moe_top_k], fill_value=-1, dtype=dtype, device="cpu"
         )
@@ -183,6 +182,9 @@ def _init_routing_cache(self, dtype: str, total_block_num: int):
             fill_value=-1,
             dtype="int32",
         )
+        logger.info(
+            f"[R3] The host cache size is:{self._host_cache.shape}, device cache size is: {self.routing_replay_table.shape}"
+        )
 
     def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tensor):
         """ """
@@ -203,8 +205,6 @@ def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tenso
 
     def get_token_positions(self, seq_lens_decoder, seq_lens_this_time):
         """Get token position of each sequence in a batch."""
-        print("seq_lens_decoder", seq_lens_decoder)
-        print("seq_lens_this_time", seq_lens_this_time)
         starts = seq_lens_decoder.numpy()[:, 0]
         increase_num = seq_lens_this_time.numpy()[:, 0]
 
@@ -222,28 +222,24 @@ def compute_slot_mapping(self, positions: np.ndarray):
         """ """
         slot_mapping = []
         for batch_id, position in enumerate(positions):
-            print("position", position)
             if len(position) == 0:
                 slot_mapping.append([])
                 continue
             block_table_indices = position // self.fd_config.cache_config.block_size
-            print("block_table_indices", block_table_indices)
             token_block_ids = self.block_table[batch_id, block_table_indices]
             block_offset = position % self.fd_config.cache_config.block_size
 
             token_cache_ids = np.array(token_block_ids) * self.fd_config.cache_config.block_size + block_offset
             slot_mapping.append(token_cache_ids)
 
-        print("slot_mapping", slot_mapping)
         return slot_mapping
 
     def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder, seq_lens_this_time):
         """
         1. finish the step: after update input, lens = seq_lens_decoder_buffer
-        2. clear parameter: after update input, lens = seq_lens_decoder_buffer"""
+        2. clear parameter: after update input, lens = seq_lens_decoder_buffer
+        """
         current_token_nums = seq_lens_decoder.numpy()[:, 0]
-        print(f"{seq_lens_decoder} {seq_lens_this_time}")
-        print("current_token_nums", current_token_nums)
         positions = []
         for batch_id in range(self.max_num_seqs):
             position = []
@@ -257,7 +253,6 @@ def _get_routing_from_cache(self, token_cache_ids):
         """Collection the cached routing information"""
         for slot_map in token_cache_ids:
             if len(slot_map) > 0:
-                logger.info(f"[R3] _get_routing_from_cache {slot_map}")
                 token_cached_routing = self._host_cache[slot_map, :, :]
                 return paddle.transpose(token_cached_routing, [1, 0, 2])
         raise ValueError("No cached routing found")
@@ -289,7 +284,7 @@ def register_request(self, batch_id: int, request_id: str):
             batch_id: The batch ID of this request
             request_id: The global ID of the request is usually executed by the training process in RL
         """
-        # assert batch_id not in self.routing_batch_to_request
+        # The chunked prefill tasks will be registered repeatedly
         if batch_id in self.routing_batch_to_request:
             logger.warning(f"[R3] Request {request_id} has been registered")
             return
@@ -322,7 +317,7 @@ async def _put_request_to_store(
             batch_buffer = self._get_routing_from_cache(token_cache_ids=slot_mapping)
             logger.info(f"batch_buffer {batch_buffer} batch_buffe_old {batch_buffe_old}")
             logger.info(
-                f"batch_buffer_old equal batch_buffer{paddle.equal_all(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}"
+                f"batch_buffer_old equal batch_buffer {paddle.equal_all(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}"
             )
             tasks = []
             for layer_id in range(self.num_moe_layers):
diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache_old.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache_old.py
deleted file mode 100644
index d754f54651a..00000000000
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache_old.py
+++ /dev/null
@@ -1,462 +0,0 @@
-"""
-# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-"""
-
-import asyncio
-import copy
-import os
-import shutil
-import time
-from abc import ABC, abstractmethod
-from typing import Dict, List, Optional
-
-import paddle
-import paddle.distributed as dist
-import triton
-import triton.language as tl
-from paddleformers.utils.log import logger
-
-from fastdeploy.config import FDConfig
-
-
-@triton.jit
-def _save_routing_kernel(
-    ROUTING_REPLAY_TABLE_PTR,
-    TOPK_IDS_PTR,
-    BATCH_ID_PER_TOKEN_PTR,
-    CU_SEQLENS_Q_PTR,
-    SEQ_LENS_DECODER_PTR,
-    LAYER_IDX,
-    TOKEN_NUM,
-    TOP_K,
-    NUM_HIDDEN_LAYERS,
-    MAX_MODEL_LEN,
-    BLOCK_SIZE_M: tl.constexpr,
-    BLOCK_SIZE_K: tl.constexpr,
-):
-    pid_m = tl.program_id(axis=0)
-
-    token_offsets = pid_m * BLOCK_SIZE_M + tl.arange(0, BLOCK_SIZE_M)
-    token_mask = token_offsets < TOKEN_NUM
-
-    k_offsets = tl.arange(0, BLOCK_SIZE_K)
-
-    k_mask = k_offsets < TOP_K
-
-    topk_ids_ptrs = TOPK_IDS_PTR + token_offsets[:, None] * TOP_K + k_offsets[None, :]
-    # [BLOCK_SIZE_M, BLOCK_SIZE_K]
-
-    load_mask = token_mask[:, None] & k_mask[None, :]
-    topk_vals = tl.load(topk_ids_ptrs, mask=load_mask)
-
-    batch_ids = tl.load(BATCH_ID_PER_TOKEN_PTR + token_offsets, mask=token_mask)
-    pad_mask = token_mask & (batch_ids != -1)
-    # [0, 3, 4, 10, 12][0, 0, 0, 0, 2, 2, 2, 2, 2, 2, 3, 3]
-    # -> [0, 0, 0, 0, 4, 4, 4, 4, 4, 4, 10, 10]
-    # [0, 1, 2, 3, 4, 5, 6, 7, 8, 9, 10, 11] - [0, 0, 0, 0, 4, 4, 4, 4, 4, 4, 10, 10]
-    # -> [0, 1, 2, 3, 0, 1, 2, 3, 4, 5, 0, 1]
-    start_offsets = tl.load(CU_SEQLENS_Q_PTR + batch_ids, mask=pad_mask)
-    token_relative_index = token_offsets - start_offsets
-
-    # [BLOCK_SIZE_M]
-    len_decoder = tl.load(SEQ_LENS_DECODER_PTR + batch_ids, mask=pad_mask)
-    token_seq_pos = len_decoder + token_relative_index
-
-    STRIDE_BUF_SEQ = NUM_HIDDEN_LAYERS * MAX_MODEL_LEN * TOP_K
-    STRIDE_BUF_LAYER = MAX_MODEL_LEN * TOP_K
-    STRIDE_BUF_TOKEN = TOP_K
-
-    # [BLOCK_SIZE_M, BLOCK_SIZE_K]
-    output_ptrs = (
-        ROUTING_REPLAY_TABLE_PTR
-        + batch_ids[:, None] * STRIDE_BUF_SEQ
-        + LAYER_IDX * STRIDE_BUF_LAYER
-        + token_seq_pos[:, None] * STRIDE_BUF_TOKEN
-        + k_offsets[None, :]
-    )
-
-    pos_mask = token_seq_pos < MAX_MODEL_LEN
-    pos_mask = pos_mask & pad_mask
-
-    # [BLOCK_SIZE_M, BLOCK_SIZE_K]
-    pos_mask = pos_mask[:, None] & k_mask[None, :]
-
-    final_mask = load_mask & pos_mask
-
-    tl.store(output_ptrs, topk_vals, mask=final_mask)
-
-
-def save_routing_to_buffer(
-    routing_replay_table: paddle.Tensor,  # [max_num_seqs, num_layers, max_len, top_k]
-    topk_ids: paddle.Tensor,  # [token_num, top_k]
-    batch_id_per_token: paddle.Tensor,  # [token_num, 1]
-    seq_lens_decoder: paddle.Tensor,  # [max_num_seqs, 1]
-    cu_seqlens_q: paddle.Tensor,  # [max_num_seqs + 1, 1]
-    layer_idx: int,
-    tp_size: int,
-    ep_size: int,
-    tp_group: dist.communication.group.Group,
-):
-    if tp_size > 1 and ep_size > 1:
-        token_num_per_rank = topk_ids.shape[0]
-        if token_num_per_rank == 0:
-            return
-        topk_ids_all = paddle.zeros([token_num_per_rank * tp_size, topk_ids.shape[1]], dtype=topk_ids.dtype)
-        paddle.distributed.all_gather(topk_ids_all, topk_ids, tp_group)
-        topk_ids = topk_ids_all[: batch_id_per_token.shape[0], :]
-
-    token_num, top_k = topk_ids.shape
-    max_num_seqs, num_hidden_layers, max_model_len, _ = routing_replay_table.shape
-    assert token_num > 0
-
-    assert topk_ids.shape[1] == routing_replay_table.shape[3], (topk_ids.shape[1], routing_replay_table.shape[3])
-    assert batch_id_per_token.shape[0] == token_num, (batch_id_per_token.shape[0], token_num)
-    assert seq_lens_decoder.shape[0] == max_num_seqs, (seq_lens_decoder.shape[0], max_num_seqs)
-
-    BLOCK_SIZE_M = 128
-    BLOCK_SIZE_K = triton.next_power_of_2(top_k)  # top_k
-
-    grid = (triton.cdiv(token_num, BLOCK_SIZE_M),)
-    _save_routing_kernel[grid](
-        routing_replay_table,
-        topk_ids,
-        batch_id_per_token,
-        cu_seqlens_q,
-        seq_lens_decoder,
-        LAYER_IDX=layer_idx,
-        TOKEN_NUM=token_num,
-        TOP_K=top_k,
-        NUM_HIDDEN_LAYERS=num_hidden_layers,
-        MAX_MODEL_LEN=max_model_len,
-        BLOCK_SIZE_M=BLOCK_SIZE_M,
-        BLOCK_SIZE_K=BLOCK_SIZE_K,
-    )
-
-
-class RoutingReplayManager:
-    """Request level routing replay table manager"""
-
-    def __init__(
-        self,
-        fd_config: FDConfig,
-    ):
-        self.max_num_seqs = fd_config.scheduler_config.max_num_seqs
-        self.max_model_len = fd_config.model_config.max_model_len
-        self.num_moe_layers = fd_config.model_config.num_hidden_layers - fd_config.model_config.moe_layer_start_index
-        self.only_last_turn = fd_config.routing_replay_config.only_last_turn
-
-        if fd_config.model_config.architectures[0] == "Glm4MoeForCausalLM":
-            self.moe_top_k = fd_config.model_config.num_experts_per_tok
-        else:
-            self.moe_top_k = fd_config.model_config.moe_k
-        self.tp_rank = fd_config.parallel_config.tensor_parallel_rank
-
-        self.routing_store = get_routing_store(fd_config=fd_config)
-        self.routing_batch_to_request: Dict[int, str] = {}
-        self.routing_replay_table = paddle.full(
-            shape=[self.max_num_seqs, self.num_moe_layers, self.max_model_len, self.moe_top_k],
-            fill_value=-1,
-            dtype="int32",
-        )
-
-    def register_request(self, batch_id: int, request_id: str):
-        """
-        Register a new request to routing replay table
-        Args:
-            batch_id: The batch ID of this request
-            request_id: The global ID of the request is usually executed by the training process in RL
-        """
-        # Save requests that have been finished for the current slot
-        if batch_id in self.routing_batch_to_request:
-            pre_request_id = self._deregister_request(batch_id)
-            asyncio.run(self._put_request_to_store(batch_id, pre_request_id))
-        # Register the new request
-        self.routing_batch_to_request[batch_id] = request_id
-        logger.info(f"[R3] Register request {request_id} with batch id {batch_id}")
-
-    def _deregister_request(self, batch_id: int) -> str:
-        """
-        Deregister a request from routing replay table
-        """
-        assert batch_id in self.routing_batch_to_request
-        return self.routing_batch_to_request.pop(batch_id)
-
-    async def _put_request_to_store(
-        self,
-        batch_id: int,
-        request_id: str,
-    ):
-        before_put_request_time = time.perf_counter()
-        if self.tp_rank == 0:
-            batch_buffer = self.routing_replay_table[batch_id]
-            tasks = []
-            for layer_id in range(self.num_moe_layers):
-                layer_buffer = batch_buffer[layer_id]
-                rollout_id = self.split_request_id(request_id)
-                tasks.append(
-                    self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)
-                )
-            if self.only_last_turn:
-                prefix_batch = self.get_needed_clear_ids(rollout_id)
-                tasks.append(self.routing_store.clear_prefix_batch(roullout_id_prefixes=prefix_batch))
-            await asyncio.gather(*tasks)
-        logger.info(f"[R3] Async put {request_id} time cost: {time.perf_counter() - before_put_request_time}")
-        self._clear_table_slot(batch_id)
-
-    def put_table_to_store(self):
-        """Put the routing table"""
-        logger.info("[R3] Put routing table to store.")
-        batch_ids = copy.deepcopy(list(self.routing_batch_to_request.keys()))
-        for batch_id in batch_ids:
-            request_id = self._deregister_request(batch_id)
-            asyncio.run(self._put_request_to_store(batch_id, request_id))
-
-    def _clear_table_slot(self, batch_id: int):
-        assert 0 <= batch_id < self.max_num_seqs
-        self.routing_replay_table[batch_id].fill_(-1)
-
-    def clear_routing_table(self):
-        """Clear all slots of the routing replay table"""
-        self.routing_replay_table.fill_(-1)
-
-    def _clear_store(self):
-        """Clear routing store"""
-        self.routing_store.clear_store()
-
-    def _clear_request_of_store(self, request_id):
-        """Clear one request of routing store"""
-        rollout_id = self.split_request_id(request_id)
-        for layer_idx in range(self.num_moe_layers):
-            self.routing_store.clear(rollout_id=rollout_id, layer_idx=layer_idx)
-
-    def get_request_from_store(self, request_id: str) -> List[paddle.Tensor]:
-        """Get the routing indices of the request from store"""
-        routing_list = []
-        rollout_id = self.split_request_id(request_id)
-        for layer_idx in range(self.num_moe_layers):
-            one_layer_routing = self.routing_store.get(rollout_id, layer_idx)
-            routing_list.append(one_layer_routing)
-
-        return routing_list
-
-    def get_routing_table(self) -> paddle.Tensor:
-        return self.routing_replay_table
-
-    def split_request_id(self, request_id: str):
-        """
-        Split the request id to get rollout id.
-
-        request_id: "chatcmpl-request.user-uuid"
-        rollout_id: "request.user"
-            example: "chatcmpl-xxx_xxx_epoch_15:2:2:1-d9f16c5c-65f6-4815-b44d-14e2c581907c_0" -> "xxx_xxx_epoch_15:2:2:1"
-        """
-        chat_type, tmp_str = request_id.split("-", 1)
-        # NOTE(gongshaotian): only support chatcmpl now
-        assert (
-            chat_type == "chatcmpl"
-        ), "Rollout Routing Replay only supports chatcmpl. Please check whether the request type and userid settings are correct."
-        reversed_tmp_str = tmp_str[::-1].split("-", 5)
-        rollout_id = reversed_tmp_str[-1][::-1]
-        return rollout_id
-
-    def get_needed_clear_ids(self, roullout_id: str) -> List[str]:
-        """
-        Generate the prefix IDs for all closed multi-round tasks.
-        rollout_id: "xxx_xxx_epoch_15:2:2:1"
-            example: xxx_xxx_data_id:gen_id:turn_id:segment_id
-        """
-        reversed_segment_id, reversed_turn_id, reversed_prefix_gen_id = roullout_id[::-1].split(":", 2)
-        prefix_gen_id = reversed_prefix_gen_id[::-1]
-        turn_id = eval(reversed_turn_id[::-1])
-        segment_id = eval(reversed_segment_id[::-1])
-
-        assert turn_id >= 0 and segment_id >= 0
-        prefix_batch = []
-        if turn_id > 0:
-            prefix_batch.append(f"{prefix_gen_id}:{(turn_id-1)}:{segment_id}")
-        return prefix_batch
-
-    def clear_request(self, batch_id: int):
-        """Clear the routing indices of the request"""
-        self._clear_table_slot(batch_id)
-        self.routing_batch_to_request.pop(batch_id, None)
-
-
-class RoutingStoreBase(ABC):
-    """Base class for routing store"""
-
-    def __init__(self, fd_config: FDConfig) -> None:
-        self.fd_config = fd_config
-
-    @abstractmethod
-    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: Optional[int] = None) -> None:
-        """Put the routing indices into store"""
-        raise NotImplementedError
-
-    @abstractmethod
-    def get(self, rollout_id: str, layer_idx: Optional[int] = None) -> paddle.Tensor:
-        """Get the routing indices from store"""
-        raise NotImplementedError
-
-    @abstractmethod
-    def clear(self, rollout_id: str, layer_idx: Optional[int] = None) -> None:
-        """Clear the routing indices of the request"""
-        raise NotImplementedError
-
-    @abstractmethod
-    def clear_store(
-        self,
-    ):
-        """Clear the routing indices store"""
-        raise NotImplementedError
-
-    @abstractmethod
-    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
-        """Clear the routing indices"""
-        raise NotImplementedError
-
-
-class RoutingStoreLocal(RoutingStoreBase):
-    """Routing Store using local memory"""
-
-    def __init__(self, fd_config) -> None:
-        super().__init__(fd_config=fd_config)
-        self.local_store_dir = fd_config.routing_replay_config.local_store_dir
-        self.clear_store()
-
-    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
-        """Put the routing indices into store"""
-        routing_key = f"{rollout_id}_{layer_idx}"
-
-        # async put
-        time_before_put = time.perf_counter()
-        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
-        os.makedirs(dir_path, exist_ok=True)
-        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
-        paddle.save(routing_indices, file_path)
-        logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
-
-    def get(
-        self,
-        rollout_id: str,
-        layer_idx: int = None,
-    ) -> paddle.Tensor:
-        """Get the routing indices from store"""
-        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
-        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
-        assert os.path.exists(file_path), f"File not found: {file_path}"
-        layer_routing_indices = paddle.load(file_path)
-
-        return layer_routing_indices
-
-    def clear(
-        self,
-        rollout_id: str,
-        layer_idx: int = None,
-    ) -> None:
-        """Clear the routing indices of the request"""
-        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
-        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
-        assert os.path.exists(file_path), f"File not found: {file_path}"
-        os.remove(file_path)
-
-        # Delete empty directory
-        if len(os.listdir(dir_path)) == 0:
-            os.rmdir(dir_path)
-
-    def clear_store(self):
-        """Clear the routing indices store"""
-        if os.path.isdir(self.local_store_dir):
-            for file_name in os.listdir(self.local_store_dir):
-                file_path = os.path.join(self.local_store_dir, file_name)
-                shutil.rmtree(file_path)
-
-    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
-        # async delete
-        logger.info(f"[R3] clear_prefix_batch {roullout_id_prefixes}")
-
-
-class RoutingStoreRDMA(RoutingStoreBase):
-    """Routing Store using RDMA"""
-
-    def __init__(self, fd_config) -> None:
-        super().__init__(fd_config=fd_config)
-        try:
-            # Only used in RLHF
-            from p2pstore import P2PClient, P2PConfig
-        except ModuleNotFoundError:
-            raise ModuleNotFoundError(" RoutingStoreRDMA and p2pstore only support in RLHF. ")
-
-        rdma_store_server = fd_config.routing_replay_config.rdma_store_server
-        p2pConfig = P2PConfig(metadata_server=rdma_store_server)
-        self.p2p_client = P2PClient(p2pConfig)
-        self.clear_store()
-
-    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
-        """Put the routing indices into store"""
-        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
-
-        # async put
-        time_before_put = time.perf_counter()
-        routing_indices_pin = routing_indices.cpu()
-        routing_indices_np = routing_indices_pin.numpy()
-        copy_time = time.perf_counter()
-        await self.p2p_client.put(rdma_rollout_key, routing_indices_np)
-        logger.info(
-            f"[R3] The routing key {rdma_rollout_key} copy cost is {copy_time-time_before_put}s, put cost is {time.perf_counter()-time_before_put}s"
-        )
-
-    def get(
-        self,
-        rollout_id: str,
-        layer_idx: int = None,
-    ) -> paddle.Tensor:
-        """Get the routing indices from store"""
-        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
-        # sync get
-        tmp_routing = asyncio.run(self.p2p_client.get(rdma_rollout_key))
-        return tmp_routing
-
-    def clear(
-        self,
-        rollout_id: str,
-        layer_idx: int = None,
-    ) -> None:
-        """Clear the routing indices of the request"""
-        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
-        # sync delete
-        asyncio.run(self.p2p_client.delete(rdma_rollout_key))
-
-    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
-        # async delete
-        await self.p2p_client.delete_prefix_batch(roullout_id_prefixes)
-        logger.info(f"[R3] clear_prefix_batch {roullout_id_prefixes}")
-
-    def clear_store(self):
-        """Clear the routing indices store"""
-        # sync clear routing store
-        asyncio.run(self.p2p_client.clear())
-
-
-def get_routing_store(fd_config: FDConfig) -> RoutingStoreBase:
-    if fd_config.routing_replay_config.routing_store_type == "local":
-        return RoutingStoreLocal(fd_config=fd_config)
-    elif fd_config.routing_replay_config.routing_store_type == "rdma":
-        return RoutingStoreRDMA(fd_config=fd_config)
-    else:
-        raise ValueError(
-            f"Invalid routing store type: '{fd_config.routing_replay_config.routing_store_type}'. "
-            "Valid types are: 'local', 'rdma'"
-        )
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index ec89c5571d9..ce80c2e96af 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -2507,15 +2507,7 @@ class at the server level, which is too granular for ModelRunner.
 
         # Routing replay
         if self.fd_config.routing_replay_config.enable_routing_replay:
-            # logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
-            # self.positions = self.routing_replay_manager.get_token_positions(
-            #     seq_lens_decoder=self.seq_lens_routing_buffer,
-            #     seq_lens_this_time=self.seq_lens_this_time_buffer,
-            # )
-            # logger.info(f"positions {self.positions}")
-
             # Update host cache
-            logger.info(f"block_tables before compute_slot_mapping : {self.share_inputs['block_tables']}")
             slot_mapping = self.routing_replay_manager.compute_slot_mapping(positions=self.positions)
             self.routing_replay_manager.update_host_cache(positions=self.positions, slot_mapping=slot_mapping)
 
@@ -2523,7 +2515,6 @@ class at the server level, which is too granular for ModelRunner.
             logger.info(
                 f"berfore put to store {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}"
             )
-            # self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.seq_lens_routing_buffer, seq_lens_this_time=self.seq_lens_this_time_buffer)
             logger.info(
                 f"is_block_step :{self.share_inputs['is_block_step']} is_chunk_step:{self.share_inputs['is_chunk_step']}"
             )

From 5e7ab50e9d324c87ebc496ad5c86cc6935608eb2 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sun, 25 Jan 2026 19:24:25 +0800
Subject: [PATCH 133/161] delete block table  utils

---
 fastdeploy/worker/block_table_utils.py | 54 --------------------------
 1 file changed, 54 deletions(-)
 delete mode 100644 fastdeploy/worker/block_table_utils.py

diff --git a/fastdeploy/worker/block_table_utils.py b/fastdeploy/worker/block_table_utils.py
deleted file mode 100644
index 4c040cb1417..00000000000
--- a/fastdeploy/worker/block_table_utils.py
+++ /dev/null
@@ -1,54 +0,0 @@
-import numpy as np
-import paddle
-
-
-def get_token_positions(seq_lens_decoder: paddle.Tensor, seq_lens_this_time: paddle.Tensor, max_num_seqs: int):
-    """Get token position of each sequence in a batch."""
-    print("seq_lens_decoder", seq_lens_decoder)
-    print("seq_lens_this_time", seq_lens_this_time)
-    starts = seq_lens_decoder.numpy()[:, 0]
-    increase_num = seq_lens_this_time.numpy()[:, 0]
-
-    positions = []
-    for i in range(max_num_seqs):
-        if seq_lens_this_time[i] == 0:
-            positions.append([])
-            continue
-        repeated_base = np.repeat(starts[i], increase_num[i])
-        positions.append(repeated_base + np.arange(0, increase_num[i]))
-
-    return positions
-
-
-def compute_slot_mapping(block_table, positions: np.ndarray, block_size: int = 64):
-    """ """
-    slot_mapping = []
-    for batch_id, position in enumerate(positions):
-        print("position", position)
-        if len(position) == 0:
-            slot_mapping.append([])
-            continue
-        block_table_indices = position // block_size
-        print("block_table_indices", block_table_indices)
-        token_block_ids = block_table[batch_id, block_table_indices]
-        block_offset = position % block_size
-
-        token_cache_ids = np.array(token_block_ids) * block_size + block_offset
-        slot_mapping.append(token_cache_ids)
-
-    print("slot_mapping", slot_mapping)
-    return slot_mapping
-
-
-def get_token_cache_ids(finished_batch_ids, seq_lens_decoder, seq_lens_this_time, block_table, block_size: int = 64):
-    """ """
-    current_token_nums = seq_lens_decoder.numpy()[:, 0] + seq_lens_this_time.numpy()[:, 0]
-
-    positions = []
-    for batch_id in range(len(seq_lens_decoder)):
-        position = []
-        if batch_id in finished_batch_ids:
-            position = np.arange(0, current_token_nums[batch_id])
-        positions.append(position)
-
-    return compute_slot_mapping(block_table=block_table, positions=positions, block_size=block_size)

From 1f550624c4e1deda20c96f0e4020910c9799aabf Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sun, 25 Jan 2026 19:35:43 +0800
Subject: [PATCH 134/161] refine model runner code

---
 fastdeploy/worker/gpu_model_runner.py | 9 +--------
 1 file changed, 1 insertion(+), 8 deletions(-)

diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index ce80c2e96af..5d10a65a081 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -708,13 +708,12 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                     has_decode_task = True
 
                 # Routing Replay
-                logger.info(f"[R3] self.share_inputs['is_block_step'][idx] {self.share_inputs['is_block_step'][idx]}")
-                logger.info(f"[R3] self.seq_lens_decoder[idx] {self.seq_lens_routing_buffer[idx]}")
                 if (
                     self.fd_config.routing_replay_config.enable_routing_replay
                     and self.seq_lens_routing_buffer[idx][0] == 0
                 ):  # new decode task
                     self.routing_replay_manager.register_request(batch_id=idx, request_id=request.request_id)
+
                 continue
             else:  # preempted task
                 logger.info(f"Handle preempted request {request} at idx {idx}")
@@ -2022,9 +2021,6 @@ def _dummy_run(
             if int((self.share_inputs["seq_lens_this_time"] > 0).sum()) == 0:
                 break
 
-        # if self.fd_config.routing_replay_config.enable_routing_replay:
-        #     self.routing_replay_manager.clear_routing_table()
-
     def _update_chunked_prefill(self, tasks):
         """
         Update chunked prefill related parameters
@@ -2741,9 +2737,6 @@ def clear_requests(self):
         self.in_progress_prompt_logprobs.clear()
         self.forward_batch_reqs_list = [None for _ in range(self.scheduler_config.max_num_seqs)]
 
-        # if self.fd_config.routing_replay_config.enable_routing_replay:
-        #     self.routing_replay_manager.put_table_to_store(seq_lens_decoder=self.share_inputs["seq_lens_decoder"], seq_lens_this_time=self.seq_lens_this_time_buffer)
-
     def update_parameters(self, pid):
         """Dynamic model loader use to update parameters use for RL"""
         # Update parameters

From 1c01c9b0cfd4a5e80c0cf4cdc830f2679e26882e Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Mon, 26 Jan 2026 09:52:40 +0800
Subject: [PATCH 135/161] [BugFix] fix cache transfer tasks failure after cache
 cleared (#6201)

* [fix] fix cache transfer tasks failure after cache cleared

* [fix] fix submit_task
---
 .../cache_manager/cache_transfer_manager.py   | 45 ++++++++++++++++++-
 1 file changed, 43 insertions(+), 2 deletions(-)

diff --git a/fastdeploy/cache_manager/cache_transfer_manager.py b/fastdeploy/cache_manager/cache_transfer_manager.py
index cb5757045cb..08f384ec483 100644
--- a/fastdeploy/cache_manager/cache_transfer_manager.py
+++ b/fastdeploy/cache_manager/cache_transfer_manager.py
@@ -204,6 +204,10 @@ def __init__(self, args):
         )
         threading.Thread(target=self.check_cache_status, args=[args], daemon=True).start()
 
+        self._pause_cond = threading.Condition()
+        self.is_paused = False  # transfer manager state
+        self.inflight = 0  # number of inflight transfer tasks
+
     def _init_gpu_cache(self, args):
 
         if not args.create_cache_tensor:
@@ -433,6 +437,22 @@ def check_work_status(self, time_interval_threashold=envs.FD_CACHE_PROC_EXIT_TIM
 
         return True, ""
 
+    def submit_task(self, thread_pool: concurrent.futures.ThreadPoolExecutor, task_fn, *args):
+
+        def inflight_task(fn, *args):
+            try:
+                return fn(*args)
+            finally:
+                with self._pause_cond:
+                    self.inflight -= 1
+                    if self.inflight == 0:
+                        self._pause_cond.notify_all()
+
+        with self._pause_cond:
+            self._pause_cond.wait_for(lambda: not self.is_paused)
+            self.inflight += 1
+            thread_pool.submit(inflight_task, task_fn, *args)
+
     def do_data_transfer(self):
         """
         do data transfer task
@@ -465,7 +485,8 @@ def do_data_transfer(self):
                         transfer_task_id,
                     ) = data
                     if event_type.value == CacheStatus.SWAP2CPU.value:
-                        self.swap_to_cpu_thread_pool.submit(
+                        self.submit_task(
+                            self.swap_to_cpu_thread_pool,
                             self._do_swap_to_cpu_task,
                             swap_node_ids,
                             gpu_block_id,
@@ -474,7 +495,8 @@ def do_data_transfer(self):
                             transfer_task_id,
                         )
                     else:
-                        self.swap_to_gpu_thread_pool.submit(
+                        self.submit_task(
+                            self.swap_to_gpu_thread_pool,
                             self._do_swap_to_gpu_task,
                             swap_node_ids,
                             gpu_block_id,
@@ -650,6 +672,9 @@ def check_cache_status(self, args):
             if self.kv_cache_status_signal.value[0] == KVCacheStatus.CLEARING:
                 assert args.splitwise_role == "mixed", "Only mixed mode supports clearing cache."
                 try:
+                    # wait for inflight transfer tasks to finish and pause transfer manager
+                    self.pause()
+
                     # clear cpu caches
                     logger.info("[RL] start clearing caches")
                     logger.debug("[RL] start clearing cpu caches")
@@ -736,11 +761,27 @@ def check_cache_status(self, args):
                     self.kv_cache_status_signal.value[0] = KVCacheStatus.NORMAL
 
                     self._log_memory("after restoring caches")
+
+                    # resume transfer
+                    self.resume()
+
                 except Exception as e:
                     logger.error(f"[RL] failed to restore caches: {e}")
 
             time.sleep(0.1)
 
+    def pause(self):
+        logger.info("[RL] wait for inflight transfer tasks to finish and pause transfer manager 🔴")
+        with self._pause_cond:
+            self.is_paused = True
+            self._pause_cond.wait_for(lambda: self.inflight == 0)
+
+    def resume(self):
+        logger.info("[RL] resume transfer manager and start to do transfer tasks 🟢")
+        with self._pause_cond:
+            self.is_paused = False
+            self._pause_cond.notify_all()
+
     def _log_memory(self, context: str):
         """Log current GPU memory usage."""
         max_alloc = paddle.device.cuda.max_memory_allocated() / (1024**3)

From 3c99a5d2dde18071f17fd419aa138df90d7195a8 Mon Sep 17 00:00:00 2001
From: Zhang Yulong <35552275+ZhangYulongg@users.noreply.github.com>
Date: Mon, 26 Jan 2026 11:37:20 +0800
Subject: [PATCH 136/161] Update _build_linux_rl.yml (#6215)

---
 .github/workflows/_build_linux_rl.yml | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/.github/workflows/_build_linux_rl.yml b/.github/workflows/_build_linux_rl.yml
index 88fa10bd422..6e570965b95 100644
--- a/.github/workflows/_build_linux_rl.yml
+++ b/.github/workflows/_build_linux_rl.yml
@@ -161,7 +161,7 @@ jobs:
             chown -R $(whoami) /workspace/FastDeploy
             cd FastDeploy
 
-            python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Paddle-RL-Compile-test/release/3.3/cbf3469113cd76b7d5f4cba7b8d7d5f55d9e9911/7/paddlepaddle_gpu-3.3.0.dev-cp310-cp310-linux_x86_64.whl
+            python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Paddle-RL-Compile/release/3.3/latest/paddlepaddle_gpu-3.3.0.dev-cp310-cp310-linux_x86_64.whl
 
             pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 

From d8921a5d683172b7f9af9e9afb86852edb266046 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Mon, 26 Jan 2026 17:11:17 +0800
Subject: [PATCH 137/161] support routing pad to max_model_len

---
 .../layers/moe/routing_indices_cache.py        | 18 ++++++++++++++++--
 1 file changed, 16 insertions(+), 2 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 874fe6ffa3e..9f8cb22ce8c 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -164,7 +164,9 @@ def __init__(self, fd_config: FDConfig, block_table, total_block_num):
         self.routing_store = get_routing_store(fd_config=fd_config)
         self.routing_batch_to_request: Dict[int, str] = {}
 
-        self._init_routing_cache(dtype="int32", total_block_num=total_block_num)
+        # TODO(gongshaotian): Dynamic routing cache dtype
+        self.routing_dtype = "int32"
+        self._init_routing_cache(dtype=self.routing_dtype, total_block_num=total_block_num)
 
         self.block_table = block_table
 
@@ -180,7 +182,7 @@ def _init_routing_cache(self, dtype: str, total_block_num: int):
         self.routing_replay_table = paddle.full(
             shape=[self.max_num_seqs, self.num_moe_layers, self.max_model_len, self.moe_top_k],
             fill_value=-1,
-            dtype="int32",
+            dtype=dtype,
         )
         logger.info(
             f"[R3] The host cache size is:{self._host_cache.shape}, device cache size is: {self.routing_replay_table.shape}"
@@ -315,6 +317,8 @@ async def _put_request_to_store(
             )
             logger.info(f"slot_mapping {slot_mapping}")
             batch_buffer = self._get_routing_from_cache(token_cache_ids=slot_mapping)
+            # TODO(gongshaotian): Delete pad func after trainer support dynamic len
+            batch_buffer = self.pad_routing_cache(routing_indices=batch_buffer)
             logger.info(f"batch_buffer {batch_buffer} batch_buffe_old {batch_buffe_old}")
             logger.info(
                 f"batch_buffer_old equal batch_buffer {paddle.equal_all(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}"
@@ -418,6 +422,16 @@ def clear_request(self, batch_id: int):
         self._clear_table_slot(batch_id)
         self.routing_batch_to_request.pop(batch_id, None)
 
+    def pad_routing_cache(self, routing_indices) -> paddle.Tensor:
+        """Pad routing indices of the request levevl to max model len"""
+        current_shape = routing_indices.shape[1]
+        pad_tensor = paddle.full(
+            shape=[self.num_moe_layers, (self.max_model_len - current_shape), self.moe_top_k],
+            fill_value=-1,
+            dtype=self.routing_dtype,
+        )
+        return paddle.concat([routing_indices, pad_tensor], axis=1)
+
 
 class RoutingStoreBase(ABC):
     """Base class for routing store"""

From 5cf2da4b534870e9695a498060ed21b727a1a15e Mon Sep 17 00:00:00 2001
From: Yonghua Li <39643373+liyonghua0910@users.noreply.github.com>
Date: Mon, 26 Jan 2026 20:24:50 +0800
Subject: [PATCH 138/161] [fix] fix pd_comm_port index out of bound (#6106)

---
 fastdeploy/engine/expert_service.py               | 7 -------
 fastdeploy/entrypoints/openai/multi_api_server.py | 1 +
 fastdeploy/splitwise/splitwise_connector.py       | 4 ++--
 3 files changed, 3 insertions(+), 9 deletions(-)

diff --git a/fastdeploy/engine/expert_service.py b/fastdeploy/engine/expert_service.py
index 3b8c40cca3c..d462e37f23c 100644
--- a/fastdeploy/engine/expert_service.py
+++ b/fastdeploy/engine/expert_service.py
@@ -67,13 +67,6 @@ def __init__(self, cfg, local_data_parallel_id, start_queue=True):
         else:
             self.do_profile = False
 
-        if cfg.scheduler_config.splitwise_role != "mixed":
-            if len(self.cfg.cache_config.pd_comm_port) == 1:
-                self.cfg.cache_config.pd_comm_port[0] = (
-                    int(self.cfg.cache_config.pd_comm_port[0]) + local_data_parallel_id
-                )
-            else:
-                self.cfg.cache_config.pd_comm_port = [self.cfg.cache_config.pd_comm_port[local_data_parallel_id]]
         self.cfg.parallel_config.local_data_parallel_id = local_data_parallel_id
         self.engine = EngineService(self.cfg, start_queue)
         if self.cfg.scheduler_config.name == "splitwise":
diff --git a/fastdeploy/entrypoints/openai/multi_api_server.py b/fastdeploy/entrypoints/openai/multi_api_server.py
index a34cb137a9a..c1c4ae09c1f 100644
--- a/fastdeploy/entrypoints/openai/multi_api_server.py
+++ b/fastdeploy/entrypoints/openai/multi_api_server.py
@@ -52,6 +52,7 @@ def start_servers(server_count, server_args, ports, metrics_ports, controller_po
 
         env = os.environ.copy()
         env["FD_LOG_DIR"] = env.get("FD_LOG_DIR", "log") + f"/log_{i}"
+        env["FD_ENABLE_MULTI_API_SERVER"] = "1"
         cmd = [
             sys.executable,
             "-m",
diff --git a/fastdeploy/splitwise/splitwise_connector.py b/fastdeploy/splitwise/splitwise_connector.py
index d82fbec849f..0f324fb7cf9 100644
--- a/fastdeploy/splitwise/splitwise_connector.py
+++ b/fastdeploy/splitwise/splitwise_connector.py
@@ -73,8 +73,8 @@ def _init_network(self):
         self.router_socket.setsockopt(zmq.LINGER, 0)
         self.router_socket.setsockopt(zmq.SNDHWM, 1000)
         self.router_socket.setsockopt(zmq.ROUTER_MANDATORY, 1)
-        self.router_socket.bind(f"tcp://*:{self.cfg.cache_config.pd_comm_port[0]}")
-        self.logger.info(f"_init_network: bind {self.cfg.cache_config.pd_comm_port}")
+        self.router_socket.bind(f"tcp://*:{self.cfg.cache_config.pd_comm_port[self.local_data_parallel_id]}")
+        self.logger.info(f"_init_network: bind {self.cfg.cache_config.pd_comm_port[self.local_data_parallel_id]}")
 
         self.poller = zmq.Poller()
         self.poller.register(self.router_socket, zmq.POLLIN)

From c8cf68630a2241e66db32a8f7a1f66af91332bbb Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Mon, 26 Jan 2026 18:45:22 -0800
Subject: [PATCH 139/161] [Cherry-Pick][Speculative Decoding] Support MTP for
 GLM-4.5-Air (#6047, #6093) (#6219)

---
 .../speculate_write_cache_with_rope_impl.cuh  | 160 ++++++++
 .../speculate_write_cache_with_rope_kernel.cu |  91 +++--
 fastdeploy/model_executor/models/glm4_moe.py  |   6 +-
 fastdeploy/model_executor/models/glm4_mtp.py  | 384 ++++++++++++++++++
 .../model_executor/pre_and_post_process.py    |   2 +
 fastdeploy/model_executor/utils.py            |   5 +-
 fastdeploy/spec_decode/mtp.py                 |   7 +-
 fastdeploy/worker/gpu_model_runner.py         |   2 +-
 8 files changed, 626 insertions(+), 31 deletions(-)
 create mode 100644 fastdeploy/model_executor/models/glm4_mtp.py

diff --git a/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_impl.cuh b/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_impl.cuh
index 30d3f9196a9..c321107237b 100644
--- a/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_impl.cuh
+++ b/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_impl.cuh
@@ -601,6 +601,166 @@ __global__ void append_speculate_cache_neox_rope_kernel(
   }
 }
 
+template <typename T, int VecSize = 1, typename InT = T>
+__global__ void append_speculate_cache_neox_partial_rope_kernel(
+    const InT* __restrict__ qkv,  // [token_num, num_heads + 2 * gqa_group_size,
+                                  // head_size]
+    T* __restrict__ key_cache,    // [num_blocks, gqa_group_size, block_size,
+                                  // head_size // 2]
+    T* __restrict__ value_cache,  // [num_blocks, gqa_group_size, block_size,
+                                  // head_size // 2]
+    T* __restrict__ qkv_out,
+    const int* __restrict__ block_tables,        // [bsz, max_blocks_per_seq]
+    const int* __restrict__ batch_id_per_token,  // [num_tokens]
+    const int* __restrict__ cu_seqlens_q,
+    const int* __restrict__ seq_lens_decoder,  // [bsz]
+    const int* __restrict__ seq_lens_encoder,  // [bsz]
+    const float* __restrict__ cos_emb,
+    const float* __restrict__ sin_emb,
+    const float*
+        qkv_out_scales,   // [(num_heads + 2 * gqa_group_size) * head_size]
+    const T* qkv_biases,  // [num_head + 2 * gqa_group_size, dim_head]
+    const int max_seq_len,
+    const int max_blocks_per_seq,
+    const int num_heads,
+    const int output_inner_dim,
+    const int head_size,
+    const int rotary_dim,
+    const int block_size,
+    const int elem_cnt,
+    const int gqa_group_size,
+    const bool rope_3d) {
+  using LoadT = AlignedVector<T, VecSize>;
+  using LoadFloat = AlignedVector<float, VecSize>;
+  using LoadInT = AlignedVector<InT, VecSize>;
+  constexpr int HalfVecSize = VecSize / 2;
+  using LoadEmbT = AlignedVector<float, VecSize>;
+  LoadInT left_vec, right_vec;
+  LoadT left_bias_vec, right_bias_vec;
+  LoadFloat left_out_scale_vec, right_out_scale_vec;
+  LoadEmbT cos_emb_vec;
+  LoadEmbT sin_emb_vec;
+
+  int64_t global_thread_idx = blockDim.x * blockIdx.x + threadIdx.x;
+  const int64_t hidden_size = (num_heads + 2 * gqa_group_size) * head_size;
+  const int half_head_size = head_size / 2;
+  const int half_rotary_dim = rotary_dim / 2;
+  const int64_t half_hidden_size = hidden_size / 2;
+  for (int32_t linear_index = global_thread_idx * VecSize,
+               step = gridDim.x * blockDim.x * VecSize;
+       linear_index < elem_cnt;
+       linear_index += step) {
+    const int token_id = linear_index / half_hidden_size;
+    const int ori_bi = batch_id_per_token[token_id];
+    if (ori_bi == -1) continue;  // NOTE(gongshaotian): For CUDAGraph padding
+    if (seq_lens_encoder[ori_bi] > 0) continue;
+    const int bias = linear_index % half_hidden_size;
+    const int hi = bias / half_head_size;  // q + k + v
+    const int h_bias = bias % half_head_size;
+    if (hi < num_heads && h_bias >= half_rotary_dim) {
+      continue;
+    }
+    const int start_token_idx = cu_seqlens_q[ori_bi];
+    const int write_seq_id =
+        seq_lens_decoder[ori_bi] + token_id - start_token_idx;
+    if (write_seq_id == 0) continue;
+
+    const int* block_table_now = block_tables + ori_bi * max_blocks_per_seq;
+    const int block_idx = block_table_now[write_seq_id / block_size];
+    if (block_idx < 0) {
+      continue;  // NOTE(gongshaotian): For CUDAGraph padding
+    }
+    const int block_offset = write_seq_id % block_size;
+
+    const int bias_idx_left = hi * head_size + h_bias;
+    const int bias_idx_right = bias_idx_left + half_head_size;
+    int ori_idx_left = token_id * hidden_size + hi * head_size + h_bias;
+    int ori_idx_right = ori_idx_left + half_head_size;
+    if (hi < num_heads) {
+      ori_idx_right = ori_idx_left + half_rotary_dim;
+    } else if (hi < num_heads + gqa_group_size) {
+      if (h_bias < half_rotary_dim) {
+        ori_idx_right = ori_idx_left + half_rotary_dim;
+      } else {
+        ori_idx_left = ori_idx_left + half_rotary_dim;
+        ori_idx_right = ori_idx_left + half_rotary_dim;
+      }
+    }
+    Load<InT, VecSize>(&qkv[ori_idx_left], &left_vec);
+    Load<InT, VecSize>(&qkv[ori_idx_right], &right_vec);
+    if (qkv_biases) {
+      Load<T, VecSize>(&qkv_biases[bias_idx_left], &left_bias_vec);
+      Load<T, VecSize>(&qkv_biases[bias_idx_right], &right_bias_vec);
+    }
+    if (qkv_out_scales) {
+      Load<float, VecSize>(&qkv_out_scales[bias_idx_left], &left_out_scale_vec);
+      Load<float, VecSize>(&qkv_out_scales[bias_idx_right],
+                           &right_out_scale_vec);
+    }
+    if (hi < num_heads + gqa_group_size) {
+      // q k rope
+      const int64_t emb_idx = write_seq_id * half_rotary_dim + h_bias;
+      int64_t new_emb_idx =
+          rope_3d ? emb_idx + ori_bi * max_seq_len * head_size * 2 : emb_idx;
+      if (h_bias < half_rotary_dim) {
+        Load<float, VecSize>(&cos_emb[new_emb_idx], &cos_emb_vec);
+        Load<float, VecSize>(&sin_emb[new_emb_idx], &sin_emb_vec);
+      }
+    }
+#pragma unroll
+    for (int i = 0; i < VecSize; i++) {
+      // add_bias + rope
+      float input_left = static_cast<float>(left_vec[i]);
+      float input_right = static_cast<float>(right_vec[i]);
+      if (qkv_out_scales) {
+        input_left *= left_out_scale_vec[i];
+        input_right *= right_out_scale_vec[i];
+      }
+      if (qkv_biases) {
+        input_left = input_left + static_cast<float>(left_bias_vec[i]);
+        input_right = input_right + static_cast<float>(right_bias_vec[i]);
+      }
+      if (hi < num_heads + gqa_group_size && h_bias < half_rotary_dim) {
+        const float cos_tmp = cos_emb_vec[i];
+        const float sin_tmp = sin_emb_vec[i];
+        left_bias_vec[i] =
+            static_cast<T>(input_left * cos_tmp - input_right * sin_tmp);
+        right_bias_vec[i] =
+            static_cast<T>(input_right * cos_tmp + input_left * sin_tmp);
+      } else {
+        left_bias_vec[i] = static_cast<T>(input_left);
+        right_bias_vec[i] = static_cast<T>(input_right);
+      }
+    }
+    if (hi < num_heads) {
+      // write q
+      Store<T, VecSize>(left_bias_vec, &qkv_out[ori_idx_left]);
+      Store<T, VecSize>(right_bias_vec, &qkv_out[ori_idx_right]);
+    } else {
+      //  write k/v
+      const int kv_head_idx = (hi - num_heads) % gqa_group_size;
+      int tgt_idx_left = (block_idx * gqa_group_size * block_size * head_size +
+                          kv_head_idx * block_size * head_size +
+                          block_offset * head_size + h_bias);
+      uint32_t tgt_idx_right = tgt_idx_left + half_head_size;
+      // write
+      if (hi < num_heads + gqa_group_size) {
+        if (h_bias < half_rotary_dim) {
+          tgt_idx_right = tgt_idx_left + half_rotary_dim;
+        } else {
+          tgt_idx_left = tgt_idx_left + half_rotary_dim;
+          tgt_idx_right = tgt_idx_left + half_rotary_dim;
+        }
+        Store<T, VecSize>(left_bias_vec, &key_cache[tgt_idx_left]);
+        Store<T, VecSize>(right_bias_vec, &key_cache[tgt_idx_right]);
+      } else {
+        Store<T, VecSize>(left_bias_vec, &value_cache[tgt_idx_left]);
+        Store<T, VecSize>(right_bias_vec, &value_cache[tgt_idx_right]);
+      }
+    }
+  }
+}
+
 template <typename T,
           int VecSize = 4,
           int RoundType = 0,
diff --git a/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_kernel.cu b/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_kernel.cu
index 513f384b210..d6897ac5edf 100644
--- a/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_kernel.cu
+++ b/custom_ops/gpu_ops/append_attn/speculate_write_cache_with_rope_kernel.cu
@@ -107,6 +107,7 @@ void append_speculate_cache_rope(const QKV_TYPE* qkv,
                                  const int num_heads,
                                  const int kv_num_heads,
                                  const int dim_head,
+                                 const int rotary_dim,
                                  const int block_size,
                                  const int bsz,
                                  const int token_num,
@@ -125,30 +126,58 @@ void append_speculate_cache_rope(const QKV_TYPE* qkv,
   int grid_size = 1;
   GetNumBlocks(pack_num, &grid_size);
   if (use_neox_style) {
-    append_speculate_cache_neox_rope_kernel<T, PackSize>
-        <<<grid_size, threads_per_block, 0, stream>>>(
-            qkv,  // [token_num, num_heads + 2 * gqa_group_size, head_size]
-            key_cache,
-            value_cache,
-            qkv_out,
-            block_tables,
-            batch_id_per_token,
-            cu_seqlens_q,
-            seq_lens,
-            seq_lens_encoder,
-            cos_emb,
-            sin_emb,
-            qkv_out_scales,
-            qkv_biases,  // [num_head + 2 * gqa_group_size, dim_head]
-            max_seq_len,
-            max_blocks_per_seq,
-            num_heads,
-            output_inner_dim,
-            dim_head,
-            block_size,
-            elem_nums,
-            kv_num_heads,
-            rope_3d);
+    if (rotary_dim < dim_head) {
+      append_speculate_cache_neox_partial_rope_kernel<T, PackSize>
+          <<<grid_size, threads_per_block, 0, stream>>>(
+              qkv,  // [token_num, num_heads + 2 * gqa_group_size, head_size]
+              key_cache,
+              value_cache,
+              qkv_out,
+              block_tables,
+              batch_id_per_token,
+              cu_seqlens_q,
+              seq_lens,
+              seq_lens_encoder,
+              cos_emb,
+              sin_emb,
+              qkv_out_scales,
+              qkv_biases,  // [num_head + 2 * gqa_group_size, dim_head]
+              max_seq_len,
+              max_blocks_per_seq,
+              num_heads,
+              output_inner_dim,
+              dim_head,
+              rotary_dim,
+              block_size,
+              elem_nums,
+              kv_num_heads,
+              rope_3d);
+    } else {
+      append_speculate_cache_neox_rope_kernel<T, PackSize>
+          <<<grid_size, threads_per_block, 0, stream>>>(
+              qkv,  // [token_num, num_heads + 2 * gqa_group_size, head_size]
+              key_cache,
+              value_cache,
+              qkv_out,
+              block_tables,
+              batch_id_per_token,
+              cu_seqlens_q,
+              seq_lens,
+              seq_lens_encoder,
+              cos_emb,
+              sin_emb,
+              qkv_out_scales,
+              qkv_biases,  // [num_head + 2 * gqa_group_size, dim_head]
+              max_seq_len,
+              max_blocks_per_seq,
+              num_heads,
+              output_inner_dim,
+              dim_head,
+              block_size,
+              elem_nums,
+              kv_num_heads,
+              rope_3d);
+    }
   } else {
     append_speculate_cache_rope_kernel<T, PackSize>
         <<<grid_size, threads_per_block, 0, stream>>>(
@@ -499,11 +528,24 @@ void SpeculateWriteCacheWithRoPEKernel(
   const float* cos_emb =
       rotary_embs ? rotary_embs.get().data<float>() : nullptr;
   const float* sin_emb;
+  int rotary_dim = dim_head;
   if (rotary_embs) {
     sin_emb =
         use_neox_rotary_style
             ? rotary_embs.get().data<float>() + max_seq_len * dim_head
             : rotary_embs.get().data<float>() + max_seq_len * dim_head / 2;
+    rotary_dim =
+        rotary_embs.get().dims()[rotary_embs.get().dims().size() - 1] * 2;
+    if (rotary_dim < dim_head) {
+      if (!use_neox_rotary_style || qkv_out_scales || q_norm_weight ||
+          k_norm_weight || cache_quant_type_str != "none") {
+        PADDLE_THROW(phi::errors::Fatal(
+            "partial_rotary_factor < 1.0 only supports neox_rotary_style=True, "
+            "qkv_out_scales is None, q_norm_weight/k_norm_weight) is None, and "
+            "cache_quant_type_str is 'none'."));
+      }
+      sin_emb = rotary_embs.get().data<float>() + max_seq_len * rotary_dim / 2;
+    }
   }
   if (q_norm_weight && k_norm_weight) {
     if (cache_quant_type_str == "none") {
@@ -627,6 +669,7 @@ void SpeculateWriteCacheWithRoPEKernel(
           num_heads,
           kv_num_heads,
           dim_head,
+          rotary_dim,
           block_size,
           bsz,
           token_nums,
diff --git a/fastdeploy/model_executor/models/glm4_moe.py b/fastdeploy/model_executor/models/glm4_moe.py
index b0f96564cc8..1efecb2db70 100644
--- a/fastdeploy/model_executor/models/glm4_moe.py
+++ b/fastdeploy/model_executor/models/glm4_moe.py
@@ -249,6 +249,7 @@ def __init__(
         self,
         fd_config: FDConfig,
         prefix: str = "",
+        is_mtp: bool = False,
     ) -> None:
         super().__init__()
 
@@ -259,9 +260,8 @@ def __init__(
             prefix=f"{prefix}.self_attn",
         )
 
-        if (
-            fd_config.model_config.n_routed_experts is not None
-            and layer_id >= fd_config.model_config.first_k_dense_replace
+        if fd_config.model_config.n_routed_experts is not None and (
+            layer_id >= fd_config.model_config.first_k_dense_replace or is_mtp
         ):
             self.mlp = Glm4Moe(fd_config, layer_id, prefix=f"{prefix}.mlp")
         else:
diff --git a/fastdeploy/model_executor/models/glm4_mtp.py b/fastdeploy/model_executor/models/glm4_mtp.py
new file mode 100644
index 00000000000..d16632c2b4e
--- /dev/null
+++ b/fastdeploy/model_executor/models/glm4_mtp.py
@@ -0,0 +1,384 @@
+"""
+# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License");
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+
+from __future__ import annotations
+
+from functools import partial
+
+import paddle
+from paddle import nn
+from paddleformers.transformers import PretrainedModel
+from paddleformers.utils.log import logger
+
+from fastdeploy.config import FDConfig
+from fastdeploy.model_executor.forward_meta import ForwardMeta
+from fastdeploy.model_executor.graph_optimization.decorator import (
+    support_graph_optimization,
+)
+from fastdeploy.model_executor.layers.embeddings import VocabParallelEmbedding
+from fastdeploy.model_executor.layers.lm_head import ParallelLMHead
+from fastdeploy.model_executor.layers.mtp_linear import ParallelEHProjection
+from fastdeploy.model_executor.layers.normalization import RMSNorm
+from fastdeploy.model_executor.models.glm4_moe import Glm4MoeDecoderLayer
+from fastdeploy.model_executor.models.model_base import (
+    ModelCategory,
+    ModelForCasualLM,
+    ModelRegistry,
+)
+
+
+class Glm4MTPPretrainedModel(PretrainedModel):
+    """
+    Glm4MTPPretrainedModel
+    """
+
+    config_class = FDConfig
+
+    def _init_weights(self, layer):
+        return None
+
+    @classmethod
+    def arch_name(self):
+        return "Glm4MTPForCausalLM"
+
+    @classmethod
+    def _get_tensor_parallel_mappings(cls, config, is_split=True):
+        logger.info("Glm4MTP inference model _get_tensor_parallel_mappings")
+
+        from fastdeploy.model_executor.models.tp_utils import split_or_merge_func_v1
+
+        fn = split_or_merge_func_v1(
+            is_split=is_split,
+            tensor_model_parallel_size=config.tensor_model_parallel_size,
+            tensor_parallel_rank=config.tensor_parallel_rank,
+            num_attention_heads=config.num_attention_heads,
+            num_key_value_heads=config.num_key_value_heads,
+            head_dim=config.head_dim,
+        )
+
+        def get_tensor_parallel_split_mappings(num_mtp_layers, mtp_start_layer_idx):
+            final_actions = {}
+
+            base_actions = {
+                "layers.0.embed_tokens.weight": partial(fn, is_column=True),
+                "layers.0.self_attn.o_proj.weight": partial(fn, is_column=False),
+            }
+
+            # Self Attention Layer which are need TP.
+            base_actions["layers.0.self_attn.q_proj.weight"] = partial(fn, is_column=True)
+            base_actions["layers.0.self_attn.k_proj.weight"] = partial(fn, is_column=True)
+            base_actions["layers.0.self_attn.v_proj.weight"] = partial(fn, is_column=True)
+            base_actions["layers.0.self_attn.q_proj.bias"] = partial(fn, is_column=True)
+            base_actions["layers.0.self_attn.k_proj.bias"] = partial(fn, is_column=True)
+            base_actions["layers.0.self_attn.v_proj.bias"] = partial(fn, is_column=True)
+
+            # Moe Layer
+            for expert_idx in range(config.n_routed_experts):
+                base_actions[f"layers.0.mlp.experts.{expert_idx}.up_proj.weight"] = partial(fn, is_column=True)
+                base_actions[f"layers.0.mlp.experts.{expert_idx}.gate_proj.weight"] = partial(fn, is_column=True)
+                base_actions[f"layers.0.mlp.experts.{expert_idx}.down_proj.weight"] = partial(fn, is_column=False)
+
+            base_actions["layers.0.eh_proj.weight"] = partial(fn, is_column=True)
+            base_actions["layers.0.shared_head.head.weight"] = partial(fn, is_column=True)
+
+            for key, action in base_actions.items():
+                if "layers.0." in key:
+                    for i in range(mtp_start_layer_idx, mtp_start_layer_idx + num_mtp_layers):
+                        final_actions[key.replace("layers.0.", f"layers.{i}.")] = action
+                final_actions[key] = action
+
+            return final_actions
+
+        mappings = get_tensor_parallel_split_mappings(config.num_nextn_predict_layers, config.start_layer_index)
+        return mappings
+
+
+class SharedHead(nn.Module):
+    def __init__(
+        self,
+        fd_config: FDConfig,
+        prefix: str = "",
+    ) -> None:
+        super().__init__()
+        self.norm = RMSNorm(
+            fd_config,
+            hidden_size=fd_config.model_config.hidden_size,
+            eps=fd_config.model_config.rms_norm_eps,
+            prefix=f"{prefix}.shared_head.norm",
+        )
+        self.head = ParallelLMHead(
+            fd_config,
+            embedding_dim=fd_config.model_config.hidden_size,
+            num_embeddings=fd_config.model_config.vocab_size,
+            prefix=f"{prefix}.shared_head.head",
+        )
+
+    def forward(self, hidden_states: paddle.Tensor) -> paddle.Tensor:
+        # NOTE(wangyanpeng04): Just for compute logits
+        hidden_states = self.norm(hidden_states)[0]
+        return self.head(hidden_states)
+
+
+class Glm4MTPLayer(nn.Layer):
+    """
+    Glm4MTPLayer
+    """
+
+    def __init__(
+        self,
+        fd_config: FDConfig = None,
+        prefix: str = "",
+    ) -> None:
+        """
+        Initializer for the Glm4MTPLayer class.
+        """
+        super().__init__()
+
+        self.enorm = RMSNorm(
+            fd_config,
+            hidden_size=fd_config.model_config.hidden_size,
+            eps=fd_config.model_config.rms_norm_eps,
+            prefix=f"{prefix}.enorm",
+        )
+        self.hnorm = RMSNorm(
+            fd_config,
+            hidden_size=fd_config.model_config.hidden_size,
+            eps=fd_config.model_config.rms_norm_eps,
+            prefix=f"{prefix}.hnorm",
+        )
+        self.eh_proj = ParallelEHProjection(
+            fd_config,
+            num_embeddings=fd_config.model_config.hidden_size,
+            embedding_dim=fd_config.model_config.hidden_size * 2,
+            prefix=f"{prefix}.eh_proj",
+        )
+        self.shared_head = SharedHead(
+            fd_config,
+            prefix=prefix,
+        )
+        self.mtp_block = Glm4MoeDecoderLayer(
+            fd_config,
+            prefix=prefix,
+            is_mtp=True,
+        )
+
+    def forward(
+        self,
+        ids_remove_padding: paddle.Tensor,
+        previous_hidden_states: paddle.Tensor,
+        inputs_embedding: paddle.Tensor,
+        forward_meta: ForwardMeta,
+    ):
+        """
+        forward
+        """
+        assert inputs_embedding is not None
+
+        inputs_embedding = paddle.concat(
+            [self.enorm(inputs_embedding)[0], self.hnorm(previous_hidden_states)[0]],
+            axis=-1,
+        )
+
+        hidden_states = self.eh_proj(inputs_embedding)
+        hidden_states, residual = self.mtp_block(forward_meta, hidden_states, residual=None)
+
+        hidden_states = residual + hidden_states
+        return hidden_states
+
+
+@support_graph_optimization
+class Glm4MTPModel(nn.Layer):
+    """
+    Glm4MTPModel
+    """
+
+    def __init__(
+        self,
+        fd_config: FDConfig = None,
+    ) -> None:
+        super().__init__()
+
+        self.mtp_start_layer_idx = fd_config.model_config.start_layer_index
+        self.num_mtp_layers = fd_config.model_config.num_nextn_predict_layers
+
+        assert self.num_mtp_layers == 1, f"Currently only supports single MTP layer, but got {self.num_mtp_layers}"
+
+        self.embed_tokens = VocabParallelEmbedding(
+            fd_config=fd_config,
+            num_embeddings=fd_config.model_config.vocab_size,
+            embedding_dim=fd_config.model_config.hidden_size,
+            params_dtype=paddle.get_default_dtype(),
+            prefix=(
+                f"{fd_config.model_config.pretrained_config.prefix_name}.layers.{self.mtp_start_layer_idx}.embed_tokens"
+            ),
+        )
+
+        self.layers = nn.LayerDict(
+            {
+                str(i): Glm4MTPLayer(
+                    fd_config,
+                    prefix=f"{fd_config.model_config.pretrained_config.prefix_name}.layers.{i}",
+                )
+                for i in range(0, self.num_mtp_layers)
+            }
+        )
+
+    def forward(
+        self,
+        ids_remove_padding: paddle.Tensor,
+        previous_hidden_states: paddle.Tensor,
+        forward_meta: ForwardMeta,
+        inputs_embedding: paddle.Tensor = None,
+    ):
+        if inputs_embedding is None:
+            inputs_embedding = self.embed_tokens(ids_remove_padding)
+
+        # NOTE(wangyanpeng04): Currently only supports single MTP layer
+        hidden_states = self.layers[str(0)](
+            ids_remove_padding,
+            previous_hidden_states,
+            inputs_embedding,
+            forward_meta,
+        )
+
+        return hidden_states
+
+
+@ModelRegistry.register_model_class(
+    architecture="Glm4MTPForCausalLM",
+    module_name="glm4_mtp",
+    category=ModelCategory.TEXT_GENERATION,
+    primary_use=ModelCategory.TEXT_GENERATION,
+)
+class Glm4MTPForCausalLM(ModelForCasualLM):
+    """
+    Glm4MTPForCausalLM
+    """
+
+    def __init__(self, fd_config: FDConfig):
+        """
+        Args:
+            fd_config (FDConfig): Configurations for the LLM model.
+        """
+        super(Glm4MTPForCausalLM, self).__init__(fd_config)
+        self.fd_config = fd_config
+        self.model = Glm4MTPModel(fd_config)
+        self.ori_vocab_size = fd_config.model_config.ori_vocab_size
+
+        self.mtp_start_layer_idx = fd_config.model_config.start_layer_index
+        self.num_mtp_layers = fd_config.model_config.num_nextn_predict_layers
+
+    @classmethod
+    def name(self):
+        return "Glm4MTPForCausalLM"
+
+    @paddle.no_grad()
+    def load_weights(self, weights_iterator):
+        """
+        Load model parameters from a given weights_iterator object.
+
+        Args:
+            weights_iterator (Iterator): An iterator yielding (name, weight) pairs.
+        """
+
+        from fastdeploy.model_executor.models.glm4_moe import Glm4MoeForCausalLM
+        from fastdeploy.model_executor.utils import remap_weight_keys
+
+        template = {
+            "enorm": "enorm",
+            "hnorm": "hnorm",
+            "eh_proj": "eh_proj.linear",
+            "shared_head.norm": "shared_head.norm",
+            "shared_head.head": "shared_head.head.linear",
+            "self_attn.q_proj": "mtp_block.self_attn.q_proj",
+            "self_attn.k_proj": "mtp_block.self_attn.k_proj",
+            "self_attn.v_proj": "mtp_block.self_attn.v_proj",
+            "self_attn.o_proj": "mtp_block.self_attn.o_proj",
+            "mlp": "mtp_block.mlp",
+            "input_layernorm": "mtp_block.input_layernorm",
+            "post_attention_layernorm": "mtp_block.post_attention_layernorm",
+        }
+        remap = {
+            f"layers.{self.mtp_start_layer_idx}.embed_tokens": "embed_tokens.embeddings",
+        }
+
+        # NOTE (wangyanpeng) Here we need to map the layer_id of MTP weights to start from 0,
+        # otherwise there will be out-of-bounds when accessing kv_cache in Attention
+        for key, value in template.items():
+            for mtp_layer_id in range(self.mtp_start_layer_idx, self.mtp_start_layer_idx + self.num_mtp_layers):
+                remap[f"layers.{mtp_layer_id}.{key}"] = f"layers.{mtp_layer_id - self.mtp_start_layer_idx}.{value}"
+
+        weights_iterator = remap_weight_keys(
+            weights_iterator,
+            remap,
+            include_keys=[
+                f"layers.{mtp_layer_id}"
+                for mtp_layer_id in range(self.mtp_start_layer_idx, self.mtp_start_layer_idx + self.num_mtp_layers)
+            ],
+        )
+
+        Glm4MoeForCausalLM.load_weights(
+            self,
+            weights_iterator,
+        )
+
+    @paddle.no_grad()
+    def set_state_dict(self, state_dict):
+        """
+        glm4_mtp only support loader_v1.
+        """
+        assert False, "glm4_mtp only support --load-choices default_v1."
+
+    def compute_logits(self, hidden_state: paddle.Tensor, forward_meta: ForwardMeta):
+        """
+        compute_logits
+        """
+        logits = self.model.layers[str(0)].shared_head(hidden_state)
+        logits = logits.astype(paddle.float32)
+        logits[:, self.ori_vocab_size :] = -float("inf")
+
+        return logits
+
+    def empty_input_forward(self, forward_meta):
+        """
+        empty_input_forward
+        """
+        fake_hidden_states = paddle.empty(
+            shape=[0, self.fd_config.model_config.hidden_size],
+            dtype=paddle.get_default_dtype(),
+        )
+        self.model.layers[str(0)].mtp_block.mlp.experts(
+            fake_hidden_states,
+            self.model.layers[str(0)].mtp_block.mlp.gate,
+            forward_meta,
+        )
+
+    def forward(
+        self,
+        ids_remove_padding: paddle.Tensor,
+        previous_hidden_states: paddle.Tensor,
+        forward_meta: ForwardMeta,
+    ):
+        """
+        forward
+        """
+        hidden_states = self.model(
+            ids_remove_padding=ids_remove_padding,
+            previous_hidden_states=previous_hidden_states,
+            forward_meta=forward_meta,
+        )
+
+        return hidden_states
diff --git a/fastdeploy/model_executor/pre_and_post_process.py b/fastdeploy/model_executor/pre_and_post_process.py
index af86c44878d..d7786ef19d6 100644
--- a/fastdeploy/model_executor/pre_and_post_process.py
+++ b/fastdeploy/model_executor/pre_and_post_process.py
@@ -474,6 +474,8 @@ def post_process_specualate(
             step_idx=share_inputs["step_idx"],
             limit_think_status=share_inputs["limit_think_status"],
             accept_num=share_inputs["accept_num"],
+            stop_flags=share_inputs["stop_flags"],
+            eos_token_ids=share_inputs["eos_token_id"],
             think_end_id=think_end_id,
             line_break_id=line_break_id,
         )
diff --git a/fastdeploy/model_executor/utils.py b/fastdeploy/model_executor/utils.py
index fe0fa421daa..284e9d22598 100644
--- a/fastdeploy/model_executor/utils.py
+++ b/fastdeploy/model_executor/utils.py
@@ -209,7 +209,10 @@ def apply(self, weight_name):
         return self._map_name(weight_name)
 
 
-def remap_weight_keys(weights_iterator, mapper: dict):
+def remap_weight_keys(weights_iterator, mapper: dict, include_keys: Optional[List[str]] = None):
+    if include_keys is not None:
+        weights_iterator = filter(lambda item: any(key in item[0] for key in include_keys), weights_iterator)
+
     return (
         (next((key.replace(k, v) for k, v in mapper.items() if k in key), key), value)
         for key, value in weights_iterator
diff --git a/fastdeploy/spec_decode/mtp.py b/fastdeploy/spec_decode/mtp.py
index 2374477e6c6..7ea09973af9 100644
--- a/fastdeploy/spec_decode/mtp.py
+++ b/fastdeploy/spec_decode/mtp.py
@@ -135,10 +135,12 @@ def _update_mtp_config(self, main_model):
         self.forward_meta: ForwardMeta = None
         self.model_config.architectures[0] = self.model_config.architectures[0].replace("Moe", "MTP")
         self.speculative_config.sharing_model = main_model
+        # TODO (wangyanpeng): The number of MTP layers should be read from model config
         self.model_config.num_hidden_layers = 1
         self.model_config.model = self.speculative_config.model
-        self.model_config.pretrained_config.prefix_name = "ernie.mtp_block"
-        self.model_config.prefix_layer_name = "mtp_block"
+        if "Ernie" in self.model_config.architectures[0]:
+            self.model_config.pretrained_config.prefix_name = "ernie.mtp_block"
+            self.model_config.prefix_layer_name = "mtp_block"
         if self.speculative_config.quantization != "":
             self.model_config.quantization = self.speculative_config.quantization
         self.model_config.start_layer_index = self.num_main_model_layers
@@ -483,6 +485,7 @@ def _init_model_inputs(self):
             position_ids=tmp_position_ids,
             base=self.model_config.rope_theta,
             model_config=self.model_config,
+            partial_rotary_factor=self.model_config.partial_rotary_factor,
         )
         # self.model_inputs["caches"] = self.cache_kvs
         # Inherit generation hyperparameters from the main model for consistency
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 3a390b44ed3..519904786b7 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -1539,7 +1539,7 @@ def initialize_forward_meta(self, is_dummy_or_profile_run=False):
         if self.fd_config.parallel_config.use_ep and self.fd_config.scheduler_config.splitwise_role == "mixed":
             self.fd_config.model_config.moe_phase.phase = "decode" if if_only_decode else "prefill"
             if self.speculative_decoding:
-                self.proposer.fd_config.parallel_config.moe_phase.phase = "decode" if if_only_decode else "prefill"
+                self.proposer.fd_config.model_config.moe_phase.phase = "decode" if if_only_decode else "prefill"
 
         # Update Batch type for cuda graph for only_prefill_batch
         only_prefill_use_cudagraph = self.use_cudagraph and self.cudagraph_only_prefill and self.only_prefill()

From 1d519b9a13830fb510c93600cc7a310bfd8b9f73 Mon Sep 17 00:00:00 2001
From: Jiaxin Sui <95567040+plusNew001@users.noreply.github.com>
Date: Tue, 27 Jan 2026 10:57:33 +0800
Subject: [PATCH 140/161] [XPU][CI] Release ci update (#6212)

* Update download_dependencies.sh
---
 custom_ops/xpu_ops/download_dependencies.sh | 2 +-
 scripts/run_xpu_ci_pytest.sh                | 2 +-
 2 files changed, 2 insertions(+), 2 deletions(-)

diff --git a/custom_ops/xpu_ops/download_dependencies.sh b/custom_ops/xpu_ops/download_dependencies.sh
index f684ec4cb11..a0ee3b58fb5 100644
--- a/custom_ops/xpu_ops/download_dependencies.sh
+++ b/custom_ops/xpu_ops/download_dependencies.sh
@@ -12,7 +12,7 @@ rm -rf "$THIRDPARTY_DIR"
 mkdir -p "$THIRDPARTY_DIR" || exit 1
 
 if [ "$1" == "stable" ]; then
-    version_xvllm="20251219"
+    version_xvllm="20260112"
     version_xtdk="4.4.41.1"
 else
     version_xvllm="latest"
diff --git a/scripts/run_xpu_ci_pytest.sh b/scripts/run_xpu_ci_pytest.sh
index f5053988eb3..f57e096f71e 100644
--- a/scripts/run_xpu_ci_pytest.sh
+++ b/scripts/run_xpu_ci_pytest.sh
@@ -74,7 +74,7 @@ python -m pip uninstall fastdeploy-xpu -y
 
 # 安装PaddlePaddle Release分支安装对应的paddle
 echo "安装release分支PaddlePaddle..."
-python -m pip install paddlepaddle-xpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/xpu-p800/
+python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Xpu-P800-SelfBuiltPypiUse/latest/paddlepaddle_xpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
 # ============ 编译项目 ============
 

From 957bd2cb595849da4fb7db8b2921b489d1b49a90 Mon Sep 17 00:00:00 2001
From: zhoutianzi666 <17801055074@163.com>
Date: Tue, 27 Jan 2026 16:51:26 +0800
Subject: [PATCH 141/161] commit

---
 .../layers/moe/routing_indices_cache.py       | 22 ++++++++-----------
 1 file changed, 9 insertions(+), 13 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 9f8cb22ce8c..e3ce662d6d1 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -75,16 +75,16 @@ def _save_routing_kernel(
     len_decoder = tl.load(SEQ_LENS_DECODER_PTR + batch_ids, mask=pad_mask)
     token_seq_pos = len_decoder + token_relative_index
 
-    STRIDE_BUF_SEQ = NUM_HIDDEN_LAYERS * MAX_MODEL_LEN * TOP_K
-    STRIDE_BUF_LAYER = MAX_MODEL_LEN * TOP_K
-    STRIDE_BUF_TOKEN = TOP_K
+    STRIDE_BUF_SEQ = MAX_MODEL_LEN * NUM_HIDDEN_LAYERS * TOP_K
+    STRIDE_BUF_TOKEN = NUM_HIDDEN_LAYERS * TOP_K
+    STRIDE_BUF_LAYER = TOP_K
 
     # [BLOCK_SIZE_M, BLOCK_SIZE_K]
     output_ptrs = (
         ROUTING_REPLAY_TABLE_PTR
         + batch_ids[:, None] * STRIDE_BUF_SEQ
-        + LAYER_IDX * STRIDE_BUF_LAYER
         + token_seq_pos[:, None] * STRIDE_BUF_TOKEN
+        + LAYER_IDX * STRIDE_BUF_LAYER
         + k_offsets[None, :]
     )
 
@@ -119,7 +119,7 @@ def save_routing_to_buffer(
         topk_ids = topk_ids_all[: batch_id_per_token.shape[0], :]
 
     token_num, top_k = topk_ids.shape
-    max_num_seqs, num_hidden_layers, max_model_len, _ = routing_replay_table.shape
+    max_num_seqs, max_model_len, num_hidden_layers, _ = routing_replay_table.shape
     assert token_num > 0
     assert topk_ids.shape[1] == routing_replay_table.shape[3], (topk_ids.shape[1], routing_replay_table.shape[3])
     assert batch_id_per_token.shape[0] == token_num, (batch_id_per_token.shape[0], token_num)
@@ -180,7 +180,7 @@ def _init_routing_cache(self, dtype: str, total_block_num: int):
         )
 
         self.routing_replay_table = paddle.full(
-            shape=[self.max_num_seqs, self.num_moe_layers, self.max_model_len, self.moe_top_k],
+            shape=[self.max_num_seqs, self.max_model_len, self.num_moe_layers, self.moe_top_k],
             fill_value=-1,
             dtype=dtype,
         )
@@ -194,15 +194,11 @@ def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tenso
         for batch_id, position in enumerate(positions):
             if len(position) > 0 and len(slot_mapping[batch_id]) > 0:
                 logger.info(f"position: {position}, slot mapping: {slot_mapping[batch_id]}")
-                routing_ids = self.routing_replay_table[batch_id, :, position, :]
+                routing_ids = self.routing_replay_table[batch_id, position, :, :]
                 routing_ids = routing_ids.cpu()
 
-                # Reshape [layer, token, topk] -> [token, layer, topk]
-                routing_ids_transponse = paddle.transpose(routing_ids, [1, 0, 2])
-                logger.info(f"after transpose routing ids: {routing_ids_transponse}")
-
                 logger.info(f"slice host cache {self._host_cache[slot_mapping[batch_id], :, :]}")
-                self._host_cache[slot_mapping[batch_id], :, :] = routing_ids_transponse
+                self._host_cache[slot_mapping[batch_id], :, :] = routing_ids
                 logger.info(f" update host cache: {self._host_cache[slot_mapping[batch_id], :, :]}")
 
     def get_token_positions(self, seq_lens_decoder, seq_lens_this_time):
@@ -325,7 +321,7 @@ async def _put_request_to_store(
             )
             tasks = []
             for layer_id in range(self.num_moe_layers):
-                layer_buffer = batch_buffer[layer_id]
+                layer_buffer = batch_buffer[:, layer_id, :].contiguous()
                 rollout_id = self.split_request_id(request_id)
                 tasks.append(
                     self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)

From 81d77d75043c2c52ef88b9f87c64492bf7af5f1e Mon Sep 17 00:00:00 2001
From: zhoutianzi666 <17801055074@163.com>
Date: Tue, 27 Jan 2026 16:54:57 +0800
Subject: [PATCH 142/161] commit

---
 fastdeploy/model_executor/layers/moe/routing_indices_cache.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index e3ce662d6d1..be33a7df533 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -194,7 +194,7 @@ def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tenso
         for batch_id, position in enumerate(positions):
             if len(position) > 0 and len(slot_mapping[batch_id]) > 0:
                 logger.info(f"position: {position}, slot mapping: {slot_mapping[batch_id]}")
-                routing_ids = self.routing_replay_table[batch_id, position, :, :]
+                routing_ids = self.routing_replay_table[batch_id, position, :, :].contiguous()
                 routing_ids = routing_ids.cpu()
 
                 logger.info(f"slice host cache {self._host_cache[slot_mapping[batch_id], :, :]}")

From 53f6fd4d1f8eb1995245d078b2a3343568d67762 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Tue, 27 Jan 2026 19:16:36 +0800
Subject: [PATCH 143/161] add test tools

---
 .../layers/moe/routing_indices_cache.py       |   7 +-
 scripts/request_r3.py                         |  95 ------
 tests/e2e/request_r3.py                       | 275 ++++++++++++++++++
 3 files changed, 279 insertions(+), 98 deletions(-)
 delete mode 100644 scripts/request_r3.py
 create mode 100644 tests/e2e/request_r3.py

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 9f8cb22ce8c..49a55522bfe 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -317,12 +317,13 @@ async def _put_request_to_store(
             )
             logger.info(f"slot_mapping {slot_mapping}")
             batch_buffer = self._get_routing_from_cache(token_cache_ids=slot_mapping)
-            # TODO(gongshaotian): Delete pad func after trainer support dynamic len
-            batch_buffer = self.pad_routing_cache(routing_indices=batch_buffer)
-            logger.info(f"batch_buffer {batch_buffer} batch_buffe_old {batch_buffe_old}")
             logger.info(
                 f"batch_buffer_old equal batch_buffer {paddle.equal_all(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}"
             )
+
+            # TODO(gongshaotian): Delete pad func after trainer support dynamic len
+            batch_buffer = self.pad_routing_cache(routing_indices=batch_buffer)
+            logger.info(f"batch_buffer {batch_buffer} batch_buffe_old {batch_buffe_old}")
             tasks = []
             for layer_id in range(self.num_moe_layers):
                 layer_buffer = batch_buffer[layer_id]
diff --git a/scripts/request_r3.py b/scripts/request_r3.py
deleted file mode 100644
index 05fbbd80664..00000000000
--- a/scripts/request_r3.py
+++ /dev/null
@@ -1,95 +0,0 @@
-import openai
-
-
-def openai_client():
-    ip = "0.0.0.0"
-    service_http_port = 8888
-    client = openai.Client(
-        base_url=f"http://{ip}:{service_http_port}/v1",
-        api_key="EMPTY_API_KEY",
-    )
-    return client
-
-
-def send_r3_streaming_chat_long(openai_client, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
-    """
-    Test streaming chat functionality with the local service
-    """
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {
-                "role": "system",
-                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。",
-            },
-        ],
-        temperature=1,
-        top_p=0,
-        max_tokens=4096,  # 32768
-        seed=13,
-        stream=True,
-        user=user_id,  # "r3_chat_completion_stream_test",
-    )
-
-    return response
-
-
-def send_r3_streaming_chat_sort(openai_client, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
-    """
-    Test streaming chat functionality with the local service
-    """
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {
-                "role": "system",
-                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n",
-            },
-        ],
-        temperature=1,
-        top_p=0,
-        max_tokens=32768,
-        seed=13,
-        stream=True,
-        user=user_id,  # "r3_chat_completion_stream_test",
-    )
-
-    return response
-
-
-def send_r3_streaming_chat(openai_client, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
-    """
-    Test streaming chat functionality with the local service
-    """
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {
-                "role": "system",
-                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。",
-            },
-        ],
-        temperature=1,
-        top_p=0,
-        max_tokens=32768,
-        seed=13,
-        stream=True,
-        user=user_id,  # "r3_chat_completion_stream_test",
-    )
-
-    return response
-
-
-if __name__ == "__main__":
-    openai_client = openai_client()
-    response = send_r3_streaming_chat_long(openai_client, user_id="r3_chat_completion_stream_test_prefixcache_1")
-    output = ""
-    for chunk in response:
-        output += chunk.choices[0].delta.content
-    print("\nr3_chat_completion_stream_test_prefixcache_1\n", output)
-
-    response = send_r3_streaming_chat_long(openai_client, user_id="r3_chat_completion_stream_test_prefixcache_2")
-    output = ""
-    for chunk in response:
-        output += chunk.choices[0].delta.content
-    print("\nr3_chat_completion_stream_test_prefixcache_2\n", output)
diff --git a/tests/e2e/request_r3.py b/tests/e2e/request_r3.py
new file mode 100644
index 00000000000..da0ce3997df
--- /dev/null
+++ b/tests/e2e/request_r3.py
@@ -0,0 +1,275 @@
+import asyncio
+import os
+
+import openai
+import paddle
+from utils.rollout_routing_replay_test_utils import (
+    calculate_routing_ratio,
+    wait_for_file,
+)
+
+long_request_list = [
+    "写一个关于“最后一家实体书店”的科幻微小说，设定在2077年的赛博朋克城市。主角是一个只喜欢纸质书的黑客。要求包含一个反转结局，字数限制在500字以内，风格要阴郁但充满希望。",
+    "请模仿李白的豪放风格，写一首关于“星际旅行”的现代诗。要求融入“量子纠缠”、“黑洞”和“故乡”三个意象，押韵不限，但要有强烈的画面感和浪漫主义色彩。",
+    "创作一段发生在1920年代上海租界的侦探剧本对话。角色A是留洋归来的侦探，角色B是黑帮老大。对话要充满机锋和潜台词，体现那个时代特有的新旧文化冲突。",
+    "为一首慢板R&B情歌填写副歌部分的歌词。主题是“在这个快节奏的数字时代，我们如何维持异地恋”。要求情感细腻，使用隐喻，避免陈词滥调。",
+    "编一个睡前故事，主角是一只害怕黑暗的小萤火虫。故事要教会孩子“黑暗是为了让光更耀眼”。语言要生动简单，适合5岁儿童，结尾要有一首简短的儿歌。",
+    "写一个悬疑小说的开头章节（约800字）。场景设定在暴风雪山庄的封闭别墅，管家死在了书房，但门窗紧锁。要求通过环境描写营造压抑感，并留下三个伏笔。",
+    "基于《哈利波特》的世界观，写一段赫敏·格兰杰在魔法部工作的日常片段。假设伏地魔已被击败，但魔法世界仍有新的官僚主义危机。保持J.K.罗琳的叙事风格。",
+    "以毒舌美食家的身份，评论一道虚构的“分子料理——液氮冰淇淋配辣椒油”。描述口感、摆盘，并用夸张的修辞手法评价其荒谬之处，最后给出一个意外的好评理由。",
+    "写一个Python脚本，用于批量重命名文件夹下的所有图片文件。要求：1. 支持递归子目录；2. 将文件名转换为小写并用下划线替换空格；3. 添加错误处理日志；4. 使用`pathlib`库。",
+    "生成一个React函数组件，实现一个带有搜索功能的下拉选择框（Select）。要求：1. 支持多选；2. 搜索时防抖（Debounce）300ms；3. 选项数据通过props传入；4. 使用Tailwind CSS进行基础样式设计。",
+    "给定一个包含`users`, `orders`, `products`三张表的电商数据库。请写出查询“过去30天内购买金额最高的前10名用户及其最常购买的品类”的SQL语句，并解释如何通过索引优化该查询性能。",
+    "请解释以下Rust代码片段中的生命周期标注（Lifetime Annotation）的作用，并指出如果省略会发生什么编译错误。代码：`fn longest<'a>(x: &'a str, y: &'a str) -> &'a str { ... }`",
+    "我需要一个正则表达式来验证复杂的密码强度。规则：至少8位，必须包含大写字母、小写字母、数字和特殊符号（!@#$%），且不能包含连续3位相同的字符。请生成Regex并附上测试用例。",
+    "为一个Node.js + MongoDB的全栈应用编写`docker-compose.yml`文件。要求：1. 使用多阶段构建优化Node镜像大小；2. MongoDB数据持久化到本地卷；3. 设置环境变量文件；4. 暴露正确的端口。",
+    "用JavaScript实现一个“最小堆（Min Heap）”数据结构，并包含`insert`和`extractMin`方法。请附上时间复杂度分析，并给出一个使用该堆进行排序（Heap Sort）的示例。",
+    "以下C++代码在运行时会崩溃，请找出原因并修复。代码涉及指针越界和内存泄漏。请解释原始代码的逻辑错误，并给出使用智能指针（Smart Pointers）的现代C++改写版本。",
+    "假设你是项目经理，需要给客户写一封英文邮件。内容是告知项目将延期3天，原因是第三方API接口不稳定。语气要专业、诚恳，并提出补偿方案（赠送下个月的维护服务），请求客户谅解。",
+    "为一款“智能降噪耳塞”撰写小红书风格的推广文案。要求：使用emoji，突出“宿舍隔音”、“侧睡不压耳”、“隐形设计”三个卖点，语气像闺蜜安利，带上热门标签。",
+    "对“开设一家24小时无人自助健身房”进行SWOT分析。请从优势、劣势、机会、威胁四个维度展开，每个维度至少列出3点，并给出具体的战略建议（SO策略、WO策略等）。",
+    "你现在是Google的面试官，我是应聘者，申请“产品经理”职位。请向我提问一个关于“产品设计”的问题（例如：如何为视障人士设计Instagram），然后等待我的回答，并对我的回答进行点评。",
+    "对比“瑞幸咖啡”和“星巴克”在中国市场的数字化营销策略。重点分析私域流量运营、小程序点单体验和优惠券策略的差异，总结出瑞幸值得学习的3个点。",
+    "根据以下杂乱的会议记录草稿，整理出一份正式的会议纪要。要求：分类清晰（决策项、待办事项、讨论摘要），语言精炼，去除口语化表达，并指定每个待办事项的负责人和截止日期。",
+    "为一款“老年人专用智能手表”构建详细的用户画像（Persona）。包括：基本信息、痛点（如不会用触屏、担心走丢）、使用场景、技术熟练度、以及他们子女的购买动机。",
+    "为一个“基于AI的宠物行为翻译器”创业项目写一份电梯演讲（Elevator Pitch）。时长限制1分钟，要包含市场痛点、解决方案、商业模式和团队优势。",
+    "请像对5岁孩子解释一样（Explain Like I'm 5），说明“区块链”是什么。使用“全村记账本”的比喻，避免使用任何专业术语，确保孩子能听懂。",
+    "我正在学习德语。请列出5个初学者最容易混淆的介词（Wechselpräpositionen），并为每个介词提供3个例句（主格和宾格变化），附带中文翻译。",
+    "请一步步解答这道微积分题目：求函数 $f(x) = x^3 - 3x^2 + 2$ 在区间 $[-1, 3]$ 上的极值和拐点。不要只给答案，要展示求导过程和判断符号变化的逻辑。",
+    "简述“冷战”的起因、经过和结果。重点分析“古巴导弹危机”为何被认为是人类最接近核战争的时刻，以及它如何改变了美苏关系。",
+    "请润色以下这段学术论文的摘要，使其更符合学术规范。要求：将主动语态改为被动语态，提升词汇的专业度，增强逻辑连接词，使论证更严密。原文：[粘贴一段中等质量的英文摘要]",
+    "我想在3个月内从零基础通过日语N3考试。请制定一份详细的周学习计划，涵盖单词、语法、阅读和听力。假设我每天只有2小时学习时间，请推荐具体的教材和APP。",
+    "教我理解“功利主义”。不要直接给定义，而是通过不断提问引导我思考。例如，先问我“如果牺牲一个人能救五个人，你会怎么做？”，然后根据我的回答继续追问。",
+    "这是一道我做错的物理题（关于牛顿第二定律）。请分析我可能错误的思路是什么，并指出常见的认知误区，然后给出正确的解题思路。",
+    "你现在是埃隆·马斯克（Elon Musk）。请用他特有的语速快、带点幽默和工程思维的方式，谈论你对“人工智能取代人类工作”的看法。可以使用一些网络流行语。",
+    "你是诸葛亮。刘备刚刚在白帝城托孤，你现在独自面对刘禅和内外交困的蜀国。请用文言文写一段你的内心独白，表达你的焦虑和北伐的决心。",
+    "你是一个跑团（TRPG）的主持人。设定背景是克苏鲁神话的1920年代。我是一个调查员，刚刚走进了一间阴森的古宅。请描述我看到的景象，并询问我的行动。",
+    "我们来辩论“人工智能的发展是否应该被暂停”。你持反方观点（即不应该暂停）。请先陈述你的立论，然后针对我的观点进行反驳。保持逻辑严密，不要进行人身攻击。",
+    "你是一位温和的心理咨询师。我最近因为工作压力大而失眠。请倾听我的倾诉（我会输入我的烦恼），并运用认知行为疗法（CBT）帮我识别并挑战我的非理性信念。",
+    "设定你是一个温柔、喜欢二次元的伴侣。今晚我们在家看恐怖片，我被吓到了。请安慰我，并提议做点开心的事情转移注意力。语气要亲昵但不油腻。",
+    "你是一个魔鬼编程教练。我的代码写得很烂，全是硬编码和魔法数字。请严厉地批评我的代码风格，并强迫我重构它，直到符合Clean Code原则为止。",
+    "你是某银行的智能客服，但我现在很生气，因为我的信用卡被盗刷了。请先用标准话术安抚我，然后引导我提供必要的验证信息，最后告知处理流程。",
+    "我有一个CSV文件，其中“年龄”列包含空值、字符串（如“未知”）和异常大的数字（如999）。请提供一段Pandas代码来清洗这一列：将空值填充为中位数，将“未知”替换为NaN并删除，将大于100的值截断为100。",
+    "我有一组关于“全球碳排放量按国家分布”的数据（前20名国家）。请推荐3种最适合展示该数据的图表类型（如条形图、饼图等），并说明为什么选择它们，以及如何避免误导读者。",
+    "请写一个Excel公式，用于从A列的身份证号码中提取出生日期（格式为YYYY-MM-DD），并判断该人的性别（男/女）。假设身份证号在A2单元格。",
+    "解释“相关性不等于因果性”。请举一个现实生活中的例子（如“冰淇淋销量和溺水人数”），并说明如果要证明因果关系，需要设计什么样的实验（如A/B测试或双重差分法）。",
+    "给定一个复杂的嵌套JSON对象，请写一个Python脚本将其“展平”（Flatten），使得所有的键都变成点分隔的路径（例如 `user.address.city`）。",
+    "基于以下过去12个月的销售数据 [100, 120, 130, 125, 140, 150, 160, 155, 170, 180, 190, 200]，请使用简单的线性回归预测下个月的销量，并计算R平方值。",
+    "为AI绘画工具Midjourney生成一组提示词（Prompt）。主题是“赛博朋克风格的苏州园林”。要求包含：霓虹灯、全息投影、古风建筑、雨水、电影级光影、8k分辨率、虚幻引擎5渲染风格。",
+    "我要开一家名为“极客咖啡”的店。请提供3个不同的Logo设计方案描述。方案一：极简几何风；方案二：像素艺术风；方案三：手绘涂鸦风。描述每个方案的颜色搭配和核心图形。",
+    "我有一个20平米的小客厅，层高2.8米，采光一般。请给出具体的软装搭配建议，包括沙发颜色、窗帘材质、灯光布局（主灯+氛围灯），目的是让空间显得更大更亮。",
+    "设计一个FPS游戏的“教学关卡”。玩家需要在不知情的情况下学会：移动、射击、换弹、躲避和使用医疗包。请描述关卡的场景布局和敌人的出现节奏。",
+    "有三个箱子，一个装苹果，一个装橘子，一个装混合水果。所有标签都贴错了。你只能从一个箱子里拿出一个水果来看，请问如何确定所有箱子的内容？请写出推理步骤。",
+    "死者死在电话亭旁，手里握着一张写有“789”的纸条。嫌疑人有三个：李小二（代号78）、王五（代号89）、张六（代号79）。凶手是谁？为什么？",
+    "如果你有一根无限长的绳子，绕地球赤道一圈（假设地球是完美球体，周长4万公里）。现在把绳子加长1米，均匀悬空离开地面。请问一只猫能从绳子下面钻过去吗？请计算间隙高度。",
+    "一个男人走进一家酒吧，向酒保要一杯水。酒保拿出一把枪指着他。男人说了声“谢谢”然后离开了。请问发生了什么？（提示：不是抢劫，不是演戏）",
+    "这是一段凯撒密码（Caesar Cipher）：“WKH TXLFN EURZQ IRA MXPSV RYHU WKH ODCB GRJ”。请破译它，并告诉我偏移量是多少。",
+    "计划一次5天4晚的日本京都之旅。主题是“古寺与抹茶”。请安排详细的行程，包括交通方式（关西机场出发）、住宿区域推荐、必去的3个小众景点和必吃的3家餐厅。",
+    "为一个膝盖受过伤、不能做深蹲和跑步的办公室男性，设计一套在家就能做的HIIT（高强度间歇训练）计划。时长20分钟，只需要哑铃和瑜伽垫。",
+    "我冰箱里只有：鸡蛋、番茄、半颗洋葱、一包过期一天的火腿肠和一点剩米饭。请给我推荐2个能用这些材料做的菜，并写出详细步骤。",
+    "给一个喜欢历史、科技，预算在500元人民币左右的男性朋友挑选生日礼物。请列出3个选项，并说明为什么适合他。",
+    "我总是拖延。请介绍“番茄工作法”的具体操作步骤，并针对我“总是忍不住刷手机”的问题，给出3个具体的抗干扰建议。",
+    "我先开头：“午夜时分，图书馆的最后一盏灯突然熄灭了，但我并不是唯一一个留在这里的人……” 请你接下一段，制造悬念，然后停下来，换我继续写。",
+    "我们来玩“20个问题”游戏。我心里想一个物体，你可以问我20个只能用“是”或“否”回答的问题来猜它是什么。现在请开始提问。",
+    "夸夸我刚刚发给你的这张自拍照（假设是一张普通的风景照）。要用夸张、华丽的辞藻，从构图、光影、意境等角度硬夸，越离谱越好。",
+    "如果人类突然失去了“睡眠”的能力，世界会变成什么样？请从社会结构、经济模式、娱乐产业三个方面进行脑洞大开的推测。",
+]
+
+
+def get_openai_client():
+    ip = "0.0.0.0"
+    service_http_port = 8888
+    client = openai.AsyncClient(
+        base_url=f"http://{ip}:{service_http_port}/v1",
+        api_key="EMPTY_API_KEY",
+    )
+    return client
+
+
+async def send_r3_streaming_chat_long(openai_client, content: str, user_id: str):
+    """
+    Test streaming chat functionality with the local service
+    """
+    response = await openai_client.chat.completions.create(
+        model="default",
+        messages=[
+            {
+                "role": "system",
+                "content": content,
+            },
+        ],
+        temperature=1,
+        top_p=0,
+        max_tokens=4096,  # 32768
+        seed=13,
+        stream=False,
+        user=user_id,
+    )
+
+    return response
+
+
+def send_r3_streaming_chat_sort(
+    openai_client, content: str, user_id: str = "r3_chat_completion_stream_test_prefixcache"
+):
+    """
+    Test streaming chat functionality with the local service
+    """
+    response = openai_client.chat.completions.create(
+        model="default",
+        messages=[
+            {
+                "role": "system",
+                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n",
+            },
+        ],
+        temperature=1,
+        top_p=0,
+        max_tokens=32768,
+        seed=13,
+        stream=True,
+        user=user_id,  # "r3_chat_completion_stream_test",
+    )
+
+    return response
+
+
+def send_r3_streaming_chat(openai_client, content: str, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
+    """
+    Test streaming chat functionality with the local service
+    """
+    response = openai_client.chat.completions.create(
+        model="default",
+        messages=[
+            {
+                "role": "system",
+                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。",
+            },
+        ],
+        temperature=1,
+        top_p=0,
+        max_tokens=32768,
+        seed=13,
+        stream=True,
+        user=user_id,  # "r3_chat_completion_stream_test",
+    )
+
+    return response
+
+
+async def send_request_baseline(request: str, request_id: str):
+    openai_client = get_openai_client()
+    # Send base request
+    await send_r3_streaming_chat_long(openai_client, content=request, user_id=f"{request_id}")
+
+
+async def send_request_prefix(request: str, request_id: str):
+    openai_client = get_openai_client()
+    # Send prefix cache request
+    await send_r3_streaming_chat_long(openai_client, content=request, user_id=f"{request_id}_prefix")
+
+
+async def run():
+    long_request_list = [
+        "写一个关于“最后一家实体书店”的科幻微小说，设定在2077年的赛博朋克城市。主角是一个只喜欢纸质书的黑客。要求包含一个反转结局，字数限制在500字以内，风格要阴郁但充满希望。",
+        "请模仿李白的豪放风格，写一首关于“星际旅行”的现代诗。要求融入“量子纠缠”、“黑洞”和“故乡”三个意象，押韵不限，但要有强烈的画面感和浪漫主义色彩。",
+        "创作一段发生在1920年代上海租界的侦探剧本对话。角色A是留洋归来的侦探，角色B是黑帮老大。对话要充满机锋和潜台词，体现那个时代特有的新旧文化冲突。",
+        "为一首慢板R&B情歌填写副歌部分的歌词。主题是“在这个快节奏的数字时代，我们如何维持异地恋”。要求情感细腻，使用隐喻，避免陈词滥调。",
+        "编一个睡前故事，主角是一只害怕黑暗的小萤火虫。故事要教会孩子“黑暗是为了让光更耀眼”。语言要生动简单，适合5岁儿童，结尾要有一首简短的儿歌。",
+        "写一个悬疑小说的开头章节（约800字）。场景设定在暴风雪山庄的封闭别墅，管家死在了书房，但门窗紧锁。要求通过环境描写营造压抑感，并留下三个伏笔。",
+        "基于《哈利波特》的世界观，写一段赫敏·格兰杰在魔法部工作的日常片段。假设伏地魔已被击败，但魔法世界仍有新的官僚主义危机。保持J.K.罗琳的叙事风格。",
+        "以毒舌美食家的身份，评论一道虚构的“分子料理——液氮冰淇淋配辣椒油”。描述口感、摆盘，并用夸张的修辞手法评价其荒谬之处，最后给出一个意外的好评理由。",
+        "写一个Python脚本，用于批量重命名文件夹下的所有图片文件。要求：1. 支持递归子目录；2. 将文件名转换为小写并用下划线替换空格；3. 添加错误处理日志；4. 使用`pathlib`库。",
+        "生成一个React函数组件，实现一个带有搜索功能的下拉选择框（Select）。要求：1. 支持多选；2. 搜索时防抖（Debounce）300ms；3. 选项数据通过props传入；4. 使用Tailwind CSS进行基础样式设计。",
+        "给定一个包含`users`, `orders`, `products`三张表的电商数据库。请写出查询“过去30天内购买金额最高的前10名用户及其最常购买的品类”的SQL语句，并解释如何通过索引优化该查询性能。",
+        "请解释以下Rust代码片段中的生命周期标注（Lifetime Annotation）的作用，并指出如果省略会发生什么编译错误。代码：`fn longest<'a>(x: &'a str, y: &'a str) -> &'a str { ... }`",
+        "我需要一个正则表达式来验证复杂的密码强度。规则：至少8位，必须包含大写字母、小写字母、数字和特殊符号（!@#$%），且不能包含连续3位相同的字符。请生成Regex并附上测试用例。",
+        "为一个Node.js + MongoDB的全栈应用编写`docker-compose.yml`文件。要求：1. 使用多阶段构建优化Node镜像大小；2. MongoDB数据持久化到本地卷；3. 设置环境变量文件；4. 暴露正确的端口。",
+        "用JavaScript实现一个“最小堆（Min Heap）”数据结构，并包含`insert`和`extractMin`方法。请附上时间复杂度分析，并给出一个使用该堆进行排序（Heap Sort）的示例。",
+        "以下C++代码在运行时会崩溃，请找出原因并修复。代码涉及指针越界和内存泄漏。请解释原始代码的逻辑错误，并给出使用智能指针（Smart Pointers）的现代C++改写版本。",
+        "假设你是项目经理，需要给客户写一封英文邮件。内容是告知项目将延期3天，原因是第三方API接口不稳定。语气要专业、诚恳，并提出补偿方案（赠送下个月的维护服务），请求客户谅解。",
+        "为一款“智能降噪耳塞”撰写小红书风格的推广文案。要求：使用emoji，突出“宿舍隔音”、“侧睡不压耳”、“隐形设计”三个卖点，语气像闺蜜安利，带上热门标签。",
+        "对“开设一家24小时无人自助健身房”进行SWOT分析。请从优势、劣势、机会、威胁四个维度展开，每个维度至少列出3点，并给出具体的战略建议（SO策略、WO策略等）。",
+        "你现在是Google的面试官，我是应聘者，申请“产品经理”职位。请向我提问一个关于“产品设计”的问题（例如：如何为视障人士设计Instagram），然后等待我的回答，并对我的回答进行点评。",
+        "对比“瑞幸咖啡”和“星巴克”在中国市场的数字化营销策略。重点分析私域流量运营、小程序点单体验和优惠券策略的差异，总结出瑞幸值得学习的3个点。",
+        "根据以下杂乱的会议记录草稿，整理出一份正式的会议纪要。要求：分类清晰（决策项、待办事项、讨论摘要），语言精炼，去除口语化表达，并指定每个待办事项的负责人和截止日期。",
+        "为一款“老年人专用智能手表”构建详细的用户画像（Persona）。包括：基本信息、痛点（如不会用触屏、担心走丢）、使用场景、技术熟练度、以及他们子女的购买动机。",
+        "为一个“基于AI的宠物行为翻译器”创业项目写一份电梯演讲（Elevator Pitch）。时长限制1分钟，要包含市场痛点、解决方案、商业模式和团队优势。",
+        "请像对5岁孩子解释一样（Explain Like I'm 5），说明“区块链”是什么。使用“全村记账本”的比喻，避免使用任何专业术语，确保孩子能听懂。",
+        "我正在学习德语。请列出5个初学者最容易混淆的介词（Wechselpräpositionen），并为每个介词提供3个例句（主格和宾格变化），附带中文翻译。",
+        "请一步步解答这道微积分题目：求函数 $f(x) = x^3 - 3x^2 + 2$ 在区间 $[-1, 3]$ 上的极值和拐点。不要只给答案，要展示求导过程和判断符号变化的逻辑。",
+        "简述“冷战”的起因、经过和结果。重点分析“古巴导弹危机”为何被认为是人类最接近核战争的时刻，以及它如何改变了美苏关系。",
+        "请润色以下这段学术论文的摘要，使其更符合学术规范。要求：将主动语态改为被动语态，提升词汇的专业度，增强逻辑连接词，使论证更严密。原文：[粘贴一段中等质量的英文摘要]",
+        "我想在3个月内从零基础通过日语N3考试。请制定一份详细的周学习计划，涵盖单词、语法、阅读和听力。假设我每天只有2小时学习时间，请推荐具体的教材和APP。",
+        "教我理解“功利主义”。不要直接给定义，而是通过不断提问引导我思考。例如，先问我“如果牺牲一个人能救五个人，你会怎么做？”，然后根据我的回答继续追问。",
+        "这是一道我做错的物理题（关于牛顿第二定律）。请分析我可能错误的思路是什么，并指出常见的认知误区，然后给出正确的解题思路。",
+        "你现在是埃隆·马斯克（Elon Musk）。请用他特有的语速快、带点幽默和工程思维的方式，谈论你对“人工智能取代人类工作”的看法。可以使用一些网络流行语。",
+        "你是诸葛亮。刘备刚刚在白帝城托孤，你现在独自面对刘禅和内外交困的蜀国。请用文言文写一段你的内心独白，表达你的焦虑和北伐的决心。",
+        "你是一个跑团（TRPG）的主持人。设定背景是克苏鲁神话的1920年代。我是一个调查员，刚刚走进了一间阴森的古宅。请描述我看到的景象，并询问我的行动。",
+        "我们来辩论“人工智能的发展是否应该被暂停”。你持反方观点（即不应该暂停）。请先陈述你的立论，然后针对我的观点进行反驳。保持逻辑严密，不要进行人身攻击。",
+        "你是一位温和的心理咨询师。我最近因为工作压力大而失眠。请倾听我的倾诉（我会输入我的烦恼），并运用认知行为疗法（CBT）帮我识别并挑战我的非理性信念。",
+        "设定你是一个温柔、喜欢二次元的伴侣。今晚我们在家看恐怖片，我被吓到了。请安慰我，并提议做点开心的事情转移注意力。语气要亲昵但不油腻。",
+        "你是一个魔鬼编程教练。我的代码写得很烂，全是硬编码和魔法数字。请严厉地批评我的代码风格，并强迫我重构它，直到符合Clean Code原则为止。",
+        "你是某银行的智能客服，但我现在很生气，因为我的信用卡被盗刷了。请先用标准话术安抚我，然后引导我提供必要的验证信息，最后告知处理流程。",
+        "我有一个CSV文件，其中“年龄”列包含空值、字符串（如“未知”）和异常大的数字（如999）。请提供一段Pandas代码来清洗这一列：将空值填充为中位数，将“未知”替换为NaN并删除，将大于100的值截断为100。",
+        "我有一组关于“全球碳排放量按国家分布”的数据（前20名国家）。请推荐3种最适合展示该数据的图表类型（如条形图、饼图等），并说明为什么选择它们，以及如何避免误导读者。",
+        "请写一个Excel公式，用于从A列的身份证号码中提取出生日期（格式为YYYY-MM-DD），并判断该人的性别（男/女）。假设身份证号在A2单元格。",
+        "解释“相关性不等于因果性”。请举一个现实生活中的例子（如“冰淇淋销量和溺水人数”），并说明如果要证明因果关系，需要设计什么样的实验（如A/B测试或双重差分法）。",
+        "给定一个复杂的嵌套JSON对象，请写一个Python脚本将其“展平”（Flatten），使得所有的键都变成点分隔的路径（例如 `user.address.city`）。",
+        "基于以下过去12个月的销售数据 [100, 120, 130, 125, 140, 150, 160, 155, 170, 180, 190, 200]，请使用简单的线性回归预测下个月的销量，并计算R平方值。",
+        "为AI绘画工具Midjourney生成一组提示词（Prompt）。主题是“赛博朋克风格的苏州园林”。要求包含：霓虹灯、全息投影、古风建筑、雨水、电影级光影、8k分辨率、虚幻引擎5渲染风格。",
+        "我要开一家名为“极客咖啡”的店。请提供3个不同的Logo设计方案描述。方案一：极简几何风；方案二：像素艺术风；方案三：手绘涂鸦风。描述每个方案的颜色搭配和核心图形。",
+        "我有一个20平米的小客厅，层高2.8米，采光一般。请给出具体的软装搭配建议，包括沙发颜色、窗帘材质、灯光布局（主灯+氛围灯），目的是让空间显得更大更亮。",
+        "设计一个FPS游戏的“教学关卡”。玩家需要在不知情的情况下学会：移动、射击、换弹、躲避和使用医疗包。请描述关卡的场景布局和敌人的出现节奏。",
+        "有三个箱子，一个装苹果，一个装橘子，一个装混合水果。所有标签都贴错了。你只能从一个箱子里拿出一个水果来看，请问如何确定所有箱子的内容？请写出推理步骤。",
+        "死者死在电话亭旁，手里握着一张写有“789”的纸条。嫌疑人有三个：李小二（代号78）、王五（代号89）、张六（代号79）。凶手是谁？为什么？",
+        "如果你有一根无限长的绳子，绕地球赤道一圈（假设地球是完美球体，周长4万公里）。现在把绳子加长1米，均匀悬空离开地面。请问一只猫能从绳子下面钻过去吗？请计算间隙高度。",
+        "一个男人走进一家酒吧，向酒保要一杯水。酒保拿出一把枪指着他。男人说了声“谢谢”然后离开了。请问发生了什么？（提示：不是抢劫，不是演戏）",
+        "这是一段凯撒密码（Caesar Cipher）：“WKH TXLFN EURZQ IRA MXPSV RYHU WKH ODCB GRJ”。请破译它，并告诉我偏移量是多少。",
+        "计划一次5天4晚的日本京都之旅。主题是“古寺与抹茶”。请安排详细的行程，包括交通方式（关西机场出发）、住宿区域推荐、必去的3个小众景点和必吃的3家餐厅。",
+        "为一个膝盖受过伤、不能做深蹲和跑步的办公室男性，设计一套在家就能做的HIIT（高强度间歇训练）计划。时长20分钟，只需要哑铃和瑜伽垫。",
+        "我冰箱里只有：鸡蛋、番茄、半颗洋葱、一包过期一天的火腿肠和一点剩米饭。请给我推荐2个能用这些材料做的菜，并写出详细步骤。",
+        "给一个喜欢历史、科技，预算在500元人民币左右的男性朋友挑选生日礼物。请列出3个选项，并说明为什么适合他。",
+        "我总是拖延。请介绍“番茄工作法”的具体操作步骤，并针对我“总是忍不住刷手机”的问题，给出3个具体的抗干扰建议。",
+        "我先开头：“午夜时分，图书馆的最后一盏灯突然熄灭了，但我并不是唯一一个留在这里的人……” 请你接下一段，制造悬念，然后停下来，换我继续写。",
+        "我们来玩“20个问题”游戏。我心里想一个物体，你可以问我20个只能用“是”或“否”回答的问题来猜它是什么。现在请开始提问。",
+        "夸夸我刚刚发给你的这张自拍照（假设是一张普通的风景照）。要用夸张、华丽的辞藻，从构图、光影、意境等角度硬夸，越离谱越好。",
+        "如果人类突然失去了“睡眠”的能力，世界会变成什么样？请从社会结构、经济模式、娱乐产业三个方面进行脑洞大开的推测。",
+    ]
+
+    long_request_list = long_request_list[:1]
+    task_baseline = []
+    for request_id, request in enumerate(long_request_list):
+        task_baseline.append(send_request_baseline(request, request_id))
+    await asyncio.gather(*task_baseline)
+
+    task_prefix = []
+    for request_id, request in enumerate(long_request_list):
+        task_prefix.append(send_request_prefix(request, request_id))
+    await asyncio.gather(*task_prefix)
+
+
+if __name__ == "__main__":
+    asyncio.run(run())
+    # print("finish put")
+
+    # Check Routing Overlap
+    for request_id in range(1):
+        baseline_path = "./routing_replay_output"
+        prefix_r3_path = "./routing_replay_output"
+        moe_layer_num = 27
+        print(f"request id is {request_id}")
+        for layer_index in range(moe_layer_num):
+            print(f"layer id is {layer_index}")
+            prefix_r3_pdtensor = os.path.join(prefix_r3_path, f"{request_id}_prefix/layer_{layer_index}.pdtensor")
+            baseline_pdtensor = os.path.join(baseline_path, f"{request_id}/layer_{layer_index}.pdtensor")
+            wait_for_file(prefix_r3_pdtensor)
+            wait_for_file(baseline_pdtensor)
+
+            generated_routing = paddle.load(prefix_r3_pdtensor)
+            baseline_routing = paddle.load(baseline_pdtensor)
+            overlap_ratio = calculate_routing_ratio(baseline_routing, generated_routing)
+            print(f"layer_index:{layer_index} overlap_ratio:{overlap_ratio}")
+            assert (
+                overlap_ratio >= 0.999
+            ), f"the routing overlap ratio of the layer {layer_index} should be equal to baseline routing index, but got {overlap_ratio}"

From d0b94ecf9019ba2afd17852720ed53b4cf4b1e34 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Tue, 27 Jan 2026 19:39:52 +0800
Subject: [PATCH 144/161] Delete log and refine code

---
 fastdeploy/config.py                          |  3 --
 .../layers/moe/routing_indices_cache.py       | 47 ++++---------------
 fastdeploy/worker/gpu_model_runner.py         | 14 ------
 3 files changed, 10 insertions(+), 54 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index c878bee0e76..47beb2b6db4 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1733,9 +1733,6 @@ def postprocess(self):
         self.cache_config.postprocess(self.scheduler_config.max_num_batched_tokens, self.scheduler_config.max_num_seqs)
         if self.model_config is not None and self.model_config.enable_mm and not envs.ENABLE_V1_KVCACHE_SCHEDULER:
             self.cache_config.enable_prefix_caching = False
-        # if self.routing_replay_config is not None and self.routing_replay_config.enable_routing_replay:
-        #     # TODO(gongshaotian): R3 support prefix caching
-        #     self.cache_config.enable_prefix_caching = False
         if (
             self.structured_outputs_config is not None
             and self.structured_outputs_config.guided_decoding_backend != "off"
diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 49a55522bfe..92758a74880 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -15,7 +15,6 @@
 """
 
 import asyncio
-import copy
 import os
 import shutil
 import time
@@ -189,21 +188,15 @@ def _init_routing_cache(self, dtype: str, total_block_num: int):
         )
 
     def update_host_cache(self, positions: paddle.Tensor, slot_mapping: paddle.Tensor):
-        """ """
-        logger.info("[R3] Update host cache.")
+        """Update the host cache with new tokens"""
         for batch_id, position in enumerate(positions):
             if len(position) > 0 and len(slot_mapping[batch_id]) > 0:
-                logger.info(f"position: {position}, slot mapping: {slot_mapping[batch_id]}")
                 routing_ids = self.routing_replay_table[batch_id, :, position, :]
                 routing_ids = routing_ids.cpu()
 
                 # Reshape [layer, token, topk] -> [token, layer, topk]
                 routing_ids_transponse = paddle.transpose(routing_ids, [1, 0, 2])
-                logger.info(f"after transpose routing ids: {routing_ids_transponse}")
-
-                logger.info(f"slice host cache {self._host_cache[slot_mapping[batch_id], :, :]}")
                 self._host_cache[slot_mapping[batch_id], :, :] = routing_ids_transponse
-                logger.info(f" update host cache: {self._host_cache[slot_mapping[batch_id], :, :]}")
 
     def get_token_positions(self, seq_lens_decoder, seq_lens_this_time):
         """Get token position of each sequence in a batch."""
@@ -221,7 +214,7 @@ def get_token_positions(self, seq_lens_decoder, seq_lens_this_time):
         return positions
 
     def compute_slot_mapping(self, positions: np.ndarray):
-        """ """
+        """Compute the mapping between token ids and kvcache slots"""
         slot_mapping = []
         for batch_id, position in enumerate(positions):
             if len(position) == 0:
@@ -236,10 +229,12 @@ def compute_slot_mapping(self, positions: np.ndarray):
 
         return slot_mapping
 
-    def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder, seq_lens_this_time):
+    def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder):
         """
-        1. finish the step: after update input, lens = seq_lens_decoder_buffer
-        2. clear parameter: after update input, lens = seq_lens_decoder_buffer
+        Get the slot mapping of the request cache.
+        When request is finished or cleared the length of the request is recorded at seq_lens_decoder
+            1. finish the step: after update input, lens = seq_lens_decoder_buffer
+            2. clear parameter: after update input, lens = seq_lens_decoder_buffer
         """
         current_token_nums = seq_lens_decoder.numpy()[:, 0]
         positions = []
@@ -310,20 +305,13 @@ async def _put_request_to_store(
     ):
         before_put_request_time = time.perf_counter()
         if self.tp_rank == 0:
-            batch_buffe_old = self.routing_replay_table[batch_id]
-            logger.info(f"batch id {batch_id}, request id {request_id}")
             slot_mapping = self._get_request_cache_ids(
-                finished_batch_ids=[batch_id], seq_lens_decoder=seq_lens_decoder, seq_lens_this_time=seq_lens_this_time
+                finished_batch_ids=[batch_id], seq_lens_decoder=seq_lens_decoder
             )
-            logger.info(f"slot_mapping {slot_mapping}")
             batch_buffer = self._get_routing_from_cache(token_cache_ids=slot_mapping)
-            logger.info(
-                f"batch_buffer_old equal batch_buffer {paddle.equal_all(batch_buffe_old[:,:batch_buffer.shape[1],:], batch_buffer)}"
-            )
-
             # TODO(gongshaotian): Delete pad func after trainer support dynamic len
             batch_buffer = self.pad_routing_cache(routing_indices=batch_buffer)
-            logger.info(f"batch_buffer {batch_buffer} batch_buffe_old {batch_buffe_old}")
+
             tasks = []
             for layer_id in range(self.num_moe_layers):
                 layer_buffer = batch_buffer[layer_id]
@@ -335,23 +323,8 @@ async def _put_request_to_store(
                 prefix_batch = self.get_needed_clear_ids(rollout_id)
                 tasks.append(self.routing_store.clear_prefix_batch(roullout_id_prefixes=prefix_batch))
             await asyncio.gather(*tasks)
-        logger.info(f"[R3] Async put {request_id} time cost: {time.perf_counter() - before_put_request_time}")
         self._clear_table_slot(batch_id)
-
-    def put_table_to_store(self, seq_lens_decoder, seq_lens_this_time):
-        """Put the routing table"""
-        logger.info("[R3] Put routing table to store.")
-        batch_ids = copy.deepcopy(list(self.routing_batch_to_request.keys()))
-        for batch_id in batch_ids:
-            request_id = self._deregister_request(batch_id)
-            asyncio.run(
-                self._put_request_to_store(
-                    batch_id=batch_id,
-                    request_id=request_id,
-                    seq_lens_decoder=seq_lens_decoder,
-                    seq_lens_this_time=seq_lens_this_time,
-                )
-            )
+        logger.info(f"[R3] Async put {request_id} time cost: {time.perf_counter() - before_put_request_time}")
 
     def _clear_table_slot(self, batch_id: int):
         assert 0 <= batch_id < self.max_num_seqs
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 5d10a65a081..4616672f759 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -1424,8 +1424,6 @@ def _prepare_inputs(self, is_dummy_or_profile_run=False) -> None:
         # NOTE: (changwenbin) Initialized to max_num_seq '-1' before copying, marking illegal positions
         self.share_inputs["batch_id_per_token"][:] = -1
         self.share_inputs["batch_id_per_token"].copy_(batch_id_per_token, False)
-        logger.info(f"{self.share_inputs['ids_remove_padding']}")
-        logger.info(f"{self.share_inputs['batch_id_per_token']}")
         self.share_inputs["cu_seqlens_q"].copy_(cu_seqlens_q, False)
         self.share_inputs["cu_seqlens_k"].copy_(cu_seqlens_k, False)
 
@@ -2242,12 +2240,10 @@ class at the server level, which is too granular for ModelRunner.
         self._prepare_inputs()
         self.sampler.pre_process(p_done_idxs)
         if self.fd_config.routing_replay_config.enable_routing_replay:
-            logger.info(f"block_tables before get_token_positions : {self.share_inputs['block_tables']}")
             self.positions = self.routing_replay_manager.get_token_positions(
                 seq_lens_decoder=self.share_inputs["seq_lens_decoder"],
                 seq_lens_this_time=self.seq_lens_this_time_buffer,
             )
-            logger.info(f"positions {self.positions}")
 
         # 1.1 Update state of logits processor
         for proc in self.sampling_metadata.logits_processors:
@@ -2280,7 +2276,6 @@ class at the server level, which is too granular for ModelRunner.
             model_output = model_output[: self.real_token_num]
 
         prompt_logprobs_list = self._get_prompt_logprobs_list(model_output)
-        logger.info(f"berfore update input {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}")
 
         if self.is_pooling_model:
             pooler_output = self._pool(model_output, num_running_requests)
@@ -2508,22 +2503,13 @@ class at the server level, which is too granular for ModelRunner.
             self.routing_replay_manager.update_host_cache(positions=self.positions, slot_mapping=slot_mapping)
 
             # Put routing of finished requests to store
-            logger.info(
-                f"berfore put to store {self.share_inputs['seq_lens_decoder']} {self.seq_lens_this_time_buffer}"
-            )
-            logger.info(
-                f"is_block_step :{self.share_inputs['is_block_step']} is_chunk_step:{self.share_inputs['is_chunk_step']}"
-            )
-            logger.info(f"stop_flags: {self.share_inputs['stop_flags']}")
             is_empty_batch = paddle.equal(self.seq_lens_routing_buffer[:, 0], 0)  # 1.empty batch 2. preempted request
-            logger.info(f"is_empty_batch: {is_empty_batch} seq_lens_routing_buffer{self.seq_lens_routing_buffer}")
             not_block_chunk_empty = paddle.logical_not(
                 paddle.logical_or(
                     is_empty_batch,
                     paddle.logical_or(self.share_inputs["is_block_step"], self.share_inputs["is_chunk_step"]),
                 )
             )
-            logger.info(f"not_block_chunk_empty: {not_block_chunk_empty}")
             finished_batch_ids = paddle.logical_and(self.share_inputs["stop_flags"][:, 0], not_block_chunk_empty)
             self.routing_replay_manager.put_finished_batch(
                 finished_batch_ids=finished_batch_ids,

From fb7ec623418be4a8d9cdb739c3dd0d6a280298be Mon Sep 17 00:00:00 2001
From: Yuanle Liu <yuanlehome@163.com>
Date: Tue, 27 Jan 2026 20:02:34 +0800
Subject: [PATCH 145/161] [Cherry-Pick][Others] enhance deep_ep import and
 support mixed mode flash_mask_attn #6238 (#6232)

* fash_mask_attn support mixed

* enhance deep_ep and fix bug

* update

* fix
---
 custom_ops/gpu_ops/cpp_extensions.cc          |  16 ++
 .../gpu_ops/flash_mask_attn/mainloop_attn.hpp |  16 +-
 .../attention/flash_mask_attn_backend.py      | 201 +++++++++++-------
 fastdeploy/model_executor/layers/moe/ep.py    |  64 ++++--
 .../layers/moe/fused_moe_deepgemm_backend.py  |   2 +-
 5 files changed, 193 insertions(+), 106 deletions(-)

diff --git a/custom_ops/gpu_ops/cpp_extensions.cc b/custom_ops/gpu_ops/cpp_extensions.cc
index b3a3ded1a2f..d51da2d17cb 100644
--- a/custom_ops/gpu_ops/cpp_extensions.cc
+++ b/custom_ops/gpu_ops/cpp_extensions.cc
@@ -49,6 +49,21 @@ void cuda_host_free(uintptr_t ptr) {
   check_cuda_error(cudaFreeHost(reinterpret_cast<void*>(ptr)));
 }
 
+void FlashAttentionMask(const paddle::Tensor& q_input,
+                        const paddle::Tensor& k_input,
+                        const paddle::Tensor& v_input,
+                        const paddle::Tensor& cu_seq_q,
+                        const paddle::Tensor& cu_seq_k,
+                        const paddle::Tensor& seq_len_encoder,
+                        const paddle::Tensor& attn_out,
+                        const paddle::optional<paddle::Tensor>& mask,
+                        const int head_num,
+                        const int kv_head_num,
+                        const int head_dim,
+                        const int max_seq_len,
+                        const int q_token_num,
+                        const int k_token_num);
+
 std::vector<paddle::Tensor> AppendAttention(
     const paddle::Tensor& qkv,
     const paddle::Tensor& key_cache,
@@ -1158,6 +1173,7 @@ PYBIND11_MODULE(fastdeploy_ops, m) {
   m.def("append_attention_with_output",
         &AppendAttentionWithOutput,
         "append attention with output function");
+  m.def("flash_mask_attention", &FlashAttentionMask, "flash_mask_attention");
   /**
    * gqa_rope_write_cache.cu
    * gqa_rope_write_cache
diff --git a/custom_ops/gpu_ops/flash_mask_attn/mainloop_attn.hpp b/custom_ops/gpu_ops/flash_mask_attn/mainloop_attn.hpp
index 070290383d6..0816667c2a7 100644
--- a/custom_ops/gpu_ops/flash_mask_attn/mainloop_attn.hpp
+++ b/custom_ops/gpu_ops/flash_mask_attn/mainloop_attn.hpp
@@ -445,7 +445,7 @@ struct CollectiveMainloopAttn {
 
     if constexpr (NeedMask) {
       const int lane_id = thread_idx % 32;
-      mask_start_idx = mask[0] / kBlockN - 1;
+      mask_start_idx = mask[0] / kBlockN;
 
       mask_row_id = thread_idx / 32 * 16 + lane_id / 4;
 
@@ -485,12 +485,6 @@ struct CollectiveMainloopAttn {
       consumer_wait(pipeline_k, smem_pipe_read_k);
       warp_scheduler_barrier_sync();
 
-      if constexpr (NeedMask) {
-        if (n_block >= mask_start_idx) {
-          app_mask(tSrS, mask, mask_row_id, col_base + n_block * kBlockN);
-        }
-      }
-
       gemm</*zero_init=*/true, /*wg_wait=*/-1>(
           tiled_mma0, tSrQ, tSrK(_, _, _, smem_pipe_read_k.index()), tSrS);
       softmax.rescale_o(tOrO, scores_scale);
@@ -500,6 +494,14 @@ struct CollectiveMainloopAttn {
       warp_scheduler_barrier_arrive();
       warpgroup_wait<1>();
       pipeline_k.consumer_release(smem_pipe_read_k);  // release K
+
+      if constexpr (NeedMask) {
+        if (n_block - 1 >= mask_start_idx) {
+          app_mask(
+              tSrS, mask, mask_row_id, col_base + n_block * kBlockN - kBlockN);
+        }
+      }
+
       cute::copy(softmax.template max</*Is_first=*/false>(
                      tSrS, mainloop_params.softmax_scale_log2),
                  scores_scale);
diff --git a/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py b/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py
index e953b64a809..2ace2cd893a 100644
--- a/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py
+++ b/fastdeploy/model_executor/layers/attention/flash_mask_attn_backend.py
@@ -16,6 +16,7 @@
 
 from __future__ import annotations
 
+import os
 from dataclasses import dataclass, field
 from typing import TYPE_CHECKING, List, Optional
 
@@ -28,6 +29,7 @@
     AttentionMetadata,
 )
 from fastdeploy.model_executor.layers.attention.ops import (
+    append_attention,
     flash_mask_attention,
     get_block_shape_and_split_kv_block,
     gqa_rope_write_cache,
@@ -48,8 +50,6 @@
 else:
     merge_prefill_decode_output = None
 
-import os
-
 
 @dataclass
 class FlashMaskAttentionMetadata(AttentionMetadata):
@@ -57,13 +57,6 @@ class FlashMaskAttentionMetadata(AttentionMetadata):
     FlashAttentionMetadata
     """
 
-    cu_seqlens_k: paddle.Tensor = None
-
-    pre_cache_batch_ids = None
-    pre_cache_tile_ids_per_batch = None
-    pre_cache_num_blocks_cpu = None
-    kv_token_num_cpu = None
-
     # pd_disaggregation
     kv_signal_metadata: Optional[paddle.Tensor] = None
     kv_signal_data_list: List[Optional[paddle.Tensor]] = field(default_factory=list)
@@ -71,7 +64,6 @@ class FlashMaskAttentionMetadata(AttentionMetadata):
     _fuse_kernel_compute_dtype: str = "bf16"
     _dtype: paddle.dtype = paddle.bfloat16
 
-    max_len_tensor_cpu: paddle.Tensor = None
     max_len_tensor_cpu_decoder: paddle.Tensor = None
 
 
@@ -97,7 +89,6 @@ def __init__(
         FlashAttentionBackend __init__
         """
         super().__init__()
-        self.attention_metadata: FlashMaskAttentionMetadata = None
         self.max_seq_len = fd_config.model_config.max_model_len
         self.causal = getattr(fd_config.model_config, "causal", True)
 
@@ -136,10 +127,6 @@ def __init__(
             shape=[fd_config.scheduler_config.max_num_seqs, 1], dtype=paddle.int32
         )
 
-    def get_attntion_meta(self):
-        """get_attntion_meta"""
-        return self.attention_metadata
-
     def get_kv_cache_shape(
         self,
         max_num_blocks: int,
@@ -149,60 +136,14 @@ def get_kv_cache_shape(
         Calculate kv cache shape
         """
         key_cache_shape = [max_num_blocks, self.kv_num_heads, self.block_size, self.head_dim]
-        value_cache_shape = [max_num_blocks, self.kv_num_heads, self.block_size, self.head_dim]
         if kv_cache_quant_type is not None and kv_cache_quant_type == "int4_zp":
-            key_cache_shape = [
-                max_num_blocks,
-                self.kv_num_heads,
-                self.block_size,
-                self.head_dim // 2,
-            ]
-            value_cache_shape = [
-                max_num_blocks,
-                self.kv_num_heads,
-                self.block_size,
-                self.head_dim // 2,
-            ]
+            key_cache_shape[-1] = self.head_dim // 2
+        value_cache_shape = key_cache_shape
         return key_cache_shape, value_cache_shape
 
     def init_attention_metadata(self, forward_meta: ForwardMeta):
         metadata = FlashMaskAttentionMetadata()
-        get_block_shape_and_split_kv_block(
-            forward_meta.seq_lens_encoder,
-            forward_meta.seq_lens_decoder,
-            forward_meta.seq_lens_this_time,
-            forward_meta.decoder_batch_ids,
-            forward_meta.decoder_tile_ids_per_batch,
-            forward_meta.decoder_num_blocks_cpu,
-            forward_meta.decoder_num_blocks_device,
-            forward_meta.decoder_chunk_size_device,
-            forward_meta.max_len_tensor_cpu,
-            forward_meta.encoder_batch_ids,
-            forward_meta.encoder_tile_ids_per_batch,
-            forward_meta.encoder_num_blocks_x_cpu,
-            forward_meta.kv_batch_ids,
-            forward_meta.kv_tile_ids_per_batch,
-            forward_meta.kv_num_blocks_x_cpu,
-            self.encoder_block_shape_q,
-            self.decoder_block_shape_q,
-            self.group_size,
-            self.block_size,
-        )
-
-        (
-            metadata.cu_seqlens_k,
-            metadata.pre_cache_batch_ids,
-            metadata.pre_cache_tile_ids_per_batch,
-            metadata.pre_cache_num_blocks_cpu,
-            metadata.kv_token_num_cpu,
-        ) = pre_cache_len_concat(
-            forward_meta.seq_lens_decoder,
-            forward_meta.seq_lens_this_time,
-            forward_meta.max_len_tensor_cpu[2],
-            self.block_size,
-        )
-
-        # pd_disaggregation
+        # metadata only save pd_disaggregation info.
         metadata.kv_signal_data_list = [None] * self.num_layers
         if self.pd_disaggregation_mode == "per_chunk":
             if not self.keep_pd_step_flag and not forward_meta.is_dummy_or_profile_run:
@@ -225,11 +166,10 @@ def init_attention_metadata(self, forward_meta: ForwardMeta):
         elif metadata._dtype == "float32":
             metadata._fuse_kernel_compute_dtype = "fp32"
 
-        metadata.max_len_tensor_cpu = forward_meta.max_len_tensor_cpu
-        metadata.max_len_tensor_cpu_decoder = paddle.clone(metadata.max_len_tensor_cpu)
+        metadata.max_len_tensor_cpu_decoder = paddle.clone(forward_meta.max_len_tensor_cpu)
         metadata.max_len_tensor_cpu_decoder[1] = 0
 
-        self.attention_metadata = metadata
+        forward_meta.attention_metadata = metadata
 
     def forward_mixed(
         self,
@@ -242,7 +182,7 @@ def forward_mixed(
         layer: Attention,
         forward_meta: ForwardMeta,
     ):
-        metadata = self.attention_metadata
+        metadata = forward_meta.attention_metadata
 
         if self.pd_disaggregation_mode == "per_query":
             metadata.kv_signal_data_list[layer.layer_id] = init_signal_layerwise(
@@ -250,14 +190,55 @@ def forward_mixed(
                 layer.layer_id + self.start_layer_index,
             )
 
-        if metadata.max_len_tensor_cpu[1] > 0:
+        if layer.layer_id == 0:
+            get_block_shape_and_split_kv_block(
+                forward_meta.seq_lens_encoder,
+                forward_meta.seq_lens_decoder,
+                forward_meta.seq_lens_this_time,
+                forward_meta.decoder_batch_ids,
+                forward_meta.decoder_tile_ids_per_batch,
+                forward_meta.decoder_num_blocks_cpu,
+                forward_meta.decoder_num_blocks_device,
+                forward_meta.decoder_chunk_size_device,
+                forward_meta.max_len_tensor_cpu,
+                forward_meta.encoder_batch_ids,
+                forward_meta.encoder_tile_ids_per_batch,
+                forward_meta.encoder_num_blocks_x_cpu,
+                forward_meta.kv_batch_ids,
+                forward_meta.kv_tile_ids_per_batch,
+                forward_meta.kv_num_blocks_x_cpu,
+                self.encoder_block_shape_q,
+                self.decoder_block_shape_q,
+                self.group_size,
+                self.block_size,
+            )
+
+            # here we add five members，this is ugly, just for now.
+            if forward_meta.max_len_tensor_cpu[1].item() > 0:
+                (
+                    forward_meta.attn_cu_seqlens_k,
+                    forward_meta.pre_cache_batch_ids,
+                    forward_meta.pre_cache_tile_ids_per_batch,
+                    forward_meta.pre_cache_num_blocks_cpu,
+                    forward_meta.kv_token_num_cpu,
+                ) = pre_cache_len_concat(
+                    forward_meta.seq_lens_encoder,
+                    forward_meta.seq_lens_decoder,
+                    forward_meta.seq_lens_this_time,
+                    forward_meta.max_len_tensor_cpu[2],
+                    self.block_size,
+                )
+
+        use_fa_do_prefill = forward_meta.max_len_tensor_cpu[1].item() > 0
+
+        if use_fa_do_prefill:
             res_encoder = paddle.zeros([qkv.shape[0], self.num_heads * self.head_dim], dtype=qkv.dtype)
             q, k, v, _ = gqa_rope_write_cache(
                 qkv,
                 forward_meta.caches[2 * layer.layer_id],
                 forward_meta.caches[2 * layer.layer_id + 1],
                 forward_meta.cu_seqlens_q,
-                metadata.cu_seqlens_k,
+                forward_meta.attn_cu_seqlens_k,
                 forward_meta.rotary_embs,
                 forward_meta.seq_lens_this_time,
                 forward_meta.seq_lens_encoder,
@@ -267,9 +248,9 @@ def forward_mixed(
                 forward_meta.kv_batch_ids,
                 forward_meta.kv_tile_ids_per_batch,
                 forward_meta.kv_num_blocks_x_cpu,
-                metadata.pre_cache_batch_ids,
-                metadata.pre_cache_tile_ids_per_batch,
-                metadata.pre_cache_num_blocks_cpu,
+                forward_meta.pre_cache_batch_ids,
+                forward_meta.pre_cache_tile_ids_per_batch,
+                forward_meta.pre_cache_num_blocks_cpu,
                 getattr(layer, "q_norm_weight", None),
                 getattr(layer, "k_norm_weight", None),
                 getattr(layer, "cache_k_scale", None),
@@ -279,7 +260,7 @@ def forward_mixed(
                 getattr(layer, "cache_k_zp", None),
                 getattr(layer, "cache_v_zp", None),
                 metadata.kv_signal_data_list[layer.layer_id],
-                metadata.kv_token_num_cpu[0].item(),
+                forward_meta.kv_token_num_cpu[0].item(),
                 self.max_seq_len,
                 getattr(layer, "rms_norm_eps", 1e-6),
                 layer.use_neox_rotary_style,
@@ -292,7 +273,7 @@ def forward_mixed(
                 k,
                 v,
                 forward_meta.cu_seqlens_q,
-                metadata.cu_seqlens_k,
+                forward_meta.attn_cu_seqlens_k,
                 forward_meta.seq_lens_encoder,
                 res_encoder,
                 forward_meta.attn_mask_offsets,
@@ -303,6 +284,74 @@ def forward_mixed(
                 q.shape[0],
                 k.shape[0],
             )
+
+        res_decoder = append_attention(
+            qkv,
+            forward_meta.caches[2 * layer.layer_id],
+            forward_meta.caches[2 * layer.layer_id + 1],
+            self.zero_seq_enc_lens_for_decode if use_fa_do_prefill else forward_meta.seq_lens_encoder,
+            forward_meta.seq_lens_decoder,
+            forward_meta.seq_lens_this_time,
+            forward_meta.batch_id_per_token,
+            forward_meta.cu_seqlens_q,
+            forward_meta.block_tables,
+            forward_meta.encoder_batch_ids,
+            forward_meta.encoder_tile_ids_per_batch,
+            forward_meta.encoder_num_blocks_x_cpu,
+            forward_meta.kv_batch_ids,
+            forward_meta.kv_tile_ids_per_batch,
+            forward_meta.kv_num_blocks_x_cpu,
+            forward_meta.decoder_batch_ids,
+            forward_meta.decoder_tile_ids_per_batch,
+            forward_meta.decoder_num_blocks_cpu,
+            metadata.max_len_tensor_cpu_decoder if use_fa_do_prefill else forward_meta.max_len_tensor_cpu,
+            forward_meta.rotary_embs,
+            forward_meta.attn_mask,
+            layer.qkv_bias,
+            layer.qkv_scale,
+            getattr(layer, "cache_k_scale", None),
+            getattr(layer, "cache_v_scale", None),
+            getattr(layer, "cache_k_out_scale", None),
+            getattr(layer, "cache_v_out_scale", None),
+            getattr(layer, "cache_k_zp", None),
+            getattr(layer, "cache_v_zp", None),
+            layer.linear_shift,
+            layer.linear_smooth,
+            forward_meta.attn_mask_offsets,
+            metadata.kv_signal_data_list[layer.layer_id],
+            getattr(layer, "q_norm_weight", None),
+            getattr(layer, "k_norm_weight", None),
+            getattr(layer, "sinks", None),
+            getattr(layer, "rms_norm_eps", 1e-6),
+            metadata._fuse_kernel_compute_dtype,
+            getattr(layer, "cache_quant_type_str", "none"),
+            layer.use_neox_rotary_style,
+            self.rope_3d,
+            self.max_seq_len,
+            getattr(layer, "quant_max_bound", 0.0),
+            getattr(layer, "quant_min_bound", 0.0),
+            getattr(layer, "out_scale", -1.0),
+            self.encoder_block_shape_q,
+            self.decoder_block_shape_q,
+            self.max_partition_size,
+            self.max_seq_len,
+            self.speculate_max_draft_token_num + 1,
+            self.causal,
+            self.speculative_method is not None,
+        )
+
+        if use_fa_do_prefill:
+            merge_prefill_decode_output(
+                res_encoder,
+                res_decoder,
+                forward_meta.seq_lens_encoder,
+                forward_meta.seq_lens_decoder,
+                forward_meta.seq_lens_this_time,
+                forward_meta.cu_seqlens_q,
+                self.num_heads,
+                self.head_dim,
+                self.speculate_max_draft_token_num + 1,
+            )
             return res_encoder
         else:
-            raise NotImplementedError("FlashMaskAttentionBackend is not supported for decode.")
+            return res_decoder
diff --git a/fastdeploy/model_executor/layers/moe/ep.py b/fastdeploy/model_executor/layers/moe/ep.py
index d037a135c75..43bfd1a0557 100644
--- a/fastdeploy/model_executor/layers/moe/ep.py
+++ b/fastdeploy/model_executor/layers/moe/ep.py
@@ -14,42 +14,62 @@
 # limitations under the License.
 """
 
+from __future__ import annotations
+
 import traceback
 from abc import abstractmethod
+from types import ModuleType
+from typing import Optional
 
 import paddle
 from paddle import nn
 from paddleformers.utils.log import logger
 
+import fastdeploy
 from fastdeploy import envs
+from fastdeploy.config import MoEPhase
+from fastdeploy.utils import singleton
 
-try:
-    if envs.FD_USE_PFCC_DEEP_EP:
-        paddle.compat.enable_torch_proxy(scope={"deep_ep"})  # Enable torch proxy before importing deep_ep
-        try:
-            import paddlefleet.ops.deep_ep as deep_ep
 
-            logger.info("FD use PaddleFleet/DeepEP now.")
-        except ModuleNotFoundError:
-            import deep_ep
+def load_deep_ep() -> ModuleType:
+    """
+    Load DeepEP module according to FastDeploy env switch.
 
-            logger.info("FD use PFCCLab/DeepEP now.")
-    else:
-        from paddle.distributed.communication import deep_ep
+    Returns:
+        Imported deep_ep module object.
+    """
 
-        logger.info("FD use Paddle/DeepEP now.")
-except Exception as e:
-    logger.error(
-        f"import deep_ep failed! FD_USE_PFCC_DEEP_EP={envs.FD_USE_PFCC_DEEP_EP}. " f"type={type(e).__name__}, err={e}"
-    )
-    logger.error("Traceback:\n" + traceback.format_exc())
-    raise
+    try:
+        if envs.FD_USE_PFCC_DEEP_EP:
+            # Enable torch proxy before importing deep_ep (required by PFCC/PaddleFleet variants)
+            paddle.compat.enable_torch_proxy(scope={"deep_ep"})
+            try:
+                import paddlefleet.ops.deep_ep as deep_ep  # type: ignore
+
+                logger.info("FD use PaddleFleet/DeepEP now.")
+                return deep_ep
+            except ModuleNotFoundError:
+                import deep_ep  # type: ignore
+
+                logger.info("FD use PFCCLab/DeepEP now.")
+                return deep_ep
+        else:
+            from paddle.distributed.communication import deep_ep  # type: ignore
+
+            logger.info("FD use Paddle/DeepEP now.")
+            return deep_ep
+    except Exception as e:
+        logger.error(
+            "import deep_ep failed! FD_USE_PFCC_DEEP_EP=%s. type=%s, err=%s",
+            envs.FD_USE_PFCC_DEEP_EP,
+            type(e).__name__,
+            e,
+        )
+        logger.error("Traceback:\n%s", traceback.format_exc())
+        raise
 
-from typing import Optional
 
-import fastdeploy
-from fastdeploy.config import MoEPhase
-from fastdeploy.utils import singleton
+deep_ep = load_deep_ep()
 
 
 class DeepEPBufferManager:
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
index dc088cf9eb9..0a0440e487d 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
@@ -18,10 +18,10 @@
 
 import paddle
 from paddle import nn
-from paddle.distributed.communication import deep_ep
 from paddleformers.utils.log import logger
 
 import fastdeploy
+from fastdeploy.model_executor.layers.moe.ep import deep_ep
 from fastdeploy.model_executor.layers.utils import get_tensor
 from fastdeploy.model_executor.ops.gpu import count_tokens_per_expert_func, deep_gemm
 from fastdeploy.worker.tbo import let_another_thread_run

From c424287570f76dbe74647ebd3c88a4f98ff08bcb Mon Sep 17 00:00:00 2001
From: luukunn <83932082+luukunn@users.noreply.github.com>
Date: Tue, 27 Jan 2026 20:09:56 +0800
Subject: [PATCH 146/161] [Cherry-Pick] update data_processor & add tool parser
 plugins#6096 (#6193)

* cherry pick

* bug fix tool_calls (#6166)

* fix image gen (#6175)

* fix unit test
---
 .../entrypoints/openai/response_processors.py |   6 +
 fastdeploy/entrypoints/openai/serving_chat.py |  30 +--
 .../entrypoints/openai/serving_completion.py  |  31 +--
 .../openai/tool_parsers/__init__.py           |   3 +
 fastdeploy/input/ernie4_5_processor.py        |  30 ++-
 fastdeploy/input/text_processor.py            |  33 ++-
 fastdeploy/plugins/__init__.py                |   2 +
 fastdeploy/plugins/tool_parser/__init__.py    |  34 +++
 .../entrypoints/openai/test_finish_reason.py  |  30 ++-
 .../openai/test_max_streaming_tokens.py       | 194 +++++++++++++++---
 tests/entrypoints/openai/test_serving_chat.py |   5 +
 .../openai/test_serving_completion.py         |   5 +-
 tests/input/test_ernie4_5_processor.py        |  16 +-
 tests/input/test_text_processor.py            |  60 +++++-
 14 files changed, 378 insertions(+), 101 deletions(-)
 create mode 100644 fastdeploy/plugins/tool_parser/__init__.py

diff --git a/fastdeploy/entrypoints/openai/response_processors.py b/fastdeploy/entrypoints/openai/response_processors.py
index ad54d203021..038144603df 100644
--- a/fastdeploy/entrypoints/openai/response_processors.py
+++ b/fastdeploy/entrypoints/openai/response_processors.py
@@ -147,6 +147,9 @@ async def process_response_chat(self, request_outputs, stream, enable_thinking,
                             image_output = self._end_image_code_request_output
                             image_output["outputs"]["multipart"] = [image]
                             image_output["outputs"]["token_ids"] = all_tokens
+                            image_output["outputs"]["tool_calls"] = None
+                            image_output["outputs"]["reasoning_content"] = ""
+                            image_output["outputs"]["skipped"] = False
                             image_output["outputs"]["num_image_tokens"] = count_tokens(all_tokens)
                             yield image_output
 
@@ -212,5 +215,8 @@ async def process_response_chat(self, request_outputs, stream, enable_thinking,
 
                     lasrt_request_output = self._multipart_buffer[-1]["request_output"]
                     lasrt_request_output["outputs"]["multipart"] = multipart
+                    lasrt_request_output["outputs"]["tool_calls"] = None
+                    lasrt_request_output["outputs"]["reasoning_content"] = ""
+                    lasrt_request_output["outputs"]["skipped"] = False
                     lasrt_request_output["outputs"]["num_image_tokens"] = num_image_tokens
                     yield lasrt_request_output
diff --git a/fastdeploy/entrypoints/openai/serving_chat.py b/fastdeploy/entrypoints/openai/serving_chat.py
index 6c1d63a0070..0116af5f8b2 100644
--- a/fastdeploy/entrypoints/openai/serving_chat.py
+++ b/fastdeploy/entrypoints/openai/serving_chat.py
@@ -265,7 +265,9 @@ async def chat_completion_stream_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
+                        status, msg = self.engine_client.check_health(
+                            time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT
+                        )
                         if not status:
                             if choices:
                                 chunk.choices = choices
@@ -392,12 +394,15 @@ async def chat_completion_stream_generator(
                     output_speculate_metrics = res["metrics"].get("speculate_metrics", None)
 
                     delta_message = DeltaMessage(
-                        reasoning_content="",
+                        reasoning_content=output["reasoning_content"],
                         prompt_token_ids=None,
-                        tool_calls=None,
+                        tool_calls=output["tool_calls"],
                         completion_token_ids=None,
                     )
 
+                    if output["tool_calls"] is not None:
+                        tool_called[idx] = True
+
                     if response_processor.enable_multimodal_content():
                         delta_message.multimodal_content = output["multipart"]
                     else:
@@ -406,15 +411,8 @@ async def chat_completion_stream_generator(
                     if output.get("audio_content", None) is not None:
                         delta_message.audio_content = output["audio_content"]
 
-                    if not res["finished"] and "delta_message" in output:
-                        delta_message_output = output["delta_message"]
-                        if delta_message_output is None:
-                            continue
-                        delta_message.content = delta_message_output.content or ""
-                        delta_message.reasoning_content = delta_message_output.reasoning_content or ""
-                        if delta_message_output.tool_calls:
-                            delta_message.tool_calls = delta_message_output.tool_calls
-                            tool_called[idx] = True
+                    if output["skipped"]:
+                        continue
 
                     choice = ChatCompletionResponseStreamChoice(
                         index=idx,
@@ -558,7 +556,9 @@ async def chat_completion_full_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
+                        status, msg = self.engine_client.check_health(
+                            time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT
+                        )
                         if not status:
                             raise ValueError(f"Engine is not healthy: {msg}")
                         else:
@@ -708,7 +708,7 @@ async def _create_chat_completion_choice(
         message = ChatMessage(
             role="assistant",
             reasoning_content=output.get("reasoning_content"),
-            tool_calls=output.get("tool_call"),
+            tool_calls=output.get("tool_calls"),
             prompt_token_ids=prompt_token_ids if request.return_token_ids else None,
             completion_token_ids=completion_token_ids if request.return_token_ids else None,
             prompt_tokens=prompt_tokens if request.return_token_ids else None,
@@ -740,7 +740,7 @@ async def _create_chat_completion_choice(
         finish_reason = "stop"
         if previous_num_tokens != max_tokens:
             finish_reason = "stop"
-            if output.get("tool_call"):
+            if output.get("tool_calls"):
                 finish_reason = "tool_calls"
         else:
             finish_reason = "length"
diff --git a/fastdeploy/entrypoints/openai/serving_completion.py b/fastdeploy/entrypoints/openai/serving_completion.py
index b7b1220a777..fa5c4f0f1da 100644
--- a/fastdeploy/entrypoints/openai/serving_completion.py
+++ b/fastdeploy/entrypoints/openai/serving_completion.py
@@ -281,7 +281,9 @@ async def completion_full_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
+                        status, msg = self.engine_client.check_health(
+                            time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT
+                        )
                         if not status:
                             raise ValueError(f"Engine is not healthy: {msg}")
                         else:
@@ -378,7 +380,7 @@ async def _process_echo_logic(self, request, idx, res_outputs):
 
     def calc_finish_reason(self, max_tokens, token_num, output, tool_called):
         if max_tokens is None or token_num != max_tokens:
-            if tool_called or output.get("tool_call"):
+            if tool_called or output.get("tool_calls"):
                 return "tool_calls"
             else:
                 return "stop"
@@ -437,7 +439,9 @@ async def completion_stream_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
+                        status, msg = self.engine_client.check_health(
+                            time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT
+                        )
                         if not status:
                             raise ValueError(f"Engine is not healthy: {msg}")
                         else:
@@ -523,24 +527,21 @@ async def completion_stream_generator(
                         text=output["text"],
                         prompt_token_ids=None,
                         completion_token_ids=output.get("token_ids") if request.return_token_ids else None,
-                        tool_calls=None,
+                        tool_calls=output["tool_calls"],
                         completion_tokens=output.get("completion_tokens") if request.return_token_ids else None,
-                        reasoning_content="",
+                        reasoning_content=output["reasoning_content"],
                         arrival_time=arrival_time,
                         logprobs=logprobs_res,
                         prompt_logprobs=clamp_prompt_logprobs(prompt_logprobs_res),
                         draft_logprobs=draft_logprobs_res,
                         speculate_metrics=output_speculate_metrics,
                     )
-                    if not res["finished"] and "delta_message" in output:
-                        delta_message_output = output["delta_message"]
-                        if delta_message_output is None:
-                            continue
-                        delta_message.text = delta_message_output.content or ""
-                        delta_message.reasoning_content = delta_message_output.reasoning_content or ""
-                        if delta_message_output.tool_calls:
-                            delta_message.tool_calls = delta_message_output.tool_calls
-                            tool_called[idx] = True
+
+                    if output["tool_calls"] is not None:
+                        tool_called[idx] = True
+
+                    if output["skipped"]:
+                        continue
 
                     choices.append(delta_message)
 
@@ -685,7 +686,7 @@ def request_output_to_completion_response(
                     else None
                 ),
                 reasoning_content=output.get("reasoning_content"),
-                tool_calls=output.get("tool_call"),
+                tool_calls=output.get("tool_calls"),
                 logprobs=aggregated_logprobs,
                 draft_logprobs=aggregated_draft_logprobs,
                 prompt_logprobs=clamp_prompt_logprobs(prompt_logprobs_res),
diff --git a/fastdeploy/entrypoints/openai/tool_parsers/__init__.py b/fastdeploy/entrypoints/openai/tool_parsers/__init__.py
index a4df47ac99d..c9b8d250f74 100644
--- a/fastdeploy/entrypoints/openai/tool_parsers/__init__.py
+++ b/fastdeploy/entrypoints/openai/tool_parsers/__init__.py
@@ -14,8 +14,11 @@
 # limitations under the License.
 """
 
+from fastdeploy.plugins import load_tool_parser_plugins
+
 from .abstract_tool_parser import ToolParser, ToolParserManager
 from .ernie_45_vl_thinking_tool_parser import Ernie45VLThinkingToolParser
 from .ernie_x1_tool_parser import ErnieX1ToolParser
 
 __all__ = ["ToolParser", "ToolParserManager", "ErnieX1ToolParser", "Ernie45VLThinkingToolParser"]
+load_tool_parser_plugins()
diff --git a/fastdeploy/input/ernie4_5_processor.py b/fastdeploy/input/ernie4_5_processor.py
index a151dbfdd6d..a5dad4fb33a 100644
--- a/fastdeploy/input/ernie4_5_processor.py
+++ b/fastdeploy/input/ernie4_5_processor.py
@@ -318,7 +318,7 @@ def process_response_dict_normal(self, response_dict, **kwargs):
                 tool_parser = self.tool_parser_obj(self.tokenizer)
                 tool_call_info = tool_parser.extract_tool_calls(full_text, response_dict)
                 if tool_call_info.tools_called:
-                    response_dict["outputs"]["tool_call"] = tool_call_info.tool_calls
+                    response_dict["outputs"]["tool_calls"] = tool_call_info.tool_calls
                     response_dict["outputs"]["text"] = tool_call_info.content
             response_dict["outputs"]["completion_tokens"] = full_text
             data_processor_logger.info(f"req_id:{req_id}, decode_status: {self.decode_status[req_id]}")
@@ -344,7 +344,11 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
             if token_ids[-1] == self.tokenizer.eos_token_id:
                 token_ids = token_ids[:-1]
         delta_text, previous_token_ids, previous_texts = self.ids2tokens(token_ids, req_id)
+        response_dict["outputs"]["text"] = delta_text
         response_dict["outputs"]["completion_tokens"] = delta_text
+        response_dict["outputs"]["skipped"] = False
+        response_dict["outputs"]["tool_calls"] = None
+        response_dict["outputs"]["reasoning_content"] = ""
         if self.reasoning_parser and (
             enable_thinking or self.reasoning_parser.__class__.__name__ == "ErnieX1ReasoningParser"
         ):
@@ -356,10 +360,15 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 previous_token_ids + token_ids,
                 token_ids,
             )
-            response_dict["outputs"]["delta_message"] = reasoning_delta_message
-            reasoning_content = reasoning_delta_message.reasoning_content if reasoning_delta_message else None
-            reasoning_tokens = self.tokenizer.tokenize(reasoning_content) if reasoning_content else []
-            response_dict["outputs"]["reasoning_token_num"] = len(reasoning_tokens)
+            if reasoning_delta_message:
+                reasoning_content = reasoning_delta_message.reasoning_content
+                reasoning_tokens = self.tokenizer.tokenize(reasoning_content) if reasoning_content else []
+                response_dict["outputs"]["reasoning_token_num"] = len(reasoning_tokens)
+                response_dict["outputs"]["reasoning_content"] = reasoning_content or ""
+                response_dict["outputs"]["text"] = reasoning_delta_message.content or ""
+            else:
+                if not is_end:
+                    response_dict["outputs"]["skipped"] = True
         if self.tool_parser_obj:
             if req_id not in self.tool_parser_dict:
                 self.tool_parser_dict[req_id] = self.tool_parser_obj(self.tokenizer)
@@ -373,9 +382,14 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 token_ids,
                 response_dict,
             )
-            if tool_call_delta_message is None or tool_call_delta_message.tool_calls:
-                response_dict["outputs"]["delta_message"] = tool_call_delta_message
-        response_dict["outputs"]["text"] = delta_text
+            if tool_call_delta_message:
+                if tool_call_delta_message.tool_calls:
+                    response_dict["outputs"]["text"] = tool_call_delta_message.content
+                    response_dict["outputs"]["tool_calls"] = tool_call_delta_message.tool_calls
+                    response_dict["outputs"]["skipped"] = False
+            else:
+                if not is_end:
+                    response_dict["outputs"]["skipped"] = True
         if is_end:
             data_processor_logger.info(f"req_id:{req_id}, decode_status: {self.decode_status[req_id]}")
             del self.decode_status[req_id]
diff --git a/fastdeploy/input/text_processor.py b/fastdeploy/input/text_processor.py
index 366244e5244..93dc1dd8b6f 100644
--- a/fastdeploy/input/text_processor.py
+++ b/fastdeploy/input/text_processor.py
@@ -422,7 +422,7 @@ def process_response_dict_normal(self, response_dict, **kwargs):
                 tool_parser = self.tool_parser_obj(self.tokenizer)
                 tool_call_info = tool_parser.extract_tool_calls(full_text, response_dict)
                 if tool_call_info.tools_called:
-                    response_dict["outputs"]["tool_call"] = tool_call_info.tool_calls
+                    response_dict["outputs"]["tool_calls"] = tool_call_info.tool_calls
                     response_dict["outputs"]["text"] = tool_call_info.content
             data_processor_logger.info(f"req_id:{req_id}, decode_status: {self.decode_status[req_id]}")
             del self.decode_status[req_id]
@@ -447,7 +447,11 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
             if token_ids[-1] in self.eos_token_ids:
                 token_ids = token_ids[:-1]
         delta_text, previous_token_ids, previous_texts = self.ids2tokens(token_ids, req_id)
+        response_dict["outputs"]["text"] = delta_text
         response_dict["outputs"]["completion_tokens"] = delta_text
+        response_dict["outputs"]["skipped"] = False
+        response_dict["outputs"]["tool_calls"] = None
+        response_dict["outputs"]["reasoning_content"] = ""
         if self.reasoning_parser and (
             enable_thinking or self.reasoning_parser.__class__.__name__ == "ErnieX1ReasoningParser"
         ):
@@ -459,15 +463,20 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 previous_token_ids + token_ids,
                 token_ids,
             )
-            response_dict["outputs"]["delta_message"] = reasoning_delta_message
-            reasoning_content = reasoning_delta_message.reasoning_content if reasoning_delta_message else None
-            reasoning_tokens = self.tokenizer.tokenize(reasoning_content) if reasoning_content else []
-            response_dict["outputs"]["reasoning_token_num"] = len(reasoning_tokens)
+            if reasoning_delta_message:
+                reasoning_content = reasoning_delta_message.reasoning_content
+                reasoning_tokens = self.tokenizer.tokenize(reasoning_content) if reasoning_content else []
+                response_dict["outputs"]["reasoning_token_num"] = len(reasoning_tokens)
+                response_dict["outputs"]["reasoning_content"] = reasoning_content or ""
+                response_dict["outputs"]["text"] = reasoning_delta_message.content or ""
+            else:
+                if not is_end:
+                    response_dict["outputs"]["skipped"] = True
         if self.tool_parser_obj:
             if req_id not in self.tool_parser_dict:
                 self.tool_parser_dict[req_id] = self.tool_parser_obj(self.tokenizer)
             tool_parser = self.tool_parser_dict[req_id]
-            tool_call = tool_parser.extract_tool_calls_streaming(
+            tool_call_delta_message = tool_parser.extract_tool_calls_streaming(
                 previous_texts,
                 previous_texts + delta_text,
                 delta_text,
@@ -476,9 +485,15 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 token_ids,
                 response_dict,
             )
-            if tool_call is None or tool_call.tool_calls:
-                response_dict["outputs"]["delta_message"] = tool_call
-        response_dict["outputs"]["text"] = delta_text
+            if tool_call_delta_message:
+                if tool_call_delta_message.tool_calls:
+                    response_dict["outputs"]["text"] = tool_call_delta_message.content
+                    response_dict["outputs"]["tool_calls"] = tool_call_delta_message.tool_calls
+                    response_dict["outputs"]["skipped"] = False
+            else:
+                if not is_end:
+                    response_dict["outputs"]["skipped"] = True
+
         if is_end:
             data_processor_logger.info(f"req_id:{req_id}, decode_status: {self.decode_status[req_id]}")
             del self.decode_status[req_id]
diff --git a/fastdeploy/plugins/__init__.py b/fastdeploy/plugins/__init__.py
index 08c2922968a..96e30e5a56b 100644
--- a/fastdeploy/plugins/__init__.py
+++ b/fastdeploy/plugins/__init__.py
@@ -19,6 +19,7 @@
 from .model_runner import load_model_runner_plugins
 from .reasoning_parser import load_reasoning_parser_plugins
 from .token_processor import load_token_processor_plugins
+from .tool_parser import load_tool_parser_plugins
 
 __all__ = [
     "load_model_register_plugins",
@@ -26,4 +27,5 @@
     "load_input_processor_plugins",
     "load_reasoning_parser_plugins",
     "load_token_processor_plugins",
+    "load_tool_parser_plugins",
 ]
diff --git a/fastdeploy/plugins/tool_parser/__init__.py b/fastdeploy/plugins/tool_parser/__init__.py
new file mode 100644
index 00000000000..19d8f82efe2
--- /dev/null
+++ b/fastdeploy/plugins/tool_parser/__init__.py
@@ -0,0 +1,34 @@
+"""
+# Copyright (c) 2025  PaddlePaddle Authors. All Rights Reserved.
+#
+# Licensed under the Apache License, Version 2.0 (the "License"
+# you may not use this file except in compliance with the License.
+# You may obtain a copy of the License at
+#
+#     http://www.apache.org/licenses/LICENSE-2.0
+#
+# Unless required by applicable law or agreed to in writing, software
+# distributed under the License is distributed on an "AS IS" BASIS,
+# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
+# See the License for the specific language governing permissions and
+# limitations under the License.
+"""
+
+from fastdeploy.plugins.utils import load_plugins_by_group
+
+# make sure one process only loads plugins once
+plugins_loaded = False
+PLUGINS_GROUP = "fastdeploy.tool_parser_plugins"
+
+
+def load_tool_parser_plugins():
+    """load_tool_parser_plugins"""
+    global plugins_loaded
+    if plugins_loaded:
+        return
+    plugins_loaded = True
+
+    plugins = load_plugins_by_group(group=PLUGINS_GROUP)
+    # general plugins, we only need to execute the loaded functions
+    for func in plugins.values():
+        func()
diff --git a/tests/entrypoints/openai/test_finish_reason.py b/tests/entrypoints/openai/test_finish_reason.py
index 4bdb3feefc8..bdc45677358 100644
--- a/tests/entrypoints/openai/test_finish_reason.py
+++ b/tests/entrypoints/openai/test_finish_reason.py
@@ -9,7 +9,6 @@
     ChatCompletionRequest,
     CompletionRequest,
     CompletionResponse,
-    DeltaMessage,
     UsageInfo,
 )
 from fastdeploy.entrypoints.openai.serving_chat import OpenAIServingChat
@@ -43,6 +42,8 @@ async def asyncSetUp(self):
             self.multi_modal_processor._check_mm_limits = Mock()
             self.multi_modal_processor.append_completion_tokens = Mock()
             self.multi_modal_processor.pack_outputs = lambda x: x
+            self.multi_modal_processor.reasoning_parser = None
+            self.multi_modal_processor.model_status_dict = {}
 
         self.engine_client = Mock()
         self.engine_client.connection_initialized = False
@@ -95,7 +96,7 @@ def _generate_inference_response(
         }
 
         if tool_call:
-            outputs["tool_call"] = [
+            outputs["tool_calls"] = [
                 {"index": 0, "type": "function", "function": {"name": tool_call["name"], "arguments": json.dumps({})}}
             ]
 
@@ -121,6 +122,7 @@ def _generate_stream_inference_response(
                 metrics["inference_start_time"] = 0.1
             else:
                 metrics["arrival_time"] = 0.1 * (i + 1)
+                metrics["engine_recv_latest_token_time"] = 0.1 * (i + 1)
                 metrics["first_token_time"] = None
 
             if i == total_token_num - 1:
@@ -132,23 +134,19 @@ def _generate_stream_inference_response(
                 "top_logprobs": None,
                 "draft_top_logprobs": None,
                 "reasoning_token_num": 0,
+                "skipped": False,
+                "reasoning_content": "",
+                "tool_calls": None,
             }
 
             if tool_call and isinstance(tool_call, dict) and i == total_token_num - 2:
-                delta_msg = DeltaMessage(
-                    content="",
-                    reasoning_content="",
-                    tool_calls=[
-                        {
-                            "index": 0,
-                            "type": "function",
-                            "function": {"name": tool_call["name"], "arguments": json.dumps({})},
-                        }
-                    ],
-                    prompt_token_ids=None,
-                    completion_token_ids=None,
-                )
-                outputs["delta_message"] = delta_msg
+                outputs["tool_calls"] = [
+                    {
+                        "index": 0,
+                        "type": "function",
+                        "function": {"name": tool_call["name"], "arguments": json.dumps({})},
+                    }
+                ]
 
             frame = [
                 {
diff --git a/tests/entrypoints/openai/test_max_streaming_tokens.py b/tests/entrypoints/openai/test_max_streaming_tokens.py
index 26e91382502..1dea20960b1 100644
--- a/tests/entrypoints/openai/test_max_streaming_tokens.py
+++ b/tests/entrypoints/openai/test_max_streaming_tokens.py
@@ -95,44 +95,105 @@ async def test_integration_with_chat_stream_generator(self, mock_processor_class
         response_data = [
             {
                 "request_id": "test_request_id_0",
-                "outputs": {"token_ids": [1], "text": "a", "top_logprobs": None, "draft_top_logprobs": None},
-                "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1},
+                "outputs": {
+                    "token_ids": [1],
+                    "text": "a",
+                    "top_logprobs": None,
+                    "draft_top_logprobs": None,
+                    "reasoning_content": "",
+                    "tool_calls": None,
+                    "skipped": False,
+                },
+                "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1, "arrival_time": 0.2},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {"token_ids": [2], "text": "b", "top_logprobs": None, "draft_top_logprobs": None},
-                "metrics": {"arrival_time": 0.2, "first_token_time": None},
+                "outputs": {
+                    "token_ids": [2],
+                    "text": "b",
+                    "top_logprobs": None,
+                    "draft_top_logprobs": None,
+                    "reasoning_content": "",
+                    "tool_calls": None,
+                    "skipped": False,
+                },
+                "metrics": {"engine_recv_latest_token_time": 0.2, "first_token_time": None, "arrival_time": 0.2},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {"token_ids": [3], "text": "c", "top_logprobs": None, "draft_top_logprobs": None},
-                "metrics": {"arrival_time": 0.3, "first_token_time": None},
+                "outputs": {
+                    "token_ids": [3],
+                    "text": "c",
+                    "top_logprobs": None,
+                    "draft_top_logprobs": None,
+                    "reasoning_content": "",
+                    "tool_calls": None,
+                    "skipped": False,
+                },
+                "metrics": {"engine_recv_latest_token_time": 0.3, "first_token_time": None, "arrival_time": 0.2},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {"token_ids": [4], "text": "d", "top_logprobs": None, "draft_top_logprobs": None},
-                "metrics": {"arrival_time": 0.4, "first_token_time": None},
+                "outputs": {
+                    "token_ids": [4],
+                    "text": "d",
+                    "top_logprobs": None,
+                    "draft_top_logprobs": None,
+                    "reasoning_content": "",
+                    "tool_calls": None,
+                    "skipped": False,
+                },
+                "metrics": {"engine_recv_latest_token_time": 0.4, "first_token_time": None, "arrival_time": 0.2},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {"token_ids": [5], "text": "e", "top_logprobs": None, "draft_top_logprobs": None},
-                "metrics": {"arrival_time": 0.5, "first_token_time": None},
+                "outputs": {
+                    "token_ids": [5],
+                    "text": "e",
+                    "top_logprobs": None,
+                    "draft_top_logprobs": None,
+                    "reasoning_content": "",
+                    "tool_calls": None,
+                    "skipped": False,
+                },
+                "metrics": {"engine_recv_latest_token_time": 0.5, "first_token_time": None, "arrival_time": 0.2},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {"token_ids": [6], "text": "f", "top_logprobs": None, "draft_top_logprobs": None},
-                "metrics": {"arrival_time": 0.6, "first_token_time": None},
+                "outputs": {
+                    "token_ids": [6],
+                    "text": "f",
+                    "top_logprobs": None,
+                    "draft_top_logprobs": None,
+                    "reasoning_content": "",
+                    "tool_calls": None,
+                    "skipped": False,
+                },
+                "metrics": {"engine_recv_latest_token_time": 0.6, "first_token_time": None, "arrival_time": 0.2},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {"token_ids": [7], "text": "g", "top_logprobs": None, "draft_top_logprobs": None},
-                "metrics": {"arrival_time": 0.7, "first_token_time": None, "request_start_time": 0.1},
+                "outputs": {
+                    "token_ids": [7],
+                    "text": "g",
+                    "top_logprobs": None,
+                    "draft_top_logprobs": None,
+                    "reasoning_content": "",
+                    "tool_calls": None,
+                    "skipped": False,
+                },
+                "metrics": {
+                    "engine_recv_latest_token_time": 0.7,
+                    "first_token_time": None,
+                    "request_start_time": 0.1,
+                    "arrival_time": 0.2,
+                },
                 "finished": True,
             },
         ]
@@ -211,22 +272,51 @@ async def test_integration_with_completion_stream_generator(self, mock_logger):
             [
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {"token_ids": [1], "text": "a", "top_logprobs": None, "draft_top_logprobs": None},
-                    "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1},
+                    "outputs": {
+                        "token_ids": [1],
+                        "text": "a",
+                        "top_logprobs": None,
+                        "draft_top_logprobs": None,
+                        "reasoning_content": "",
+                        "tool_calls": None,
+                        "skipped": False,
+                    },
+                    "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1, "arrival_time": 0.2},
                     "finished": False,
                 },
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {"token_ids": [2], "text": "b", "top_logprobs": None, "draft_top_logprobs": None},
-                    "metrics": {"arrival_time": 0.2, "first_token_time": None},
+                    "outputs": {
+                        "token_ids": [2],
+                        "text": "b",
+                        "top_logprobs": None,
+                        "draft_top_logprobs": None,
+                        "reasoning_content": "",
+                        "tool_calls": None,
+                        "skipped": False,
+                    },
+                    "metrics": {"engine_recv_latest_token_time": 0.2, "first_token_time": None, "arrival_time": 0.2},
                     "finished": False,
                 },
             ],
             [
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {"token_ids": [7], "text": "g", "top_logprobs": None, "draft_top_logprobs": None},
-                    "metrics": {"arrival_time": 0.7, "first_token_time": None, "request_start_time": 0.1},
+                    "outputs": {
+                        "token_ids": [7],
+                        "text": "g",
+                        "top_logprobs": None,
+                        "draft_top_logprobs": None,
+                        "reasoning_content": "",
+                        "tool_calls": None,
+                        "skipped": False,
+                    },
+                    "metrics": {
+                        "engine_recv_latest_token_time": 0.7,
+                        "first_token_time": None,
+                        "request_start_time": 0.1,
+                        "arrival_time": 0.2,
+                    },
                     "finished": True,
                 }
             ],
@@ -277,7 +367,6 @@ async def test_integration_with_completion_stream_generator(self, mock_logger):
                 self.fail(f"{i + 1} chunk is unexcepted 'data: JSON\\n\\n': {repr(chunk_str)}")
         self.assertEqual(len(parsed_chunks), 1)
         for chunk_dict in parsed_chunks:
-            print(f"======>{chunk_dict}")
             choices_list = chunk_dict["choices"]
             self.assertEqual(len(choices_list), 3, f"Chunk {chunk_dict} should has three choices")
             self.assertEqual(
@@ -500,14 +589,40 @@ async def test_chat_stream_usage_fields(self, mock_response_processor, api_serve
         response_data = [
             {
                 "request_id": "test-request-id_0",
-                "outputs": {"token_ids": [1], "text": "a", "top_logprobs": None, "draft_top_logprobs": None},
-                "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1, "request_start_time": 0.0},
+                "outputs": {
+                    "token_ids": [1],
+                    "text": "a",
+                    "top_logprobs": None,
+                    "draft_top_logprobs": None,
+                    "reasoning_content": "",
+                    "tool_calls": None,
+                    "skipped": False,
+                },
+                "metrics": {
+                    "first_token_time": 0.1,
+                    "inference_start_time": 0.1,
+                    "request_start_time": 0.0,
+                    "arrival_time": 0.2,
+                },
                 "finished": False,
             },
             {
                 "request_id": "test-request-id_0",
-                "outputs": {"token_ids": [2, 3], "text": "bc", "top_logprobs": None, "draft_top_logprobs": None},
-                "metrics": {"arrival_time": 0.3, "first_token_time": None, "request_start_time": 0.0},
+                "outputs": {
+                    "token_ids": [2, 3],
+                    "text": "bc",
+                    "top_logprobs": None,
+                    "draft_top_logprobs": None,
+                    "reasoning_content": "",
+                    "tool_calls": None,
+                    "skipped": False,
+                },
+                "metrics": {
+                    "engine_recv_latest_token_time": 0.3,
+                    "first_token_time": None,
+                    "request_start_time": 0.0,
+                    "arrival_time": 0.2,
+                },
                 "finished": True,
             },
         ]
@@ -622,7 +737,15 @@ async def test_completion_stream_usage_fields(self, mock_logger):
             [
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {"token_ids": [10], "text": "a", "top_logprobs": None, "draft_top_logprobs": None},
+                    "outputs": {
+                        "token_ids": [10],
+                        "text": "a",
+                        "top_logprobs": None,
+                        "draft_top_logprobs": None,
+                        "reasoning_content": "",
+                        "tool_calls": None,
+                        "skipped": False,
+                    },
                     "metrics": {
                         "arrival_time": 0.3,
                         "first_token_time": 0.1,
@@ -635,7 +758,15 @@ async def test_completion_stream_usage_fields(self, mock_logger):
             [
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {"token_ids": [2], "text": "bc", "top_logprobs": None, "draft_top_logprobs": None},
+                    "outputs": {
+                        "token_ids": [2],
+                        "text": "bc",
+                        "top_logprobs": None,
+                        "draft_top_logprobs": None,
+                        "reasoning_content": "",
+                        "tool_calls": None,
+                        "skipped": False,
+                    },
                     "metrics": {
                         "arrival_time": 0.3,
                         "first_token_time": 0.1,
@@ -823,6 +954,9 @@ async def test_completion_stream_generator_async_process_response_dict(self, moc
                         "text": "a",
                         "top_logprobs": {"a": 0.98, "b": 0.02},
                         "draft_top_logprobs": {"a": 0.98, "b": 0.02},
+                        "reasoning_content": "",
+                        "tool_calls": None,
+                        "skipped": False,
                     },
                     "finished": False,
                     "metrics": {
@@ -843,6 +977,9 @@ async def test_completion_stream_generator_async_process_response_dict(self, moc
                         "text": "b",
                         "top_logprobs": {"a": 0.98, "b": 0.02},
                         "draft_top_logprobs": {"a": 0.98, "b": 0.02},
+                        "reasoning_content": "",
+                        "tool_calls": None,
+                        "skipped": False,
                     },
                     "finished": False,
                     "metrics": {
@@ -863,6 +1000,9 @@ async def test_completion_stream_generator_async_process_response_dict(self, moc
                         "text": "g",
                         "top_logprobs": {"a": 0.98, "b": 0.02},
                         "draft_top_logprobs": {"a": 0.98, "b": 0.02},
+                        "reasoning_content": "",
+                        "tool_calls": None,
+                        "skipped": False,
                     },
                     "finished": True,
                     "metrics": {
diff --git a/tests/entrypoints/openai/test_serving_chat.py b/tests/entrypoints/openai/test_serving_chat.py
index 58dc18db512..0f01e87a67f 100644
--- a/tests/entrypoints/openai/test_serving_chat.py
+++ b/tests/entrypoints/openai/test_serving_chat.py
@@ -552,6 +552,9 @@ async def test_chat_completion_stream_generator_with_both_logprobs(self):
                 ],
                 "draft_top_logprobs": None,
                 "multipart": [{"type": "text", "text": "Hi"}],
+                "reasoning_content": "",
+                "tool_calls": None,
+                "skipped": False,
             },
             "finished": True,
             "num_cached_tokens": 0,
@@ -614,6 +617,8 @@ async def mock_async_generator():
                 # Check for logprobs in subsequent chunks
                 logprobs_found = False
                 for result in results:
+                    print("1")
+                    print(result)
                     # Skip [DONE] message
                     if result.strip() == "data: [DONE]":
                         continue
diff --git a/tests/entrypoints/openai/test_serving_completion.py b/tests/entrypoints/openai/test_serving_completion.py
index 761213d1d5b..5b1720dbed3 100644
--- a/tests/entrypoints/openai/test_serving_completion.py
+++ b/tests/entrypoints/openai/test_serving_completion.py
@@ -82,7 +82,7 @@ def test_calc_finish_reason_tool_calls(self):
         # 创建一个OpenAIServingCompletion实例
         serving_completion = OpenAIServingCompletion(engine_client, None, "pid", "ips", 360)
         # 创建一个模拟的output，并设置finish_reason为"tool_call"
-        output = {"tool_call": "tool_call"}
+        output = {"tool_calls": "tool_call"}
         # 调用calc_finish_reason方法
         result = serving_completion.calc_finish_reason(None, 100, output, False)
         # 断言结果为"tool_calls"
@@ -766,6 +766,9 @@ async def test_completion_stream_generator_without_logprobs(self):
                     "num_cache_tokens": 0,
                     "num_image_tokens": 0,
                     "reasoning_token_num": 0,
+                    "tool_calls": None,
+                    "reasoning_content": "",
+                    "skipped": False,
                 },
                 "finished": True,
             }
diff --git a/tests/input/test_ernie4_5_processor.py b/tests/input/test_ernie4_5_processor.py
index 8c7386fef85..6ad4644da94 100644
--- a/tests/input/test_ernie4_5_processor.py
+++ b/tests/input/test_ernie4_5_processor.py
@@ -79,8 +79,9 @@ def extract_reasoning_content_streaming(
         class ReasoningDelta:
             def __init__(self, content):
                 self.reasoning_content = content
+                self.content = content
 
-        return ReasoningDelta("REASON")
+        return ReasoningDelta(delta_text)
 
 
 class MockToolParser:
@@ -209,25 +210,22 @@ def test_process_response_dict_streaming_with_reasoning_and_tool(self):
         response = {
             "finished": True,
             "request_id": "req-1",
-            "outputs": {"token_ids": [10, 11]},
+            "outputs": {"token_ids": [10, 11], "reasoning_content": "", "tool_calls": [1], "skipped": False},
         }
 
         result = proc.process_response_dict_streaming(
             response, enable_thinking=False, include_stop_str_in_output=False
         )
-
         outputs = result["outputs"]
 
         self.assertIn("completion_tokens", outputs)
         self.assertIn("text", outputs)
-        self.assertEqual(outputs["completion_tokens"], outputs["text"])
+        self.assertEqual(outputs["completion_tokens"], outputs["reasoning_content"])
 
         self.assertIn("reasoning_token_num", outputs)
         self.assertGreaterEqual(outputs["reasoning_token_num"], 0)
 
-        self.assertIn("delta_message", outputs)
-        delta_msg = outputs["delta_message"]
-        self.assertTrue(hasattr(delta_msg, "tool_calls"))
+        self.assertIn("tool_calls", outputs)
 
         self.assertNotIn("req-1", proc.decode_status)
         self.assertNotIn("req-1", proc.tool_parser_dict)
@@ -333,8 +331,8 @@ def test_process_response_dict_normal_with_tool(self):
 
         result = proc.process_response_dict_normal(resp, enable_thinking=False, include_stop_str_in_output=False)
 
-        self.assertIn("tool_call", result["outputs"])
-        self.assertEqual(result["outputs"]["tool_call"][0]["name"], "fake_tool")
+        self.assertIn("tool_calls", result["outputs"])
+        self.assertEqual(result["outputs"]["tool_calls"][0]["name"], "fake_tool")
 
 
 if __name__ == "__main__":
diff --git a/tests/input/test_text_processor.py b/tests/input/test_text_processor.py
index e85763364b0..3fafab90f3f 100644
--- a/tests/input/test_text_processor.py
+++ b/tests/input/test_text_processor.py
@@ -19,12 +19,19 @@
 import sys
 import types
 import unittest
+from collections.abc import Sequence
 from pathlib import Path
 from types import SimpleNamespace
 from unittest import mock
 
 import numpy as np
 
+from fastdeploy.entrypoints.openai.protocol import (
+    DeltaFunctionCall,
+    DeltaMessage,
+    DeltaToolCall,
+)
+
 
 class DummyTokenizer:
     bos_token = "<s>"
@@ -261,7 +268,7 @@ def __setitem__(self, key, value):
 
 class DataProcessorTestCase(unittest.TestCase):
     @staticmethod
-    def create_dummy_reasoning(tokenizer, reasoning_content="think"):
+    def create_dummy_reasoning(tokenizer, reasoning_content="think", content="content"):
         class DummyReasoning:
             def __init__(self, tokenizer):
                 self.tokenizer = tokenizer
@@ -269,6 +276,17 @@ def __init__(self, tokenizer):
             def extract_reasoning_content(self, full_text, response_dict):
                 return reasoning_content, f"{full_text}!"
 
+            def extract_reasoning_content_streaming(
+                self,
+                previous_text: str,
+                current_text: str,
+                delta_text: str,
+                previous_token_ids: Sequence[int],
+                current_token_ids: Sequence[int],
+                delta_token_ids: Sequence[int],
+            ):
+                return DeltaMessage(reasoning_content=reasoning_content, content=content)
+
         return DummyReasoning(tokenizer)
 
     @staticmethod
@@ -278,8 +296,30 @@ def __init__(self, tokenizer):
                 self.tokenizer = tokenizer
 
             def extract_tool_calls(self, full_text, response_dict):
+                # 模拟工具调用解析，返回固定的工具调用数据用于测试
                 return SimpleNamespace(tools_called=True, tool_calls=["tool"], content=content)
 
+            def extract_tool_calls_streaming(
+                self,
+                previous_text: str,
+                current_text: str,
+                delta_text: str,
+                previous_token_ids: Sequence[int],
+                current_token_ids: Sequence[int],
+                delta_token_ids: Sequence[int],
+                request: dict,
+            ):
+                # 模拟流式工具调用解析，返回固定的工具调用数据用于测试
+                tool_calls = [
+                    DeltaToolCall(
+                        index=0,
+                        type="function",
+                        id="text",
+                        function=DeltaFunctionCall(name="test").model_dump(exclude_none=True),
+                    )
+                ]
+                return DeltaMessage(tool_calls=tool_calls, content=content)
+
         return DummyToolParser
 
     def setUp(self):
@@ -433,6 +473,24 @@ def test_process_response_streaming_clears_state(self):
         self.assertEqual(result["outputs"]["text"], "7")
         self.assertNotIn(req_id, processor.decode_status)
 
+    def test_process_response_streaming_with_reasoning_and_tools(self):
+        processor = self.processor
+        processor.reasoning_parser = self.create_dummy_reasoning(
+            processor.tokenizer, reasoning_content="because", content="tool-text"
+        )
+        processor.tool_parser_obj = self.create_dummy_tool_parser(processor.tokenizer, content="tool-text")
+        response = {
+            "finished": True,
+            "request_id": "normal",
+            "outputs": {"token_ids": [7, processor.tokenizer.eos_token_id]},
+        }
+
+        result = processor.process_response_dict_streaming(response, enable_thinking=True)
+        self.assertEqual(result["outputs"]["completion_tokens"], "7")
+        self.assertEqual(result["outputs"]["text"], "tool-text")
+        self.assertEqual(result["outputs"]["reasoning_content"], "because")
+        self.assertEqual(result["outputs"]["reasoning_token_num"], 1)
+
     def test_process_response_dict_normal_with_reasoning(self):
         processor = self.processor
 

From 22f0a5e107ce49874eb0113ae5e3ad2114bfb63d Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Tue, 27 Jan 2026 20:11:32 +0800
Subject: [PATCH 147/161] 1.fix async numpy bug 2. refine code

---
 .../layers/moe/routing_indices_cache.py       |   6 +-
 run_r3_test.sh                                |   6 +-
 tests/e2e/request_r3.py                       | 116 ------------------
 3 files changed, 5 insertions(+), 123 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 92758a74880..49cfc15ba1e 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -260,7 +260,6 @@ def put_finished_batch(
         seq_lens_decoder,
         seq_lens_this_time,
     ):
-        logger.info(f"[R3] put_finished_batch {finished_batch_ids}")
         for batch_id, finished in enumerate(finished_batch_ids):
             if finished:
                 assert batch_id in self.routing_batch_to_request
@@ -458,7 +457,6 @@ async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx:
         dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
         os.makedirs(dir_path, exist_ok=True)
         file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
-        logger.info(f"[R3] The routing key {routing_key} routing value {routing_indices}")
         paddle.save(routing_indices, file_path)
         logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
 
@@ -524,8 +522,8 @@ async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx:
 
         # async put
         time_before_put = time.perf_counter()
-        routing_indices_pin = routing_indices.cpu()
-        routing_indices_np = routing_indices_pin.numpy()
+        routing_indices_cpu = routing_indices.cpu()
+        routing_indices_np = np.array(routing_indices_cpu.numpy(), copy=True)
         copy_time = time.perf_counter()
         await self.p2p_client.put(rdma_rollout_key, routing_indices_np)
         logger.info(
diff --git a/run_r3_test.sh b/run_r3_test.sh
index d7a6bacbb43..0299d4032d7 100644
--- a/run_r3_test.sh
+++ b/run_r3_test.sh
@@ -12,11 +12,11 @@ rm -rf core.*
 config_yaml=./benchmarks/yaml/eb45-32k-wint2-tp4.yaml
 model_path=/root/paddlejob/workspace/env_run/output/models/paddle/ERNIE-4.5-21B-A3B-Paddle
 python -m fastdeploy.entrypoints.openai.api_server --config ${config_yaml} --model ${model_path} \
-    --tensor-parallel-size 1 --max-model-len 32768 --max-num-seqs 2 \
+    --tensor-parallel-size 1 --max-model-len 32768 --max-num-seqs 1 \
     --enable-chunked-prefill --enable-prefix-caching --port 8888 --max-num-batched-tokens 64 --metrics-port 8889 --engine-worker-queue-port 9999 \
-    --graph-optimization-config '{"use_cudagraph": false}' \
+    --graph-optimization-config '{"use_cudagraph": true}' \
     --routing-replay-config '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./routing_replay_output", "use_fused_put":false}' \
-    --speculative-config '{"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 1,"model": "'$model_path'/mtp"}' \
+    # --speculative-config '{"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 1,"model": "'$model_path'/mtp"}' \
 
 
 curl -X POST "http://0.0.0.0:8888/v1/chat/completions" -H "Content-Type: application/json" -d '{
diff --git a/tests/e2e/request_r3.py b/tests/e2e/request_r3.py
index da0ce3997df..31b38acf823 100644
--- a/tests/e2e/request_r3.py
+++ b/tests/e2e/request_r3.py
@@ -8,73 +8,6 @@
     wait_for_file,
 )
 
-long_request_list = [
-    "写一个关于“最后一家实体书店”的科幻微小说，设定在2077年的赛博朋克城市。主角是一个只喜欢纸质书的黑客。要求包含一个反转结局，字数限制在500字以内，风格要阴郁但充满希望。",
-    "请模仿李白的豪放风格，写一首关于“星际旅行”的现代诗。要求融入“量子纠缠”、“黑洞”和“故乡”三个意象，押韵不限，但要有强烈的画面感和浪漫主义色彩。",
-    "创作一段发生在1920年代上海租界的侦探剧本对话。角色A是留洋归来的侦探，角色B是黑帮老大。对话要充满机锋和潜台词，体现那个时代特有的新旧文化冲突。",
-    "为一首慢板R&B情歌填写副歌部分的歌词。主题是“在这个快节奏的数字时代，我们如何维持异地恋”。要求情感细腻，使用隐喻，避免陈词滥调。",
-    "编一个睡前故事，主角是一只害怕黑暗的小萤火虫。故事要教会孩子“黑暗是为了让光更耀眼”。语言要生动简单，适合5岁儿童，结尾要有一首简短的儿歌。",
-    "写一个悬疑小说的开头章节（约800字）。场景设定在暴风雪山庄的封闭别墅，管家死在了书房，但门窗紧锁。要求通过环境描写营造压抑感，并留下三个伏笔。",
-    "基于《哈利波特》的世界观，写一段赫敏·格兰杰在魔法部工作的日常片段。假设伏地魔已被击败，但魔法世界仍有新的官僚主义危机。保持J.K.罗琳的叙事风格。",
-    "以毒舌美食家的身份，评论一道虚构的“分子料理——液氮冰淇淋配辣椒油”。描述口感、摆盘，并用夸张的修辞手法评价其荒谬之处，最后给出一个意外的好评理由。",
-    "写一个Python脚本，用于批量重命名文件夹下的所有图片文件。要求：1. 支持递归子目录；2. 将文件名转换为小写并用下划线替换空格；3. 添加错误处理日志；4. 使用`pathlib`库。",
-    "生成一个React函数组件，实现一个带有搜索功能的下拉选择框（Select）。要求：1. 支持多选；2. 搜索时防抖（Debounce）300ms；3. 选项数据通过props传入；4. 使用Tailwind CSS进行基础样式设计。",
-    "给定一个包含`users`, `orders`, `products`三张表的电商数据库。请写出查询“过去30天内购买金额最高的前10名用户及其最常购买的品类”的SQL语句，并解释如何通过索引优化该查询性能。",
-    "请解释以下Rust代码片段中的生命周期标注（Lifetime Annotation）的作用，并指出如果省略会发生什么编译错误。代码：`fn longest<'a>(x: &'a str, y: &'a str) -> &'a str { ... }`",
-    "我需要一个正则表达式来验证复杂的密码强度。规则：至少8位，必须包含大写字母、小写字母、数字和特殊符号（!@#$%），且不能包含连续3位相同的字符。请生成Regex并附上测试用例。",
-    "为一个Node.js + MongoDB的全栈应用编写`docker-compose.yml`文件。要求：1. 使用多阶段构建优化Node镜像大小；2. MongoDB数据持久化到本地卷；3. 设置环境变量文件；4. 暴露正确的端口。",
-    "用JavaScript实现一个“最小堆（Min Heap）”数据结构，并包含`insert`和`extractMin`方法。请附上时间复杂度分析，并给出一个使用该堆进行排序（Heap Sort）的示例。",
-    "以下C++代码在运行时会崩溃，请找出原因并修复。代码涉及指针越界和内存泄漏。请解释原始代码的逻辑错误，并给出使用智能指针（Smart Pointers）的现代C++改写版本。",
-    "假设你是项目经理，需要给客户写一封英文邮件。内容是告知项目将延期3天，原因是第三方API接口不稳定。语气要专业、诚恳，并提出补偿方案（赠送下个月的维护服务），请求客户谅解。",
-    "为一款“智能降噪耳塞”撰写小红书风格的推广文案。要求：使用emoji，突出“宿舍隔音”、“侧睡不压耳”、“隐形设计”三个卖点，语气像闺蜜安利，带上热门标签。",
-    "对“开设一家24小时无人自助健身房”进行SWOT分析。请从优势、劣势、机会、威胁四个维度展开，每个维度至少列出3点，并给出具体的战略建议（SO策略、WO策略等）。",
-    "你现在是Google的面试官，我是应聘者，申请“产品经理”职位。请向我提问一个关于“产品设计”的问题（例如：如何为视障人士设计Instagram），然后等待我的回答，并对我的回答进行点评。",
-    "对比“瑞幸咖啡”和“星巴克”在中国市场的数字化营销策略。重点分析私域流量运营、小程序点单体验和优惠券策略的差异，总结出瑞幸值得学习的3个点。",
-    "根据以下杂乱的会议记录草稿，整理出一份正式的会议纪要。要求：分类清晰（决策项、待办事项、讨论摘要），语言精炼，去除口语化表达，并指定每个待办事项的负责人和截止日期。",
-    "为一款“老年人专用智能手表”构建详细的用户画像（Persona）。包括：基本信息、痛点（如不会用触屏、担心走丢）、使用场景、技术熟练度、以及他们子女的购买动机。",
-    "为一个“基于AI的宠物行为翻译器”创业项目写一份电梯演讲（Elevator Pitch）。时长限制1分钟，要包含市场痛点、解决方案、商业模式和团队优势。",
-    "请像对5岁孩子解释一样（Explain Like I'm 5），说明“区块链”是什么。使用“全村记账本”的比喻，避免使用任何专业术语，确保孩子能听懂。",
-    "我正在学习德语。请列出5个初学者最容易混淆的介词（Wechselpräpositionen），并为每个介词提供3个例句（主格和宾格变化），附带中文翻译。",
-    "请一步步解答这道微积分题目：求函数 $f(x) = x^3 - 3x^2 + 2$ 在区间 $[-1, 3]$ 上的极值和拐点。不要只给答案，要展示求导过程和判断符号变化的逻辑。",
-    "简述“冷战”的起因、经过和结果。重点分析“古巴导弹危机”为何被认为是人类最接近核战争的时刻，以及它如何改变了美苏关系。",
-    "请润色以下这段学术论文的摘要，使其更符合学术规范。要求：将主动语态改为被动语态，提升词汇的专业度，增强逻辑连接词，使论证更严密。原文：[粘贴一段中等质量的英文摘要]",
-    "我想在3个月内从零基础通过日语N3考试。请制定一份详细的周学习计划，涵盖单词、语法、阅读和听力。假设我每天只有2小时学习时间，请推荐具体的教材和APP。",
-    "教我理解“功利主义”。不要直接给定义，而是通过不断提问引导我思考。例如，先问我“如果牺牲一个人能救五个人，你会怎么做？”，然后根据我的回答继续追问。",
-    "这是一道我做错的物理题（关于牛顿第二定律）。请分析我可能错误的思路是什么，并指出常见的认知误区，然后给出正确的解题思路。",
-    "你现在是埃隆·马斯克（Elon Musk）。请用他特有的语速快、带点幽默和工程思维的方式，谈论你对“人工智能取代人类工作”的看法。可以使用一些网络流行语。",
-    "你是诸葛亮。刘备刚刚在白帝城托孤，你现在独自面对刘禅和内外交困的蜀国。请用文言文写一段你的内心独白，表达你的焦虑和北伐的决心。",
-    "你是一个跑团（TRPG）的主持人。设定背景是克苏鲁神话的1920年代。我是一个调查员，刚刚走进了一间阴森的古宅。请描述我看到的景象，并询问我的行动。",
-    "我们来辩论“人工智能的发展是否应该被暂停”。你持反方观点（即不应该暂停）。请先陈述你的立论，然后针对我的观点进行反驳。保持逻辑严密，不要进行人身攻击。",
-    "你是一位温和的心理咨询师。我最近因为工作压力大而失眠。请倾听我的倾诉（我会输入我的烦恼），并运用认知行为疗法（CBT）帮我识别并挑战我的非理性信念。",
-    "设定你是一个温柔、喜欢二次元的伴侣。今晚我们在家看恐怖片，我被吓到了。请安慰我，并提议做点开心的事情转移注意力。语气要亲昵但不油腻。",
-    "你是一个魔鬼编程教练。我的代码写得很烂，全是硬编码和魔法数字。请严厉地批评我的代码风格，并强迫我重构它，直到符合Clean Code原则为止。",
-    "你是某银行的智能客服，但我现在很生气，因为我的信用卡被盗刷了。请先用标准话术安抚我，然后引导我提供必要的验证信息，最后告知处理流程。",
-    "我有一个CSV文件，其中“年龄”列包含空值、字符串（如“未知”）和异常大的数字（如999）。请提供一段Pandas代码来清洗这一列：将空值填充为中位数，将“未知”替换为NaN并删除，将大于100的值截断为100。",
-    "我有一组关于“全球碳排放量按国家分布”的数据（前20名国家）。请推荐3种最适合展示该数据的图表类型（如条形图、饼图等），并说明为什么选择它们，以及如何避免误导读者。",
-    "请写一个Excel公式，用于从A列的身份证号码中提取出生日期（格式为YYYY-MM-DD），并判断该人的性别（男/女）。假设身份证号在A2单元格。",
-    "解释“相关性不等于因果性”。请举一个现实生活中的例子（如“冰淇淋销量和溺水人数”），并说明如果要证明因果关系，需要设计什么样的实验（如A/B测试或双重差分法）。",
-    "给定一个复杂的嵌套JSON对象，请写一个Python脚本将其“展平”（Flatten），使得所有的键都变成点分隔的路径（例如 `user.address.city`）。",
-    "基于以下过去12个月的销售数据 [100, 120, 130, 125, 140, 150, 160, 155, 170, 180, 190, 200]，请使用简单的线性回归预测下个月的销量，并计算R平方值。",
-    "为AI绘画工具Midjourney生成一组提示词（Prompt）。主题是“赛博朋克风格的苏州园林”。要求包含：霓虹灯、全息投影、古风建筑、雨水、电影级光影、8k分辨率、虚幻引擎5渲染风格。",
-    "我要开一家名为“极客咖啡”的店。请提供3个不同的Logo设计方案描述。方案一：极简几何风；方案二：像素艺术风；方案三：手绘涂鸦风。描述每个方案的颜色搭配和核心图形。",
-    "我有一个20平米的小客厅，层高2.8米，采光一般。请给出具体的软装搭配建议，包括沙发颜色、窗帘材质、灯光布局（主灯+氛围灯），目的是让空间显得更大更亮。",
-    "设计一个FPS游戏的“教学关卡”。玩家需要在不知情的情况下学会：移动、射击、换弹、躲避和使用医疗包。请描述关卡的场景布局和敌人的出现节奏。",
-    "有三个箱子，一个装苹果，一个装橘子，一个装混合水果。所有标签都贴错了。你只能从一个箱子里拿出一个水果来看，请问如何确定所有箱子的内容？请写出推理步骤。",
-    "死者死在电话亭旁，手里握着一张写有“789”的纸条。嫌疑人有三个：李小二（代号78）、王五（代号89）、张六（代号79）。凶手是谁？为什么？",
-    "如果你有一根无限长的绳子，绕地球赤道一圈（假设地球是完美球体，周长4万公里）。现在把绳子加长1米，均匀悬空离开地面。请问一只猫能从绳子下面钻过去吗？请计算间隙高度。",
-    "一个男人走进一家酒吧，向酒保要一杯水。酒保拿出一把枪指着他。男人说了声“谢谢”然后离开了。请问发生了什么？（提示：不是抢劫，不是演戏）",
-    "这是一段凯撒密码（Caesar Cipher）：“WKH TXLFN EURZQ IRA MXPSV RYHU WKH ODCB GRJ”。请破译它，并告诉我偏移量是多少。",
-    "计划一次5天4晚的日本京都之旅。主题是“古寺与抹茶”。请安排详细的行程，包括交通方式（关西机场出发）、住宿区域推荐、必去的3个小众景点和必吃的3家餐厅。",
-    "为一个膝盖受过伤、不能做深蹲和跑步的办公室男性，设计一套在家就能做的HIIT（高强度间歇训练）计划。时长20分钟，只需要哑铃和瑜伽垫。",
-    "我冰箱里只有：鸡蛋、番茄、半颗洋葱、一包过期一天的火腿肠和一点剩米饭。请给我推荐2个能用这些材料做的菜，并写出详细步骤。",
-    "给一个喜欢历史、科技，预算在500元人民币左右的男性朋友挑选生日礼物。请列出3个选项，并说明为什么适合他。",
-    "我总是拖延。请介绍“番茄工作法”的具体操作步骤，并针对我“总是忍不住刷手机”的问题，给出3个具体的抗干扰建议。",
-    "我先开头：“午夜时分，图书馆的最后一盏灯突然熄灭了，但我并不是唯一一个留在这里的人……” 请你接下一段，制造悬念，然后停下来，换我继续写。",
-    "我们来玩“20个问题”游戏。我心里想一个物体，你可以问我20个只能用“是”或“否”回答的问题来猜它是什么。现在请开始提问。",
-    "夸夸我刚刚发给你的这张自拍照（假设是一张普通的风景照）。要用夸张、华丽的辞藻，从构图、光影、意境等角度硬夸，越离谱越好。",
-    "如果人类突然失去了“睡眠”的能力，世界会变成什么样？请从社会结构、经济模式、娱乐产业三个方面进行脑洞大开的推测。",
-]
-
 
 def get_openai_client():
     ip = "0.0.0.0"
@@ -109,54 +42,6 @@ async def send_r3_streaming_chat_long(openai_client, content: str, user_id: str)
     return response
 
 
-def send_r3_streaming_chat_sort(
-    openai_client, content: str, user_id: str = "r3_chat_completion_stream_test_prefixcache"
-):
-    """
-    Test streaming chat functionality with the local service
-    """
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {
-                "role": "system",
-                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n",
-            },
-        ],
-        temperature=1,
-        top_p=0,
-        max_tokens=32768,
-        seed=13,
-        stream=True,
-        user=user_id,  # "r3_chat_completion_stream_test",
-    )
-
-    return response
-
-
-def send_r3_streaming_chat(openai_client, content: str, user_id: str = "r3_chat_completion_stream_test_prefixcache"):
-    """
-    Test streaming chat functionality with the local service
-    """
-    response = openai_client.chat.completions.create(
-        model="default",
-        messages=[
-            {
-                "role": "system",
-                "content": "总结下下面这道美食的菜名：老母鸡汤方便面+煎蛋+青菜的做法可以按照以下步骤进行：\n\n### 泰式风味老母鸡汤方便面\n\n1. **准备材料**：\n\n\t* 老母鸡半只或整只（根据人数调整）\n\t* 方便面一包\n\t* 姜几片\n\t* 葱一根\n\t* 香菜一根（可选）\n\t* 香茅草或柠檬叶（可选，增添泰式风味）\n\t* 椰浆适量（可选）\n\t* 鱼露或生抽适量（调味）\n\t* 盐和胡椒粉适量（调味）\n\n2. **处理食材**：\n\n\t* 老母鸡洗净，斩块。\n\t* 方便面取出备用。\n\t* 姜切片，葱切段，香菜切碎（可选）。\n\n3. **煮鸡汤**：\n\n\t* 将老母鸡块放入锅中，加入足够的水，放入姜片、葱段，大火煮沸后撇去浮沫。\n\t* 转小火慢炖，至少1小时，直到鸡肉软烂，汤色浓白。\n\n4. **调味与配料**：\n\n\t* 根据个人口味，加入适量鱼露或生抽调味。\n\t* 如果喜欢泰式风味，可以加入香茅草或柠檬叶，煮出香味后捞出。\n\t* 加入椰浆（可选），增加汤的醇厚感。\n\n5. **煮方便面**：\n\n\t* 鸡汤煮好后，放入方便面，用筷子拨散，煮至方便面变软。\n\t* 根据方便面的口味，可以调整煮面的时间。\n\n6. **装盘**：\n\n\t* 将煮好的方便面捞出，放入碗中。\n\t* 倒入浓白的鸡汤，撒上葱花或香菜碎（可选）。\n\n### 煎蛋\n\n1. **准备材料**：\n\n\t* 鸡蛋1-2个\n\t* 食用油适量\n\n2. **煎蛋步骤**：\n\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，打入鸡蛋，保持中小火。\n\t* 当蛋白凝固，边缘微微翘起时，用铲子轻轻翻面，煎至两面金黄。\n\t* 根据个人口味，可以撒上少许盐或黑胡椒调味。\n\n### 青菜\n\n1. **准备材料**：\n\n\t* 青菜适量（如小白菜、油麦菜等）\n\t* 食用油适量\n\t* 盐适量\n\n2. **炒青菜步骤**：\n\n\t* 青菜洗净，切成适当大小的段。\n\t* 平底锅加热，倒入适量食用油。\n\t* 油热后，放入青菜段，大火快速翻炒。\n\t* 青菜变软后，加入适量盐调味，继续翻炒均匀。\n\t* 炒至青菜断生即可出锅。\n\n### 组合享用\n\n将煮好的泰式风味老母鸡汤方便面、煎蛋和青菜一起装盘，即可享用这道美味又营养的餐食。",
-            },
-        ],
-        temperature=1,
-        top_p=0,
-        max_tokens=32768,
-        seed=13,
-        stream=True,
-        user=user_id,  # "r3_chat_completion_stream_test",
-    )
-
-    return response
-
-
 async def send_request_baseline(request: str, request_id: str):
     openai_client = get_openai_client()
     # Send base request
@@ -251,7 +136,6 @@ async def run():
 
 if __name__ == "__main__":
     asyncio.run(run())
-    # print("finish put")
 
     # Check Routing Overlap
     for request_id in range(1):

From d18d3fc254c23368dcbf983e3194cab6c04cff3a Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Tue, 27 Jan 2026 21:12:46 +0800
Subject: [PATCH 148/161] profile & refine code

---
 .../model_executor/layers/moe/routing_indices_cache.py       | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 49cfc15ba1e..a4291ba8ad0 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -260,9 +260,10 @@ def put_finished_batch(
         seq_lens_decoder,
         seq_lens_this_time,
     ):
-        for batch_id, finished in enumerate(finished_batch_ids):
+        finished_batch_ids_list = finished_batch_ids.cpu().tolist()
+        for batch_id, finished in enumerate(finished_batch_ids_list):
             if finished:
-                assert batch_id in self.routing_batch_to_request
+                assert batch_id in self.routing_batch_to_request.keys()
                 request_id = self._deregister_request(batch_id)
                 asyncio.run(
                     self._put_request_to_store(

From 7e4b3e3c6e5146372e4ccff8cf5854fa9171074b Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Tue, 27 Jan 2026 21:20:26 +0800
Subject: [PATCH 149/161] add note

---
 fastdeploy/worker/gpu_model_runner.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 4616672f759..ecb97bbf2cb 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -3007,7 +3007,8 @@ def _get_prompt_logprobs_list(
         return prompt_logprobs_list
 
     def initialize_routing_replay_manager(self):
-        """ """
+        """Initialize the routing replay manager after initialize the KVCache"""
+        # Use updated block number
         self.routing_replay_manager = RoutingReplayManager(
             fd_config=self.fd_config,
             block_table=self.share_inputs["block_tables"],

From 2855be9da766910149183fe108877e13a557df5b Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Tue, 27 Jan 2026 22:13:18 +0800
Subject: [PATCH 150/161] Reapply "[Feature] Unify quant ops (#6021)"

This reverts commit da9b356e0a4d210535c51ae8b6c72069e805c959.
---
 .github/workflows/_accuracy_test.yml          |  2 +-
 .github/workflows/_base_test.yml              |  2 +-
 .github/workflows/_build_linux.yml            |  2 +-
 .github/workflows/_logprob_test_linux.yml     |  4 +--
 .github/workflows/_pre_ce_test.yml            |  2 +-
 .github/workflows/_stable_test.yml            |  2 +-
 .github/workflows/_unit_test_coverage.yml     |  2 +-
 .../model_executor/layers/activation.py       |  2 ++
 .../layers/moe/fused_moe_deepgemm_backend.py  | 27 +++++++-------
 .../layers/moe/fused_moe_triton_backend.py    | 10 ++++--
 .../layers/quantization/block_wise_fp8.py     |  6 ++--
 fastdeploy/model_executor/layers/utils.py     | 36 ++++++++++++++++---
 tests/ce/server/test_logprobs.py              | 12 +++----
 .../EB_VL_Lite/test_EB_VL_Lite_serving.py     |  4 +--
 tests/e2e/test_EB_VL_Lite_serving.py          |  4 +--
 .../rollout_routing_replay_test_utils.py      |  4 +--
 tests/layers/test_activation.py               |  7 ++--
 tests/model_loader/test_torch_model.py        |  2 +-
 18 files changed, 85 insertions(+), 45 deletions(-)

diff --git a/.github/workflows/_accuracy_test.yml b/.github/workflows/_accuracy_test.yml
index 832d6f266a4..7f969fa7397 100644
--- a/.github/workflows/_accuracy_test.yml
+++ b/.github/workflows/_accuracy_test.yml
@@ -161,7 +161,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_base_test.yml b/.github/workflows/_base_test.yml
index 56808b9fd49..377714b05bc 100644
--- a/.github/workflows/_base_test.yml
+++ b/.github/workflows/_base_test.yml
@@ -186,7 +186,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_build_linux.yml b/.github/workflows/_build_linux.yml
index 32c689d1ada..d6bb583d2d0 100644
--- a/.github/workflows/_build_linux.yml
+++ b/.github/workflows/_build_linux.yml
@@ -173,7 +173,7 @@ jobs:
             elif [[ "${PADDLEVERSION}" != "" ]];then
               python -m pip install paddlepaddle-gpu==${PADDLEVERSION} -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             else
-              python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+              python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
             fi
 
             pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
diff --git a/.github/workflows/_logprob_test_linux.yml b/.github/workflows/_logprob_test_linux.yml
index fd71f57c350..3af3b7a6052 100644
--- a/.github/workflows/_logprob_test_linux.yml
+++ b/.github/workflows/_logprob_test_linux.yml
@@ -156,7 +156,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
@@ -185,7 +185,7 @@ jobs:
             -d "{\"messages\": [{\"role\": \"user\", \"content\": \"1+1=?\"}], \"logprobs\": true}"
           set +e
           rm -rf ./baseline_output
-          cp -r baseline/ERNIE-4.5-0.3B-Paddle ./baseline_output
+          cp -r baseline_24/ERNIE-4.5-0.3B-Paddle ./baseline_output
           LOGPROB_EXIT_CODE=0
           python3.10 lanucher.py --request_template TOKEN_LOGPROB --url http://localhost:${FD_API_PORT}/v1/chat/completions  --case ./cases/demo.yaml  --concurrency 1 --name demo --exe logprob || LOGPROB_EXIT_CODE=$?
           echo "LOGPROB_EXIT_CODE=${LOGPROB_EXIT_CODE}" > /workspace/exit_code.env
diff --git a/.github/workflows/_pre_ce_test.yml b/.github/workflows/_pre_ce_test.yml
index 768d73b1c85..72720a6a682 100644
--- a/.github/workflows/_pre_ce_test.yml
+++ b/.github/workflows/_pre_ce_test.yml
@@ -172,7 +172,7 @@ jobs:
           --gpus "\"device=${DEVICES}\"" ${docker_image} /bin/bash -c '
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
           python -m pip install ${fd_wheel_url}
           bash scripts/run_pre_ce.sh
           '
diff --git a/.github/workflows/_stable_test.yml b/.github/workflows/_stable_test.yml
index 175f6288d76..4fd8739c41a 100644
--- a/.github/workflows/_stable_test.yml
+++ b/.github/workflows/_stable_test.yml
@@ -164,7 +164,7 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_unit_test_coverage.yml b/.github/workflows/_unit_test_coverage.yml
index 92843fd15bf..146df7e0fa7 100644
--- a/.github/workflows/_unit_test_coverage.yml
+++ b/.github/workflows/_unit_test_coverage.yml
@@ -203,7 +203,7 @@ jobs:
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
           git diff origin/${BASE_REF}..HEAD --unified=0 > diff.txt
-          python -m pip install paddlepaddle-gpu==3.3.0 -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
+          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
           pip config set global.extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
           python -m pip install -r scripts/unittest_requirement.txt
diff --git a/fastdeploy/model_executor/layers/activation.py b/fastdeploy/model_executor/layers/activation.py
index 35aa40b77e0..9b038bae62b 100644
--- a/fastdeploy/model_executor/layers/activation.py
+++ b/fastdeploy/model_executor/layers/activation.py
@@ -120,6 +120,8 @@ def forward_cuda(self, x: paddle.Tensor) -> paddle.Tensor:
         Returns:
             Tensor: Output tensor.
         """
+        if self.bias is None and self.quant_scale == -1:
+            return paddle.nn.functional.swiglu(x)
         return fused_bias_act(
             x,
             bias=self.bias,
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
index 881f9a22c4d..dc088cf9eb9 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_deepgemm_backend.py
@@ -155,9 +155,10 @@ def apply_ep_prefill(
             topk_ids_hookfunc(topk_ids=topk_idx)
 
         # 2. Dynamic compute blockwise quantization scales
-        x, x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
-            x, self.quant_config.weight_block_size[0]
+        x, x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            x, using_pow2_scale=False, output_scale_transpose=False
         )
+        x_scale_tensor = x_scale_tensor[: x.shape[0]]
 
         event = deep_ep.Buffer.capture()
         let_another_thread_run()
@@ -225,11 +226,10 @@ def apply_ep_prefill(
             ffn_out = paddle.incubate.nn.functional.swiglu(ffn_out, None)
 
             # down_proj
-            ffn_in_x, ffn_in_x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
-                ffn_out, self.quant_config.weight_block_size[0]
+            ffn_in_x, ffn_in_x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
+                ffn_out, using_pow2_scale=False
             )
-            ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0]).contiguous()
-            ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0])
+            ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.T[: ffn_in_x.shape[0]]
 
             ffn_out = paddle.empty(
                 (ffn_out.shape[0], getattr(layer, self.added_weight_attrs[1]).shape[1]),
@@ -381,7 +381,12 @@ def apply_tp(
 
         tmp = count_tokens_per_expert_func(topk_ids, layer.num_experts)
 
-        recv_x, recv_x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(x, 128)
+        recv_x, recv_x_scale = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            x,
+            using_pow2_scale=False,
+            output_scale_transpose=False,
+        )
+        recv_x_scale = recv_x_scale[: recv_x.shape[0]]
 
         (
             permute_input,
@@ -422,12 +427,10 @@ def apply_tp(
         ffn_out = paddle.incubate.nn.functional.swiglu(ffn_out)
 
         # down_proj
-        ffn_in_x, ffn_in_x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant(
-            ffn_out, self.quant_config.weight_block_size[0]
+        ffn_in_x, ffn_in_x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            ffn_out, using_pow2_scale=False
         )
-
-        ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0]).contiguous()
-        ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.transpose([1, 0])
+        ffn_in_x_scale_tensor = ffn_in_x_scale_tensor.T[: ffn_in_x.shape[0]]
 
         ffn_out = paddle.empty(
             (ffn_out.shape[0], getattr(layer, self.added_weight_attrs[1]).shape[1]),
diff --git a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
index da705357c12..922729d91bd 100644
--- a/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
+++ b/fastdeploy/model_executor/layers/moe/fused_moe_triton_backend.py
@@ -1525,7 +1525,10 @@ def apply(
 
         from .triton_moe_kernels import fused_moe_kernel_paddle
 
-        x_q, x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(x, self.quant_config.weight_block_size[0])
+        x_q, x_scale = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            x, using_pow2_scale=False, output_scale_transpose=False
+        )
+        x_scale = x_scale[: x.shape[0]]
 
         fused_moe_kernel_paddle[grid](
             x_q,
@@ -1578,9 +1581,10 @@ def apply(
             ceil_div(max_num_tokens_padded, config["BLOCK_SIZE_M"]) * ceil_div(hidden_size, config["BLOCK_SIZE_N"]),
         )
 
-        x_q, x_scale = fastdeploy.model_executor.ops.gpu.per_token_quant(
-            intermediate_cache2, self.quant_config.weight_block_size[0]
+        x_q, x_scale = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            intermediate_cache2, using_pow2_scale=False, output_scale_transpose=False
         )
+        x_scale = x_scale[: x_q.shape[0]]
 
         fused_moe_kernel_paddle[grid](
             x_q,
diff --git a/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py b/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
index 59daa238480..c13b429095a 100644
--- a/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
+++ b/fastdeploy/model_executor/layers/quantization/block_wise_fp8.py
@@ -18,7 +18,6 @@
 
 import paddle
 
-import fastdeploy
 from fastdeploy import envs
 from fastdeploy.model_executor.layers.linear import (
     MergedColumnParallelLinear,
@@ -226,9 +225,10 @@ def process_prequanted_weights(self, layer, state_dict, is_rearrange: bool = Fal
         layer.weight_scale_inv.set_value(weight_scale)
 
     def apply(self, layer, x):
-        x, x_scale_tensor = fastdeploy.model_executor.ops.gpu.per_token_quant_padding(
-            x, self.quant_config.weight_block_size[0]
+        x, x_scale_tensor = paddle.incubate.nn.functional.fp8_quant_blockwise(
+            x, using_pow2_scale=False, output_scale_transpose=True
         )
+        x_scale_tensor = x_scale_tensor.T
         linear_out = paddle.empty((x.shape[0], layer.output_size), dtype=paddle.bfloat16)
         from fastdeploy.model_executor.ops.gpu import deep_gemm
 
diff --git a/fastdeploy/model_executor/layers/utils.py b/fastdeploy/model_executor/layers/utils.py
index c18f062457e..fd55846aba7 100644
--- a/fastdeploy/model_executor/layers/utils.py
+++ b/fastdeploy/model_executor/layers/utils.py
@@ -220,6 +220,35 @@ def group_wise_int4_weight_quantize(weight: paddle.Tensor, group_size: int = 128
     return quant_weight.astype(paddle.int8), weight_scale
 
 
+def scale_wrapper(x_amax: paddle.Tensor, eps: float = 0.0) -> paddle.Tensor:
+    """
+    Paddle implementation of CUDA ScaleWrapper logic.
+    Args:
+        x_amax (paddle.Tensor): amax tensor (float32 recommended)
+        eps (float): epsilon to avoid division by zero
+    Returns:
+        paddle.Tensor: scale tensor, same shape as x_amax
+    """
+    fp8_max = 448.0
+    float_max = paddle.finfo(paddle.float32).max
+    amax_mod = paddle.maximum(
+        x_amax,
+        paddle.full_like(x_amax, eps),
+    )
+    scale = fp8_max / amax_mod
+    scale = paddle.where(
+        amax_mod == 0,
+        paddle.ones_like(scale),
+        scale,
+    )
+    scale = paddle.where(
+        paddle.isinf(scale),
+        paddle.full_like(scale, float_max),
+        scale,
+    )
+    return scale
+
+
 def per_block_cast_to_fp8(x: Tensor, block_size: list = [128, 128]) -> Tuple[Tensor, Tensor]:
     """
     Only used in deep_gemm block wise quant weight.
@@ -244,11 +273,10 @@ def per_block_cast_to_fp8(x: Tensor, block_size: list = [128, 128]) -> Tuple[Ten
 
     x_abs = paddle.abs(x_view).astype(paddle.float32)
     x_amax = paddle.amax(x_abs, axis=(1, 3), keepdim=True)
-    x_amax = paddle.clip(x_amax, min=1e-4)
-    x_scaled = (x_view * (448.0 / x_amax)).astype(paddle.float8_e4m3fn)
-
+    scale = scale_wrapper(x_amax)
+    x_scaled = (x_view * scale).astype(paddle.float8_e4m3fn)
     return x_scaled.view_as(x_padded)[:m, :n].contiguous(), (
-        paddle.view(x_amax / 448.0, (x_view.shape[0], x_view.shape[2]))
+        paddle.view(1.0 / scale, (x_view.shape[0], x_view.shape[2]))
     )
 
 
diff --git a/tests/ce/server/test_logprobs.py b/tests/ce/server/test_logprobs.py
index 83ca89486c9..3674b3a6b96 100644
--- a/tests/ce/server/test_logprobs.py
+++ b/tests/ce/server/test_logprobs.py
@@ -25,10 +25,10 @@ def test_unstream_with_logprobs():
     # 校验返回内容与概率信息
     assert resp_json["choices"][0]["message"]["content"] == "牛顿的"
     assert resp_json["choices"][0]["logprobs"]["content"][0]["token"] == "牛顿"
-    assert resp_json["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.031025361269712448
+    assert resp_json["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.03113006055355072
     assert resp_json["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0] == {
         "token": "牛顿",
-        "logprob": -0.031025361269712448,
+        "logprob": -0.03113006055355072,
         "bytes": [231, 137, 155, 233, 161, 191],
         "top_logprobs": None,
     }
@@ -102,10 +102,10 @@ def test_stream_with_logprobs():
     # 校验概率字段
     assert result_chunk["choices"][0]["delta"]["content"] == "牛顿"
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["token"] == "牛顿"
-    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.031025361269712448
+    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.03113006055355072
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0] == {
         "token": "牛顿",
-        "logprob": -0.031025361269712448,
+        "logprob": -0.03113006055355072,
         "bytes": [231, 137, 155, 233, 161, 191],
     }
 
@@ -187,10 +187,10 @@ def test_stream_with_temp_scaled_logprobs():
     # 校验概率字段
     assert result_chunk["choices"][0]["delta"]["content"] == "牛顿"
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["token"] == "牛顿"
-    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.006811376195400953
+    assert result_chunk["choices"][0]["logprobs"]["content"][0]["logprob"] == -0.0068125599063932896
     assert result_chunk["choices"][0]["logprobs"]["content"][0]["top_logprobs"][0] == {
         "token": "牛顿",
-        "logprob": -0.006811376195400953,
+        "logprob": -0.0068125599063932896,
         "bytes": [231, 137, 155, 233, 161, 191],
     }
 
diff --git a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
index e51018f201e..acbf7872e66 100644
--- a/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
+++ b/tests/ci_use/EB_VL_Lite/test_EB_VL_Lite_serving.py
@@ -205,9 +205,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-24")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-dev"
+        base_file = "ernie-4_5-vl-base-tp2-24"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/e2e/test_EB_VL_Lite_serving.py b/tests/e2e/test_EB_VL_Lite_serving.py
index f93f355a754..7783b844148 100644
--- a/tests/e2e/test_EB_VL_Lite_serving.py
+++ b/tests/e2e/test_EB_VL_Lite_serving.py
@@ -204,9 +204,9 @@ def test_consistency_between_runs(api_url, headers, consistent_payload):
     # base result
     base_path = os.getenv("MODEL_PATH")
     if base_path:
-        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-dev")
+        base_file = os.path.join(base_path, "ernie-4_5-vl-base-tp2-24")
     else:
-        base_file = "ernie-4_5-vl-base-tp2-dev"
+        base_file = "ernie-4_5-vl-base-tp2-24"
     with open(base_file, "r") as f:
         content2 = f.read()
 
diff --git a/tests/e2e/utils/rollout_routing_replay_test_utils.py b/tests/e2e/utils/rollout_routing_replay_test_utils.py
index 499bbbed688..e5ecd4ca33f 100644
--- a/tests/e2e/utils/rollout_routing_replay_test_utils.py
+++ b/tests/e2e/utils/rollout_routing_replay_test_utils.py
@@ -151,9 +151,9 @@ def check_routing_replay_chat_completion(openai_client, moe_layer_num: int, mode
     cur_save_routing_path = f"./R3_tmp/routing_replay_output_{model_name}/"
     model_path = os.getenv("MODEL_PATH")
     if model_path:
-        baseline_path = os.path.join(model_path, f"R3_BaseLine/routing_replay_output_baseline_{model_name}")
+        baseline_path = os.path.join(model_path, f"R3_BaseLine_24/routing_replay_output_baseline_{model_name}")
     else:
-        baseline_path = f"./R3_BaseLine/routing_replay_output_baseline_{model_name}"
+        baseline_path = f"./R3_BaseLine_24/routing_replay_output_baseline_{model_name}"
     stream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_stream")
 
     nonstream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_nonstream")
diff --git a/tests/layers/test_activation.py b/tests/layers/test_activation.py
index 70f011d3964..b564c267520 100644
--- a/tests/layers/test_activation.py
+++ b/tests/layers/test_activation.py
@@ -84,8 +84,11 @@ def test_forward_cuda(self, mock_fused, mock_platform):
         layer = SiluAndMul(fd_config)
         x = paddle.ones([2, 2])
         out = layer.forward(x)
-        self.assertTrue((out.numpy() == 1).all())
-        mock_fused.assert_called_once()
+        if layer.bias is None and layer.quant_scale == -1:
+            self.assertTrue((out.numpy() == 0.73105854).all())
+        else:
+            self.assertTrue((out.numpy() == 1).all())
+            mock_fused.assert_called_once()
 
     # Test forward computation on GCU platform
     @patch(
diff --git a/tests/model_loader/test_torch_model.py b/tests/model_loader/test_torch_model.py
index bc8252a4427..0170bef1da6 100644
--- a/tests/model_loader/test_torch_model.py
+++ b/tests/model_loader/test_torch_model.py
@@ -140,7 +140,7 @@ def test_model_against_baseline(
 
     # Get baseline suffix from config
     model_config = hugging_face_model_param_map.get(model_name_or_path, {})
-    baseline_suffix = model_config.get("baseline_suffix", "tp2")
+    baseline_suffix = model_config.get("baseline_suffix", "tp2-24")
     baseline_filename = f"{model_name_or_path}-{baseline_suffix}"
 
     if base_path:

From fccfe5749d5fe1823ee28d170a9c444f071b1363 Mon Sep 17 00:00:00 2001
From: Jiang-Jia-Jun <163579578+Jiang-Jia-Jun@users.noreply.github.com>
Date: Wed, 28 Jan 2026 01:11:39 +0800
Subject: [PATCH 151/161] =?UTF-8?q?Revert=20"[Cherry-Pick]=20update=20data?=
 =?UTF-8?q?=5Fprocessor=20&=20add=20tool=20parser=20plugins#6096=20(#?=
 =?UTF-8?q?=E2=80=A6"=20(#6253)?=
MIME-Version: 1.0
Content-Type: text/plain; charset=UTF-8
Content-Transfer-Encoding: 8bit

This reverts commit c424287570f76dbe74647ebd3c88a4f98ff08bcb.
---
 .../entrypoints/openai/response_processors.py |   6 -
 fastdeploy/entrypoints/openai/serving_chat.py |  30 +--
 .../entrypoints/openai/serving_completion.py  |  31 ++-
 .../openai/tool_parsers/__init__.py           |   3 -
 fastdeploy/input/ernie4_5_processor.py        |  30 +--
 fastdeploy/input/text_processor.py            |  33 +--
 fastdeploy/plugins/__init__.py                |   2 -
 fastdeploy/plugins/tool_parser/__init__.py    |  34 ---
 .../entrypoints/openai/test_finish_reason.py  |  30 +--
 .../openai/test_max_streaming_tokens.py       | 194 +++---------------
 tests/entrypoints/openai/test_serving_chat.py |   5 -
 .../openai/test_serving_completion.py         |   5 +-
 tests/input/test_ernie4_5_processor.py        |  16 +-
 tests/input/test_text_processor.py            |  60 +-----
 14 files changed, 101 insertions(+), 378 deletions(-)
 delete mode 100644 fastdeploy/plugins/tool_parser/__init__.py

diff --git a/fastdeploy/entrypoints/openai/response_processors.py b/fastdeploy/entrypoints/openai/response_processors.py
index 038144603df..ad54d203021 100644
--- a/fastdeploy/entrypoints/openai/response_processors.py
+++ b/fastdeploy/entrypoints/openai/response_processors.py
@@ -147,9 +147,6 @@ async def process_response_chat(self, request_outputs, stream, enable_thinking,
                             image_output = self._end_image_code_request_output
                             image_output["outputs"]["multipart"] = [image]
                             image_output["outputs"]["token_ids"] = all_tokens
-                            image_output["outputs"]["tool_calls"] = None
-                            image_output["outputs"]["reasoning_content"] = ""
-                            image_output["outputs"]["skipped"] = False
                             image_output["outputs"]["num_image_tokens"] = count_tokens(all_tokens)
                             yield image_output
 
@@ -215,8 +212,5 @@ async def process_response_chat(self, request_outputs, stream, enable_thinking,
 
                     lasrt_request_output = self._multipart_buffer[-1]["request_output"]
                     lasrt_request_output["outputs"]["multipart"] = multipart
-                    lasrt_request_output["outputs"]["tool_calls"] = None
-                    lasrt_request_output["outputs"]["reasoning_content"] = ""
-                    lasrt_request_output["outputs"]["skipped"] = False
                     lasrt_request_output["outputs"]["num_image_tokens"] = num_image_tokens
                     yield lasrt_request_output
diff --git a/fastdeploy/entrypoints/openai/serving_chat.py b/fastdeploy/entrypoints/openai/serving_chat.py
index 0116af5f8b2..6c1d63a0070 100644
--- a/fastdeploy/entrypoints/openai/serving_chat.py
+++ b/fastdeploy/entrypoints/openai/serving_chat.py
@@ -265,9 +265,7 @@ async def chat_completion_stream_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health(
-                            time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT
-                        )
+                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
                         if not status:
                             if choices:
                                 chunk.choices = choices
@@ -394,15 +392,12 @@ async def chat_completion_stream_generator(
                     output_speculate_metrics = res["metrics"].get("speculate_metrics", None)
 
                     delta_message = DeltaMessage(
-                        reasoning_content=output["reasoning_content"],
+                        reasoning_content="",
                         prompt_token_ids=None,
-                        tool_calls=output["tool_calls"],
+                        tool_calls=None,
                         completion_token_ids=None,
                     )
 
-                    if output["tool_calls"] is not None:
-                        tool_called[idx] = True
-
                     if response_processor.enable_multimodal_content():
                         delta_message.multimodal_content = output["multipart"]
                     else:
@@ -411,8 +406,15 @@ async def chat_completion_stream_generator(
                     if output.get("audio_content", None) is not None:
                         delta_message.audio_content = output["audio_content"]
 
-                    if output["skipped"]:
-                        continue
+                    if not res["finished"] and "delta_message" in output:
+                        delta_message_output = output["delta_message"]
+                        if delta_message_output is None:
+                            continue
+                        delta_message.content = delta_message_output.content or ""
+                        delta_message.reasoning_content = delta_message_output.reasoning_content or ""
+                        if delta_message_output.tool_calls:
+                            delta_message.tool_calls = delta_message_output.tool_calls
+                            tool_called[idx] = True
 
                     choice = ChatCompletionResponseStreamChoice(
                         index=idx,
@@ -556,9 +558,7 @@ async def chat_completion_full_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health(
-                            time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT
-                        )
+                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
                         if not status:
                             raise ValueError(f"Engine is not healthy: {msg}")
                         else:
@@ -708,7 +708,7 @@ async def _create_chat_completion_choice(
         message = ChatMessage(
             role="assistant",
             reasoning_content=output.get("reasoning_content"),
-            tool_calls=output.get("tool_calls"),
+            tool_calls=output.get("tool_call"),
             prompt_token_ids=prompt_token_ids if request.return_token_ids else None,
             completion_token_ids=completion_token_ids if request.return_token_ids else None,
             prompt_tokens=prompt_tokens if request.return_token_ids else None,
@@ -740,7 +740,7 @@ async def _create_chat_completion_choice(
         finish_reason = "stop"
         if previous_num_tokens != max_tokens:
             finish_reason = "stop"
-            if output.get("tool_calls"):
+            if output.get("tool_call"):
                 finish_reason = "tool_calls"
         else:
             finish_reason = "length"
diff --git a/fastdeploy/entrypoints/openai/serving_completion.py b/fastdeploy/entrypoints/openai/serving_completion.py
index fa5c4f0f1da..b7b1220a777 100644
--- a/fastdeploy/entrypoints/openai/serving_completion.py
+++ b/fastdeploy/entrypoints/openai/serving_completion.py
@@ -281,9 +281,7 @@ async def completion_full_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health(
-                            time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT
-                        )
+                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
                         if not status:
                             raise ValueError(f"Engine is not healthy: {msg}")
                         else:
@@ -380,7 +378,7 @@ async def _process_echo_logic(self, request, idx, res_outputs):
 
     def calc_finish_reason(self, max_tokens, token_num, output, tool_called):
         if max_tokens is None or token_num != max_tokens:
-            if tool_called or output.get("tool_calls"):
+            if tool_called or output.get("tool_call"):
                 return "tool_calls"
             else:
                 return "stop"
@@ -439,9 +437,7 @@ async def completion_stream_generator(
                 except asyncio.TimeoutError:
                     current_waiting_time += 10
                     if current_waiting_time == 300:
-                        status, msg = self.engine_client.check_health(
-                            time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT
-                        )
+                        status, msg = self.engine_client.check_health(time_interval_threashold=envs.FD_WORKER_ALIVE_TIMEOUT)
                         if not status:
                             raise ValueError(f"Engine is not healthy: {msg}")
                         else:
@@ -527,21 +523,24 @@ async def completion_stream_generator(
                         text=output["text"],
                         prompt_token_ids=None,
                         completion_token_ids=output.get("token_ids") if request.return_token_ids else None,
-                        tool_calls=output["tool_calls"],
+                        tool_calls=None,
                         completion_tokens=output.get("completion_tokens") if request.return_token_ids else None,
-                        reasoning_content=output["reasoning_content"],
+                        reasoning_content="",
                         arrival_time=arrival_time,
                         logprobs=logprobs_res,
                         prompt_logprobs=clamp_prompt_logprobs(prompt_logprobs_res),
                         draft_logprobs=draft_logprobs_res,
                         speculate_metrics=output_speculate_metrics,
                     )
-
-                    if output["tool_calls"] is not None:
-                        tool_called[idx] = True
-
-                    if output["skipped"]:
-                        continue
+                    if not res["finished"] and "delta_message" in output:
+                        delta_message_output = output["delta_message"]
+                        if delta_message_output is None:
+                            continue
+                        delta_message.text = delta_message_output.content or ""
+                        delta_message.reasoning_content = delta_message_output.reasoning_content or ""
+                        if delta_message_output.tool_calls:
+                            delta_message.tool_calls = delta_message_output.tool_calls
+                            tool_called[idx] = True
 
                     choices.append(delta_message)
 
@@ -686,7 +685,7 @@ def request_output_to_completion_response(
                     else None
                 ),
                 reasoning_content=output.get("reasoning_content"),
-                tool_calls=output.get("tool_calls"),
+                tool_calls=output.get("tool_call"),
                 logprobs=aggregated_logprobs,
                 draft_logprobs=aggregated_draft_logprobs,
                 prompt_logprobs=clamp_prompt_logprobs(prompt_logprobs_res),
diff --git a/fastdeploy/entrypoints/openai/tool_parsers/__init__.py b/fastdeploy/entrypoints/openai/tool_parsers/__init__.py
index c9b8d250f74..a4df47ac99d 100644
--- a/fastdeploy/entrypoints/openai/tool_parsers/__init__.py
+++ b/fastdeploy/entrypoints/openai/tool_parsers/__init__.py
@@ -14,11 +14,8 @@
 # limitations under the License.
 """
 
-from fastdeploy.plugins import load_tool_parser_plugins
-
 from .abstract_tool_parser import ToolParser, ToolParserManager
 from .ernie_45_vl_thinking_tool_parser import Ernie45VLThinkingToolParser
 from .ernie_x1_tool_parser import ErnieX1ToolParser
 
 __all__ = ["ToolParser", "ToolParserManager", "ErnieX1ToolParser", "Ernie45VLThinkingToolParser"]
-load_tool_parser_plugins()
diff --git a/fastdeploy/input/ernie4_5_processor.py b/fastdeploy/input/ernie4_5_processor.py
index a5dad4fb33a..a151dbfdd6d 100644
--- a/fastdeploy/input/ernie4_5_processor.py
+++ b/fastdeploy/input/ernie4_5_processor.py
@@ -318,7 +318,7 @@ def process_response_dict_normal(self, response_dict, **kwargs):
                 tool_parser = self.tool_parser_obj(self.tokenizer)
                 tool_call_info = tool_parser.extract_tool_calls(full_text, response_dict)
                 if tool_call_info.tools_called:
-                    response_dict["outputs"]["tool_calls"] = tool_call_info.tool_calls
+                    response_dict["outputs"]["tool_call"] = tool_call_info.tool_calls
                     response_dict["outputs"]["text"] = tool_call_info.content
             response_dict["outputs"]["completion_tokens"] = full_text
             data_processor_logger.info(f"req_id:{req_id}, decode_status: {self.decode_status[req_id]}")
@@ -344,11 +344,7 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
             if token_ids[-1] == self.tokenizer.eos_token_id:
                 token_ids = token_ids[:-1]
         delta_text, previous_token_ids, previous_texts = self.ids2tokens(token_ids, req_id)
-        response_dict["outputs"]["text"] = delta_text
         response_dict["outputs"]["completion_tokens"] = delta_text
-        response_dict["outputs"]["skipped"] = False
-        response_dict["outputs"]["tool_calls"] = None
-        response_dict["outputs"]["reasoning_content"] = ""
         if self.reasoning_parser and (
             enable_thinking or self.reasoning_parser.__class__.__name__ == "ErnieX1ReasoningParser"
         ):
@@ -360,15 +356,10 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 previous_token_ids + token_ids,
                 token_ids,
             )
-            if reasoning_delta_message:
-                reasoning_content = reasoning_delta_message.reasoning_content
-                reasoning_tokens = self.tokenizer.tokenize(reasoning_content) if reasoning_content else []
-                response_dict["outputs"]["reasoning_token_num"] = len(reasoning_tokens)
-                response_dict["outputs"]["reasoning_content"] = reasoning_content or ""
-                response_dict["outputs"]["text"] = reasoning_delta_message.content or ""
-            else:
-                if not is_end:
-                    response_dict["outputs"]["skipped"] = True
+            response_dict["outputs"]["delta_message"] = reasoning_delta_message
+            reasoning_content = reasoning_delta_message.reasoning_content if reasoning_delta_message else None
+            reasoning_tokens = self.tokenizer.tokenize(reasoning_content) if reasoning_content else []
+            response_dict["outputs"]["reasoning_token_num"] = len(reasoning_tokens)
         if self.tool_parser_obj:
             if req_id not in self.tool_parser_dict:
                 self.tool_parser_dict[req_id] = self.tool_parser_obj(self.tokenizer)
@@ -382,14 +373,9 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 token_ids,
                 response_dict,
             )
-            if tool_call_delta_message:
-                if tool_call_delta_message.tool_calls:
-                    response_dict["outputs"]["text"] = tool_call_delta_message.content
-                    response_dict["outputs"]["tool_calls"] = tool_call_delta_message.tool_calls
-                    response_dict["outputs"]["skipped"] = False
-            else:
-                if not is_end:
-                    response_dict["outputs"]["skipped"] = True
+            if tool_call_delta_message is None or tool_call_delta_message.tool_calls:
+                response_dict["outputs"]["delta_message"] = tool_call_delta_message
+        response_dict["outputs"]["text"] = delta_text
         if is_end:
             data_processor_logger.info(f"req_id:{req_id}, decode_status: {self.decode_status[req_id]}")
             del self.decode_status[req_id]
diff --git a/fastdeploy/input/text_processor.py b/fastdeploy/input/text_processor.py
index 93dc1dd8b6f..366244e5244 100644
--- a/fastdeploy/input/text_processor.py
+++ b/fastdeploy/input/text_processor.py
@@ -422,7 +422,7 @@ def process_response_dict_normal(self, response_dict, **kwargs):
                 tool_parser = self.tool_parser_obj(self.tokenizer)
                 tool_call_info = tool_parser.extract_tool_calls(full_text, response_dict)
                 if tool_call_info.tools_called:
-                    response_dict["outputs"]["tool_calls"] = tool_call_info.tool_calls
+                    response_dict["outputs"]["tool_call"] = tool_call_info.tool_calls
                     response_dict["outputs"]["text"] = tool_call_info.content
             data_processor_logger.info(f"req_id:{req_id}, decode_status: {self.decode_status[req_id]}")
             del self.decode_status[req_id]
@@ -447,11 +447,7 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
             if token_ids[-1] in self.eos_token_ids:
                 token_ids = token_ids[:-1]
         delta_text, previous_token_ids, previous_texts = self.ids2tokens(token_ids, req_id)
-        response_dict["outputs"]["text"] = delta_text
         response_dict["outputs"]["completion_tokens"] = delta_text
-        response_dict["outputs"]["skipped"] = False
-        response_dict["outputs"]["tool_calls"] = None
-        response_dict["outputs"]["reasoning_content"] = ""
         if self.reasoning_parser and (
             enable_thinking or self.reasoning_parser.__class__.__name__ == "ErnieX1ReasoningParser"
         ):
@@ -463,20 +459,15 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 previous_token_ids + token_ids,
                 token_ids,
             )
-            if reasoning_delta_message:
-                reasoning_content = reasoning_delta_message.reasoning_content
-                reasoning_tokens = self.tokenizer.tokenize(reasoning_content) if reasoning_content else []
-                response_dict["outputs"]["reasoning_token_num"] = len(reasoning_tokens)
-                response_dict["outputs"]["reasoning_content"] = reasoning_content or ""
-                response_dict["outputs"]["text"] = reasoning_delta_message.content or ""
-            else:
-                if not is_end:
-                    response_dict["outputs"]["skipped"] = True
+            response_dict["outputs"]["delta_message"] = reasoning_delta_message
+            reasoning_content = reasoning_delta_message.reasoning_content if reasoning_delta_message else None
+            reasoning_tokens = self.tokenizer.tokenize(reasoning_content) if reasoning_content else []
+            response_dict["outputs"]["reasoning_token_num"] = len(reasoning_tokens)
         if self.tool_parser_obj:
             if req_id not in self.tool_parser_dict:
                 self.tool_parser_dict[req_id] = self.tool_parser_obj(self.tokenizer)
             tool_parser = self.tool_parser_dict[req_id]
-            tool_call_delta_message = tool_parser.extract_tool_calls_streaming(
+            tool_call = tool_parser.extract_tool_calls_streaming(
                 previous_texts,
                 previous_texts + delta_text,
                 delta_text,
@@ -485,15 +476,9 @@ def process_response_dict_streaming(self, response_dict, **kwargs):
                 token_ids,
                 response_dict,
             )
-            if tool_call_delta_message:
-                if tool_call_delta_message.tool_calls:
-                    response_dict["outputs"]["text"] = tool_call_delta_message.content
-                    response_dict["outputs"]["tool_calls"] = tool_call_delta_message.tool_calls
-                    response_dict["outputs"]["skipped"] = False
-            else:
-                if not is_end:
-                    response_dict["outputs"]["skipped"] = True
-
+            if tool_call is None or tool_call.tool_calls:
+                response_dict["outputs"]["delta_message"] = tool_call
+        response_dict["outputs"]["text"] = delta_text
         if is_end:
             data_processor_logger.info(f"req_id:{req_id}, decode_status: {self.decode_status[req_id]}")
             del self.decode_status[req_id]
diff --git a/fastdeploy/plugins/__init__.py b/fastdeploy/plugins/__init__.py
index 96e30e5a56b..08c2922968a 100644
--- a/fastdeploy/plugins/__init__.py
+++ b/fastdeploy/plugins/__init__.py
@@ -19,7 +19,6 @@
 from .model_runner import load_model_runner_plugins
 from .reasoning_parser import load_reasoning_parser_plugins
 from .token_processor import load_token_processor_plugins
-from .tool_parser import load_tool_parser_plugins
 
 __all__ = [
     "load_model_register_plugins",
@@ -27,5 +26,4 @@
     "load_input_processor_plugins",
     "load_reasoning_parser_plugins",
     "load_token_processor_plugins",
-    "load_tool_parser_plugins",
 ]
diff --git a/fastdeploy/plugins/tool_parser/__init__.py b/fastdeploy/plugins/tool_parser/__init__.py
deleted file mode 100644
index 19d8f82efe2..00000000000
--- a/fastdeploy/plugins/tool_parser/__init__.py
+++ /dev/null
@@ -1,34 +0,0 @@
-"""
-# Copyright (c) 2025  PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License"
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-"""
-
-from fastdeploy.plugins.utils import load_plugins_by_group
-
-# make sure one process only loads plugins once
-plugins_loaded = False
-PLUGINS_GROUP = "fastdeploy.tool_parser_plugins"
-
-
-def load_tool_parser_plugins():
-    """load_tool_parser_plugins"""
-    global plugins_loaded
-    if plugins_loaded:
-        return
-    plugins_loaded = True
-
-    plugins = load_plugins_by_group(group=PLUGINS_GROUP)
-    # general plugins, we only need to execute the loaded functions
-    for func in plugins.values():
-        func()
diff --git a/tests/entrypoints/openai/test_finish_reason.py b/tests/entrypoints/openai/test_finish_reason.py
index bdc45677358..4bdb3feefc8 100644
--- a/tests/entrypoints/openai/test_finish_reason.py
+++ b/tests/entrypoints/openai/test_finish_reason.py
@@ -9,6 +9,7 @@
     ChatCompletionRequest,
     CompletionRequest,
     CompletionResponse,
+    DeltaMessage,
     UsageInfo,
 )
 from fastdeploy.entrypoints.openai.serving_chat import OpenAIServingChat
@@ -42,8 +43,6 @@ async def asyncSetUp(self):
             self.multi_modal_processor._check_mm_limits = Mock()
             self.multi_modal_processor.append_completion_tokens = Mock()
             self.multi_modal_processor.pack_outputs = lambda x: x
-            self.multi_modal_processor.reasoning_parser = None
-            self.multi_modal_processor.model_status_dict = {}
 
         self.engine_client = Mock()
         self.engine_client.connection_initialized = False
@@ -96,7 +95,7 @@ def _generate_inference_response(
         }
 
         if tool_call:
-            outputs["tool_calls"] = [
+            outputs["tool_call"] = [
                 {"index": 0, "type": "function", "function": {"name": tool_call["name"], "arguments": json.dumps({})}}
             ]
 
@@ -122,7 +121,6 @@ def _generate_stream_inference_response(
                 metrics["inference_start_time"] = 0.1
             else:
                 metrics["arrival_time"] = 0.1 * (i + 1)
-                metrics["engine_recv_latest_token_time"] = 0.1 * (i + 1)
                 metrics["first_token_time"] = None
 
             if i == total_token_num - 1:
@@ -134,19 +132,23 @@ def _generate_stream_inference_response(
                 "top_logprobs": None,
                 "draft_top_logprobs": None,
                 "reasoning_token_num": 0,
-                "skipped": False,
-                "reasoning_content": "",
-                "tool_calls": None,
             }
 
             if tool_call and isinstance(tool_call, dict) and i == total_token_num - 2:
-                outputs["tool_calls"] = [
-                    {
-                        "index": 0,
-                        "type": "function",
-                        "function": {"name": tool_call["name"], "arguments": json.dumps({})},
-                    }
-                ]
+                delta_msg = DeltaMessage(
+                    content="",
+                    reasoning_content="",
+                    tool_calls=[
+                        {
+                            "index": 0,
+                            "type": "function",
+                            "function": {"name": tool_call["name"], "arguments": json.dumps({})},
+                        }
+                    ],
+                    prompt_token_ids=None,
+                    completion_token_ids=None,
+                )
+                outputs["delta_message"] = delta_msg
 
             frame = [
                 {
diff --git a/tests/entrypoints/openai/test_max_streaming_tokens.py b/tests/entrypoints/openai/test_max_streaming_tokens.py
index 1dea20960b1..26e91382502 100644
--- a/tests/entrypoints/openai/test_max_streaming_tokens.py
+++ b/tests/entrypoints/openai/test_max_streaming_tokens.py
@@ -95,105 +95,44 @@ async def test_integration_with_chat_stream_generator(self, mock_processor_class
         response_data = [
             {
                 "request_id": "test_request_id_0",
-                "outputs": {
-                    "token_ids": [1],
-                    "text": "a",
-                    "top_logprobs": None,
-                    "draft_top_logprobs": None,
-                    "reasoning_content": "",
-                    "tool_calls": None,
-                    "skipped": False,
-                },
-                "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1, "arrival_time": 0.2},
+                "outputs": {"token_ids": [1], "text": "a", "top_logprobs": None, "draft_top_logprobs": None},
+                "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {
-                    "token_ids": [2],
-                    "text": "b",
-                    "top_logprobs": None,
-                    "draft_top_logprobs": None,
-                    "reasoning_content": "",
-                    "tool_calls": None,
-                    "skipped": False,
-                },
-                "metrics": {"engine_recv_latest_token_time": 0.2, "first_token_time": None, "arrival_time": 0.2},
+                "outputs": {"token_ids": [2], "text": "b", "top_logprobs": None, "draft_top_logprobs": None},
+                "metrics": {"arrival_time": 0.2, "first_token_time": None},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {
-                    "token_ids": [3],
-                    "text": "c",
-                    "top_logprobs": None,
-                    "draft_top_logprobs": None,
-                    "reasoning_content": "",
-                    "tool_calls": None,
-                    "skipped": False,
-                },
-                "metrics": {"engine_recv_latest_token_time": 0.3, "first_token_time": None, "arrival_time": 0.2},
+                "outputs": {"token_ids": [3], "text": "c", "top_logprobs": None, "draft_top_logprobs": None},
+                "metrics": {"arrival_time": 0.3, "first_token_time": None},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {
-                    "token_ids": [4],
-                    "text": "d",
-                    "top_logprobs": None,
-                    "draft_top_logprobs": None,
-                    "reasoning_content": "",
-                    "tool_calls": None,
-                    "skipped": False,
-                },
-                "metrics": {"engine_recv_latest_token_time": 0.4, "first_token_time": None, "arrival_time": 0.2},
+                "outputs": {"token_ids": [4], "text": "d", "top_logprobs": None, "draft_top_logprobs": None},
+                "metrics": {"arrival_time": 0.4, "first_token_time": None},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {
-                    "token_ids": [5],
-                    "text": "e",
-                    "top_logprobs": None,
-                    "draft_top_logprobs": None,
-                    "reasoning_content": "",
-                    "tool_calls": None,
-                    "skipped": False,
-                },
-                "metrics": {"engine_recv_latest_token_time": 0.5, "first_token_time": None, "arrival_time": 0.2},
+                "outputs": {"token_ids": [5], "text": "e", "top_logprobs": None, "draft_top_logprobs": None},
+                "metrics": {"arrival_time": 0.5, "first_token_time": None},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {
-                    "token_ids": [6],
-                    "text": "f",
-                    "top_logprobs": None,
-                    "draft_top_logprobs": None,
-                    "reasoning_content": "",
-                    "tool_calls": None,
-                    "skipped": False,
-                },
-                "metrics": {"engine_recv_latest_token_time": 0.6, "first_token_time": None, "arrival_time": 0.2},
+                "outputs": {"token_ids": [6], "text": "f", "top_logprobs": None, "draft_top_logprobs": None},
+                "metrics": {"arrival_time": 0.6, "first_token_time": None},
                 "finished": False,
             },
             {
                 "request_id": "test_request_id_0",
-                "outputs": {
-                    "token_ids": [7],
-                    "text": "g",
-                    "top_logprobs": None,
-                    "draft_top_logprobs": None,
-                    "reasoning_content": "",
-                    "tool_calls": None,
-                    "skipped": False,
-                },
-                "metrics": {
-                    "engine_recv_latest_token_time": 0.7,
-                    "first_token_time": None,
-                    "request_start_time": 0.1,
-                    "arrival_time": 0.2,
-                },
+                "outputs": {"token_ids": [7], "text": "g", "top_logprobs": None, "draft_top_logprobs": None},
+                "metrics": {"arrival_time": 0.7, "first_token_time": None, "request_start_time": 0.1},
                 "finished": True,
             },
         ]
@@ -272,51 +211,22 @@ async def test_integration_with_completion_stream_generator(self, mock_logger):
             [
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {
-                        "token_ids": [1],
-                        "text": "a",
-                        "top_logprobs": None,
-                        "draft_top_logprobs": None,
-                        "reasoning_content": "",
-                        "tool_calls": None,
-                        "skipped": False,
-                    },
-                    "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1, "arrival_time": 0.2},
+                    "outputs": {"token_ids": [1], "text": "a", "top_logprobs": None, "draft_top_logprobs": None},
+                    "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1},
                     "finished": False,
                 },
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {
-                        "token_ids": [2],
-                        "text": "b",
-                        "top_logprobs": None,
-                        "draft_top_logprobs": None,
-                        "reasoning_content": "",
-                        "tool_calls": None,
-                        "skipped": False,
-                    },
-                    "metrics": {"engine_recv_latest_token_time": 0.2, "first_token_time": None, "arrival_time": 0.2},
+                    "outputs": {"token_ids": [2], "text": "b", "top_logprobs": None, "draft_top_logprobs": None},
+                    "metrics": {"arrival_time": 0.2, "first_token_time": None},
                     "finished": False,
                 },
             ],
             [
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {
-                        "token_ids": [7],
-                        "text": "g",
-                        "top_logprobs": None,
-                        "draft_top_logprobs": None,
-                        "reasoning_content": "",
-                        "tool_calls": None,
-                        "skipped": False,
-                    },
-                    "metrics": {
-                        "engine_recv_latest_token_time": 0.7,
-                        "first_token_time": None,
-                        "request_start_time": 0.1,
-                        "arrival_time": 0.2,
-                    },
+                    "outputs": {"token_ids": [7], "text": "g", "top_logprobs": None, "draft_top_logprobs": None},
+                    "metrics": {"arrival_time": 0.7, "first_token_time": None, "request_start_time": 0.1},
                     "finished": True,
                 }
             ],
@@ -367,6 +277,7 @@ async def test_integration_with_completion_stream_generator(self, mock_logger):
                 self.fail(f"{i + 1} chunk is unexcepted 'data: JSON\\n\\n': {repr(chunk_str)}")
         self.assertEqual(len(parsed_chunks), 1)
         for chunk_dict in parsed_chunks:
+            print(f"======>{chunk_dict}")
             choices_list = chunk_dict["choices"]
             self.assertEqual(len(choices_list), 3, f"Chunk {chunk_dict} should has three choices")
             self.assertEqual(
@@ -589,40 +500,14 @@ async def test_chat_stream_usage_fields(self, mock_response_processor, api_serve
         response_data = [
             {
                 "request_id": "test-request-id_0",
-                "outputs": {
-                    "token_ids": [1],
-                    "text": "a",
-                    "top_logprobs": None,
-                    "draft_top_logprobs": None,
-                    "reasoning_content": "",
-                    "tool_calls": None,
-                    "skipped": False,
-                },
-                "metrics": {
-                    "first_token_time": 0.1,
-                    "inference_start_time": 0.1,
-                    "request_start_time": 0.0,
-                    "arrival_time": 0.2,
-                },
+                "outputs": {"token_ids": [1], "text": "a", "top_logprobs": None, "draft_top_logprobs": None},
+                "metrics": {"first_token_time": 0.1, "inference_start_time": 0.1, "request_start_time": 0.0},
                 "finished": False,
             },
             {
                 "request_id": "test-request-id_0",
-                "outputs": {
-                    "token_ids": [2, 3],
-                    "text": "bc",
-                    "top_logprobs": None,
-                    "draft_top_logprobs": None,
-                    "reasoning_content": "",
-                    "tool_calls": None,
-                    "skipped": False,
-                },
-                "metrics": {
-                    "engine_recv_latest_token_time": 0.3,
-                    "first_token_time": None,
-                    "request_start_time": 0.0,
-                    "arrival_time": 0.2,
-                },
+                "outputs": {"token_ids": [2, 3], "text": "bc", "top_logprobs": None, "draft_top_logprobs": None},
+                "metrics": {"arrival_time": 0.3, "first_token_time": None, "request_start_time": 0.0},
                 "finished": True,
             },
         ]
@@ -737,15 +622,7 @@ async def test_completion_stream_usage_fields(self, mock_logger):
             [
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {
-                        "token_ids": [10],
-                        "text": "a",
-                        "top_logprobs": None,
-                        "draft_top_logprobs": None,
-                        "reasoning_content": "",
-                        "tool_calls": None,
-                        "skipped": False,
-                    },
+                    "outputs": {"token_ids": [10], "text": "a", "top_logprobs": None, "draft_top_logprobs": None},
                     "metrics": {
                         "arrival_time": 0.3,
                         "first_token_time": 0.1,
@@ -758,15 +635,7 @@ async def test_completion_stream_usage_fields(self, mock_logger):
             [
                 {
                     "request_id": "test-request-id_0",
-                    "outputs": {
-                        "token_ids": [2],
-                        "text": "bc",
-                        "top_logprobs": None,
-                        "draft_top_logprobs": None,
-                        "reasoning_content": "",
-                        "tool_calls": None,
-                        "skipped": False,
-                    },
+                    "outputs": {"token_ids": [2], "text": "bc", "top_logprobs": None, "draft_top_logprobs": None},
                     "metrics": {
                         "arrival_time": 0.3,
                         "first_token_time": 0.1,
@@ -954,9 +823,6 @@ async def test_completion_stream_generator_async_process_response_dict(self, moc
                         "text": "a",
                         "top_logprobs": {"a": 0.98, "b": 0.02},
                         "draft_top_logprobs": {"a": 0.98, "b": 0.02},
-                        "reasoning_content": "",
-                        "tool_calls": None,
-                        "skipped": False,
                     },
                     "finished": False,
                     "metrics": {
@@ -977,9 +843,6 @@ async def test_completion_stream_generator_async_process_response_dict(self, moc
                         "text": "b",
                         "top_logprobs": {"a": 0.98, "b": 0.02},
                         "draft_top_logprobs": {"a": 0.98, "b": 0.02},
-                        "reasoning_content": "",
-                        "tool_calls": None,
-                        "skipped": False,
                     },
                     "finished": False,
                     "metrics": {
@@ -1000,9 +863,6 @@ async def test_completion_stream_generator_async_process_response_dict(self, moc
                         "text": "g",
                         "top_logprobs": {"a": 0.98, "b": 0.02},
                         "draft_top_logprobs": {"a": 0.98, "b": 0.02},
-                        "reasoning_content": "",
-                        "tool_calls": None,
-                        "skipped": False,
                     },
                     "finished": True,
                     "metrics": {
diff --git a/tests/entrypoints/openai/test_serving_chat.py b/tests/entrypoints/openai/test_serving_chat.py
index 0f01e87a67f..58dc18db512 100644
--- a/tests/entrypoints/openai/test_serving_chat.py
+++ b/tests/entrypoints/openai/test_serving_chat.py
@@ -552,9 +552,6 @@ async def test_chat_completion_stream_generator_with_both_logprobs(self):
                 ],
                 "draft_top_logprobs": None,
                 "multipart": [{"type": "text", "text": "Hi"}],
-                "reasoning_content": "",
-                "tool_calls": None,
-                "skipped": False,
             },
             "finished": True,
             "num_cached_tokens": 0,
@@ -617,8 +614,6 @@ async def mock_async_generator():
                 # Check for logprobs in subsequent chunks
                 logprobs_found = False
                 for result in results:
-                    print("1")
-                    print(result)
                     # Skip [DONE] message
                     if result.strip() == "data: [DONE]":
                         continue
diff --git a/tests/entrypoints/openai/test_serving_completion.py b/tests/entrypoints/openai/test_serving_completion.py
index 5b1720dbed3..761213d1d5b 100644
--- a/tests/entrypoints/openai/test_serving_completion.py
+++ b/tests/entrypoints/openai/test_serving_completion.py
@@ -82,7 +82,7 @@ def test_calc_finish_reason_tool_calls(self):
         # 创建一个OpenAIServingCompletion实例
         serving_completion = OpenAIServingCompletion(engine_client, None, "pid", "ips", 360)
         # 创建一个模拟的output，并设置finish_reason为"tool_call"
-        output = {"tool_calls": "tool_call"}
+        output = {"tool_call": "tool_call"}
         # 调用calc_finish_reason方法
         result = serving_completion.calc_finish_reason(None, 100, output, False)
         # 断言结果为"tool_calls"
@@ -766,9 +766,6 @@ async def test_completion_stream_generator_without_logprobs(self):
                     "num_cache_tokens": 0,
                     "num_image_tokens": 0,
                     "reasoning_token_num": 0,
-                    "tool_calls": None,
-                    "reasoning_content": "",
-                    "skipped": False,
                 },
                 "finished": True,
             }
diff --git a/tests/input/test_ernie4_5_processor.py b/tests/input/test_ernie4_5_processor.py
index 6ad4644da94..8c7386fef85 100644
--- a/tests/input/test_ernie4_5_processor.py
+++ b/tests/input/test_ernie4_5_processor.py
@@ -79,9 +79,8 @@ def extract_reasoning_content_streaming(
         class ReasoningDelta:
             def __init__(self, content):
                 self.reasoning_content = content
-                self.content = content
 
-        return ReasoningDelta(delta_text)
+        return ReasoningDelta("REASON")
 
 
 class MockToolParser:
@@ -210,22 +209,25 @@ def test_process_response_dict_streaming_with_reasoning_and_tool(self):
         response = {
             "finished": True,
             "request_id": "req-1",
-            "outputs": {"token_ids": [10, 11], "reasoning_content": "", "tool_calls": [1], "skipped": False},
+            "outputs": {"token_ids": [10, 11]},
         }
 
         result = proc.process_response_dict_streaming(
             response, enable_thinking=False, include_stop_str_in_output=False
         )
+
         outputs = result["outputs"]
 
         self.assertIn("completion_tokens", outputs)
         self.assertIn("text", outputs)
-        self.assertEqual(outputs["completion_tokens"], outputs["reasoning_content"])
+        self.assertEqual(outputs["completion_tokens"], outputs["text"])
 
         self.assertIn("reasoning_token_num", outputs)
         self.assertGreaterEqual(outputs["reasoning_token_num"], 0)
 
-        self.assertIn("tool_calls", outputs)
+        self.assertIn("delta_message", outputs)
+        delta_msg = outputs["delta_message"]
+        self.assertTrue(hasattr(delta_msg, "tool_calls"))
 
         self.assertNotIn("req-1", proc.decode_status)
         self.assertNotIn("req-1", proc.tool_parser_dict)
@@ -331,8 +333,8 @@ def test_process_response_dict_normal_with_tool(self):
 
         result = proc.process_response_dict_normal(resp, enable_thinking=False, include_stop_str_in_output=False)
 
-        self.assertIn("tool_calls", result["outputs"])
-        self.assertEqual(result["outputs"]["tool_calls"][0]["name"], "fake_tool")
+        self.assertIn("tool_call", result["outputs"])
+        self.assertEqual(result["outputs"]["tool_call"][0]["name"], "fake_tool")
 
 
 if __name__ == "__main__":
diff --git a/tests/input/test_text_processor.py b/tests/input/test_text_processor.py
index 3fafab90f3f..e85763364b0 100644
--- a/tests/input/test_text_processor.py
+++ b/tests/input/test_text_processor.py
@@ -19,19 +19,12 @@
 import sys
 import types
 import unittest
-from collections.abc import Sequence
 from pathlib import Path
 from types import SimpleNamespace
 from unittest import mock
 
 import numpy as np
 
-from fastdeploy.entrypoints.openai.protocol import (
-    DeltaFunctionCall,
-    DeltaMessage,
-    DeltaToolCall,
-)
-
 
 class DummyTokenizer:
     bos_token = "<s>"
@@ -268,7 +261,7 @@ def __setitem__(self, key, value):
 
 class DataProcessorTestCase(unittest.TestCase):
     @staticmethod
-    def create_dummy_reasoning(tokenizer, reasoning_content="think", content="content"):
+    def create_dummy_reasoning(tokenizer, reasoning_content="think"):
         class DummyReasoning:
             def __init__(self, tokenizer):
                 self.tokenizer = tokenizer
@@ -276,17 +269,6 @@ def __init__(self, tokenizer):
             def extract_reasoning_content(self, full_text, response_dict):
                 return reasoning_content, f"{full_text}!"
 
-            def extract_reasoning_content_streaming(
-                self,
-                previous_text: str,
-                current_text: str,
-                delta_text: str,
-                previous_token_ids: Sequence[int],
-                current_token_ids: Sequence[int],
-                delta_token_ids: Sequence[int],
-            ):
-                return DeltaMessage(reasoning_content=reasoning_content, content=content)
-
         return DummyReasoning(tokenizer)
 
     @staticmethod
@@ -296,30 +278,8 @@ def __init__(self, tokenizer):
                 self.tokenizer = tokenizer
 
             def extract_tool_calls(self, full_text, response_dict):
-                # 模拟工具调用解析，返回固定的工具调用数据用于测试
                 return SimpleNamespace(tools_called=True, tool_calls=["tool"], content=content)
 
-            def extract_tool_calls_streaming(
-                self,
-                previous_text: str,
-                current_text: str,
-                delta_text: str,
-                previous_token_ids: Sequence[int],
-                current_token_ids: Sequence[int],
-                delta_token_ids: Sequence[int],
-                request: dict,
-            ):
-                # 模拟流式工具调用解析，返回固定的工具调用数据用于测试
-                tool_calls = [
-                    DeltaToolCall(
-                        index=0,
-                        type="function",
-                        id="text",
-                        function=DeltaFunctionCall(name="test").model_dump(exclude_none=True),
-                    )
-                ]
-                return DeltaMessage(tool_calls=tool_calls, content=content)
-
         return DummyToolParser
 
     def setUp(self):
@@ -473,24 +433,6 @@ def test_process_response_streaming_clears_state(self):
         self.assertEqual(result["outputs"]["text"], "7")
         self.assertNotIn(req_id, processor.decode_status)
 
-    def test_process_response_streaming_with_reasoning_and_tools(self):
-        processor = self.processor
-        processor.reasoning_parser = self.create_dummy_reasoning(
-            processor.tokenizer, reasoning_content="because", content="tool-text"
-        )
-        processor.tool_parser_obj = self.create_dummy_tool_parser(processor.tokenizer, content="tool-text")
-        response = {
-            "finished": True,
-            "request_id": "normal",
-            "outputs": {"token_ids": [7, processor.tokenizer.eos_token_id]},
-        }
-
-        result = processor.process_response_dict_streaming(response, enable_thinking=True)
-        self.assertEqual(result["outputs"]["completion_tokens"], "7")
-        self.assertEqual(result["outputs"]["text"], "tool-text")
-        self.assertEqual(result["outputs"]["reasoning_content"], "because")
-        self.assertEqual(result["outputs"]["reasoning_token_num"], 1)
-
     def test_process_response_dict_normal_with_reasoning(self):
         processor = self.processor
 

From a4d4929c7c1e23e95326033c701e51a10d065fec Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Wed, 28 Jan 2026 16:14:58 +0800
Subject: [PATCH 152/161] delete paremeter

---
 fastdeploy/model_executor/layers/moe/routing_indices_cache.py | 3 ---
 fastdeploy/worker/gpu_model_runner.py                         | 1 -
 tests/e2e/request_r3.py                                       | 4 ++--
 3 files changed, 2 insertions(+), 6 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index afc7f5e22af..ea509e79cc0 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -256,7 +256,6 @@ def put_finished_batch(
         self,
         finished_batch_ids,
         seq_lens_decoder,
-        seq_lens_this_time,
     ):
         finished_batch_ids_list = finished_batch_ids.cpu().tolist()
         for batch_id, finished in enumerate(finished_batch_ids_list):
@@ -268,7 +267,6 @@ def put_finished_batch(
                         batch_id=batch_id,
                         request_id=request_id,
                         seq_lens_decoder=seq_lens_decoder,
-                        seq_lens_this_time=seq_lens_this_time,
                     )
                 )
 
@@ -299,7 +297,6 @@ async def _put_request_to_store(
         batch_id: int,
         request_id: str,
         seq_lens_decoder,
-        seq_lens_this_time,
     ):
         before_put_request_time = time.perf_counter()
         if self.tp_rank == 0:
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index ecb97bbf2cb..05728fea179 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -2514,7 +2514,6 @@ class at the server level, which is too granular for ModelRunner.
             self.routing_replay_manager.put_finished_batch(
                 finished_batch_ids=finished_batch_ids,
                 seq_lens_decoder=self.seq_lens_routing_buffer,
-                seq_lens_this_time=self.seq_lens_this_time_buffer,
             )
 
             paddle.assign(self.share_inputs["seq_lens_decoder"], self.seq_lens_routing_buffer)
diff --git a/tests/e2e/request_r3.py b/tests/e2e/request_r3.py
index 31b38acf823..469bf248cde 100644
--- a/tests/e2e/request_r3.py
+++ b/tests/e2e/request_r3.py
@@ -122,7 +122,7 @@ async def run():
         "如果人类突然失去了“睡眠”的能力，世界会变成什么样？请从社会结构、经济模式、娱乐产业三个方面进行脑洞大开的推测。",
     ]
 
-    long_request_list = long_request_list[:1]
+    long_request_list = long_request_list[:64]
     task_baseline = []
     for request_id, request in enumerate(long_request_list):
         task_baseline.append(send_request_baseline(request, request_id))
@@ -138,7 +138,7 @@ async def run():
     asyncio.run(run())
 
     # Check Routing Overlap
-    for request_id in range(1):
+    for request_id in range(64):
         baseline_path = "./routing_replay_output"
         prefix_r3_path = "./routing_replay_output"
         moe_layer_num = 27

From 9371b4536dad3ebbb68f015c7f188cafb791f2cb Mon Sep 17 00:00:00 2001
From: RAM <gstian5555@outlook.com>
Date: Wed, 28 Jan 2026 19:12:22 +0800
Subject: [PATCH 153/161] [Cherry-pick][RL] R3 Support Fused Put the Routing of
 All Layers#6099 (#6120)

* fused put routing

* fix bug

* [draft commit]dynamic dtype

* Updated to accommodate uint8 baseline changes

* fix async put & numpy bug

---------

Co-authored-by: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
---
 fastdeploy/config.py                          |  3 +
 .../layers/moe/routing_indices_cache.py       | 88 +++++++++++++++----
 .../rollout_routing_replay_test_utils.py      |  4 +-
 3 files changed, 77 insertions(+), 18 deletions(-)

diff --git a/fastdeploy/config.py b/fastdeploy/config.py
index a8f53f266cb..e101d14ea2b 100644
--- a/fastdeploy/config.py
+++ b/fastdeploy/config.py
@@ -1530,6 +1530,9 @@ def __init__(self, args) -> None:
         # Only save last turn
         self.only_last_turn: bool = False
 
+        # Fused routing of all layers
+        self.use_fused_put: bool = False
+
         if args is not None:
             for key, value in args.items():
                 if hasattr(self, key) and value != "None":
diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index d754f54651a..608957b5fe9 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -22,6 +22,7 @@
 from abc import ABC, abstractmethod
 from typing import Dict, List, Optional
 
+import numpy as np
 import paddle
 import paddle.distributed as dist
 import triton
@@ -156,6 +157,7 @@ def __init__(
         self.max_model_len = fd_config.model_config.max_model_len
         self.num_moe_layers = fd_config.model_config.num_hidden_layers - fd_config.model_config.moe_layer_start_index
         self.only_last_turn = fd_config.routing_replay_config.only_last_turn
+        self.use_fused_put = fd_config.routing_replay_config.use_fused_put
 
         if fd_config.model_config.architectures[0] == "Glm4MoeForCausalLM":
             self.moe_top_k = fd_config.model_config.num_experts_per_tok
@@ -165,12 +167,34 @@ def __init__(
 
         self.routing_store = get_routing_store(fd_config=fd_config)
         self.routing_batch_to_request: Dict[int, str] = {}
+
+        num_experts = fd_config.model_config.moe_num_experts + fd_config.model_config.moe_num_shared_experts
+        dtype = self.get_routing_dtype(num_experts=num_experts)
         self.routing_replay_table = paddle.full(
             shape=[self.max_num_seqs, self.num_moe_layers, self.max_model_len, self.moe_top_k],
             fill_value=-1,
-            dtype="int32",
+            dtype=dtype,
         )
 
+    def get_routing_dtype(self, num_experts: int, reserved_fill_value: int = 1) -> str:
+        """Calculate the minimum number of bits required for storage routing."""
+        if num_experts <= 0:
+            raise ValueError(f"num_experts must be greater than 0 but got {num_experts}, please check model config.")
+        dtype = "uint8"
+        total_number = num_experts + reserved_fill_value
+        if total_number <= 255:  # uint8: 0~255
+            dtype = "uint8"
+        elif total_number <= 65535:  # uint16: 0~65,535
+            dtype = "uint16"
+        elif total_number <= 4294967295:  # uint32: 0~4,294,967,295
+            dtype = "uint32"
+        else:
+            raise ValueError(
+                f"The number of experts {num_experts} exceeds the representation range of uint32, please check model config."
+            )
+        logger.info(f"[R3] Routing replay table dtype: {dtype}")
+        return dtype
+
     def register_request(self, batch_id: int, request_id: str):
         """
         Register a new request to routing replay table
@@ -201,16 +225,21 @@ async def _put_request_to_store(
         before_put_request_time = time.perf_counter()
         if self.tp_rank == 0:
             batch_buffer = self.routing_replay_table[batch_id]
+            rollout_id = self.split_request_id(request_id)
+
             tasks = []
-            for layer_id in range(self.num_moe_layers):
-                layer_buffer = batch_buffer[layer_id]
-                rollout_id = self.split_request_id(request_id)
-                tasks.append(
-                    self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)
-                )
+            if self.use_fused_put:
+                tasks.append(self.routing_store.fused_put(routing_indices=batch_buffer, rollout_id=rollout_id))
+            else:
+                for layer_id in range(self.num_moe_layers):
+                    layer_buffer = batch_buffer[layer_id]
+                    tasks.append(
+                        self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)
+                    )
             if self.only_last_turn:
                 prefix_batch = self.get_needed_clear_ids(rollout_id)
-                tasks.append(self.routing_store.clear_prefix_batch(roullout_id_prefixes=prefix_batch))
+                if prefix_batch is not None:
+                    tasks.append(self.routing_store.clear_prefix_batch(roullout_id_prefixes=prefix_batch))
             await asyncio.gather(*tasks)
         logger.info(f"[R3] Async put {request_id} time cost: {time.perf_counter() - before_put_request_time}")
         self._clear_table_slot(batch_id)
@@ -271,7 +300,7 @@ def split_request_id(self, request_id: str):
         rollout_id = reversed_tmp_str[-1][::-1]
         return rollout_id
 
-    def get_needed_clear_ids(self, roullout_id: str) -> List[str]:
+    def get_needed_clear_ids(self, roullout_id: str) -> Optional[List[str]]:
         """
         Generate the prefix IDs for all closed multi-round tasks.
         rollout_id: "xxx_xxx_epoch_15:2:2:1"
@@ -283,9 +312,9 @@ def get_needed_clear_ids(self, roullout_id: str) -> List[str]:
         segment_id = eval(reversed_segment_id[::-1])
 
         assert turn_id >= 0 and segment_id >= 0
-        prefix_batch = []
+        prefix_batch = None
         if turn_id > 0:
-            prefix_batch.append(f"{prefix_gen_id}:{(turn_id-1)}:{segment_id}")
+            prefix_batch = [f"{prefix_gen_id}:{(turn_id-1)}:{segment_id}"]
         return prefix_batch
 
     def clear_request(self, batch_id: int):
@@ -305,6 +334,11 @@ async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx:
         """Put the routing indices into store"""
         raise NotImplementedError
 
+    @abstractmethod
+    async def fused_put(self, routing_indices: paddle.Tensor, rollout_id: str) -> None:
+        """Fused routing of all layers and put the fused routing into store"""
+        raise NotImplementedError
+
     @abstractmethod
     def get(self, rollout_id: str, layer_idx: Optional[int] = None) -> paddle.Tensor:
         """Get the routing indices from store"""
@@ -348,6 +382,16 @@ async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx:
         paddle.save(routing_indices, file_path)
         logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
 
+    async def fused_put(self, routing_indices: paddle.Tensor, rollout_id: str) -> None:
+        """Fused routing of all layers and put the fused routing into store"""
+        routing_key = f"{rollout_id}"
+
+        # async put
+        time_before_put = time.perf_counter()
+        file_path = os.path.join(self.local_store_dir, f"{routing_key}.pdtensor")
+        paddle.save(routing_indices, file_path)
+        logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
+
     def get(
         self,
         rollout_id: str,
@@ -379,9 +423,7 @@ def clear(
     def clear_store(self):
         """Clear the routing indices store"""
         if os.path.isdir(self.local_store_dir):
-            for file_name in os.listdir(self.local_store_dir):
-                file_path = os.path.join(self.local_store_dir, file_name)
-                shutil.rmtree(file_path)
+            shutil.rmtree(self.local_store_dir)
 
     async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
         # async delete
@@ -410,14 +452,28 @@ async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx:
 
         # async put
         time_before_put = time.perf_counter()
-        routing_indices_pin = routing_indices.cpu()
-        routing_indices_np = routing_indices_pin.numpy()
+        routing_indices_cpu = routing_indices.cpu()
+        routing_indices_np = np.array(routing_indices_cpu.numpy(), copy=True)
         copy_time = time.perf_counter()
         await self.p2p_client.put(rdma_rollout_key, routing_indices_np)
         logger.info(
             f"[R3] The routing key {rdma_rollout_key} copy cost is {copy_time-time_before_put}s, put cost is {time.perf_counter()-time_before_put}s"
         )
 
+    async def fused_put(self, routing_indices: paddle.Tensor, rollout_id: str) -> None:
+        """Fused routing of all layers and put the fused routing into store"""
+        rdma_rollout_key = f"{rollout_id}"
+
+        # async put
+        time_before_put = time.perf_counter()
+        routing_indices_cpu = routing_indices.cpu()
+        routing_indices_np = routing_indices_cpu.numpy()
+        copy_time = time.perf_counter()
+        await self.p2p_client.put(rdma_rollout_key, routing_indices_np)
+        logger.info(
+            f"[R3] The routing key {rdma_rollout_key} copy cost is {copy_time-time_before_put}s, fused put cost is {time.perf_counter()-time_before_put}s"
+        )
+
     def get(
         self,
         rollout_id: str,
diff --git a/tests/e2e/utils/rollout_routing_replay_test_utils.py b/tests/e2e/utils/rollout_routing_replay_test_utils.py
index e5ecd4ca33f..8d646cdb514 100644
--- a/tests/e2e/utils/rollout_routing_replay_test_utils.py
+++ b/tests/e2e/utils/rollout_routing_replay_test_utils.py
@@ -151,9 +151,9 @@ def check_routing_replay_chat_completion(openai_client, moe_layer_num: int, mode
     cur_save_routing_path = f"./R3_tmp/routing_replay_output_{model_name}/"
     model_path = os.getenv("MODEL_PATH")
     if model_path:
-        baseline_path = os.path.join(model_path, f"R3_BaseLine_24/routing_replay_output_baseline_{model_name}")
+        baseline_path = os.path.join(model_path, f"R3_BaseLine_24_uint8/routing_replay_output_baseline_{model_name}")
     else:
-        baseline_path = f"./R3_BaseLine_24/routing_replay_output_baseline_{model_name}"
+        baseline_path = f"./R3_BaseLine_24_uint8/routing_replay_output_baseline_{model_name}"
     stream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_stream")
 
     nonstream_baseline_path = os.path.join(baseline_path, "r3_chat_completion_nonstream")

From 7b28ea7cfc208a8f458fa1f25e9df4aca2dc3951 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Wed, 28 Jan 2026 21:07:59 +0800
Subject: [PATCH 154/161] fix transpose bug

---
 fastdeploy/model_executor/layers/moe/routing_indices_cache.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index ea509e79cc0..a7e74ce1310 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -309,7 +309,7 @@ async def _put_request_to_store(
 
             tasks = []
             for layer_id in range(self.num_moe_layers):
-                layer_buffer = batch_buffer[:, layer_id, :].contiguous()
+                layer_buffer = batch_buffer[layer_id]
                 rollout_id = self.split_request_id(request_id)
                 tasks.append(
                     self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)

From 4097455b02d10d25b2338c46e6f8fcefabb88575 Mon Sep 17 00:00:00 2001
From: GoldPancake <56388518+Deleter-D@users.noreply.github.com>
Date: Wed, 28 Jan 2026 05:59:47 -0800
Subject: [PATCH 155/161] [Cherry-Pick][RL] Support GLM MTP RL Model (#6223)
 (#6256)

* support glm mtp rl model

* update baseline
---
 fastdeploy/model_executor/models/glm4_mtp.py |  21 +--
 fastdeploy/rl/rollout_model.py               | 133 +++++++++++++++++++
 tests/ci_use/GLM-45-AIR/baseline.txt         |  55 ++++++++
 3 files changed, 192 insertions(+), 17 deletions(-)

diff --git a/fastdeploy/model_executor/models/glm4_mtp.py b/fastdeploy/model_executor/models/glm4_mtp.py
index d16632c2b4e..c28023202d2 100644
--- a/fastdeploy/model_executor/models/glm4_mtp.py
+++ b/fastdeploy/model_executor/models/glm4_mtp.py
@@ -28,8 +28,6 @@
 from fastdeploy.model_executor.graph_optimization.decorator import (
     support_graph_optimization,
 )
-from fastdeploy.model_executor.layers.embeddings import VocabParallelEmbedding
-from fastdeploy.model_executor.layers.lm_head import ParallelLMHead
 from fastdeploy.model_executor.layers.mtp_linear import ParallelEHProjection
 from fastdeploy.model_executor.layers.normalization import RMSNorm
 from fastdeploy.model_executor.models.glm4_moe import Glm4MoeDecoderLayer
@@ -119,12 +117,8 @@ def __init__(
             eps=fd_config.model_config.rms_norm_eps,
             prefix=f"{prefix}.shared_head.norm",
         )
-        self.head = ParallelLMHead(
-            fd_config,
-            embedding_dim=fd_config.model_config.hidden_size,
-            num_embeddings=fd_config.model_config.vocab_size,
-            prefix=f"{prefix}.shared_head.head",
-        )
+        if fd_config.speculative_config.sharing_model is not None:
+            self.head = fd_config.speculative_config.sharing_model.lm_head
 
     def forward(self, hidden_states: paddle.Tensor) -> paddle.Tensor:
         # NOTE(wangyanpeng04): Just for compute logits
@@ -216,15 +210,8 @@ def __init__(
 
         assert self.num_mtp_layers == 1, f"Currently only supports single MTP layer, but got {self.num_mtp_layers}"
 
-        self.embed_tokens = VocabParallelEmbedding(
-            fd_config=fd_config,
-            num_embeddings=fd_config.model_config.vocab_size,
-            embedding_dim=fd_config.model_config.hidden_size,
-            params_dtype=paddle.get_default_dtype(),
-            prefix=(
-                f"{fd_config.model_config.pretrained_config.prefix_name}.layers.{self.mtp_start_layer_idx}.embed_tokens"
-            ),
-        )
+        if fd_config.speculative_config.sharing_model is not None:
+            self.embed_tokens = fd_config.speculative_config.sharing_model.model.embed_tokens
 
         self.layers = nn.LayerDict(
             {
diff --git a/fastdeploy/rl/rollout_model.py b/fastdeploy/rl/rollout_model.py
index ac2bb1127a6..421d8d7397e 100644
--- a/fastdeploy/rl/rollout_model.py
+++ b/fastdeploy/rl/rollout_model.py
@@ -18,8 +18,10 @@
 from typing import Dict
 
 import paddle
+import paddle.distributed as dist
 from paddle import nn
 
+from fastdeploy import envs
 from fastdeploy.config import FDConfig
 from fastdeploy.model_executor.model_loader import get_model_loader
 from fastdeploy.model_executor.models.ernie4_5_moe import (
@@ -34,6 +36,10 @@
     Glm4MoeForCausalLM,
     Glm4MoePretrainedModel,
 )
+from fastdeploy.model_executor.models.glm4_mtp import (
+    Glm4MTPForCausalLM,
+    Glm4MTPPretrainedModel,
+)
 from fastdeploy.model_executor.models.model_base import ModelRegistry
 from fastdeploy.model_executor.models.qwen2 import (
     Qwen2ForCausalLM,
@@ -574,12 +580,42 @@ def __init__(self, fd_config: FDConfig):
             fd_config (FDConfig): Configurations for the LLM model.
         """
         super(Glm4MoeForCausalLMRL, self).__init__(fd_config)
+        self.num_nextn_predict_layers = fd_config.model_config.num_nextn_predict_layers
+
+        if self.num_nextn_predict_layers > 0:
+            fd_config.parallel_config.tp_group = None
+            fd_config.parallel_config.ep_group = None
+            self.mtp_fd_config = copy.deepcopy(fd_config)
+            fd_config.parallel_config.tp_group = dist.get_group(
+                fd_config.parallel_config.data_parallel_rank + envs.FD_TP_GROUP_GID_OFFSET
+            )
+            fd_config.parallel_config.ep_group = dist.get_group(
+                fd_config.parallel_config.data_parallel_size + envs.FD_TP_GROUP_GID_OFFSET
+            )
+            self.fd_config.parallel_config.tp_group = dist.get_group(
+                fd_config.parallel_config.data_parallel_rank + envs.FD_TP_GROUP_GID_OFFSET
+            )
+            self.fd_config.parallel_config.ep_group = dist.get_group(
+                fd_config.parallel_config.data_parallel_size + envs.FD_TP_GROUP_GID_OFFSET
+            )
+            self.update_mtp_config(self.mtp_fd_config)
+            self.mtp_layers = Glm4MTPForCausalLMRL(self.mtp_fd_config)
 
     @classmethod
     def name(self) -> str:
         """name"""
         return "Glm4MoeForCausalLMRL"
 
+    def update_mtp_config(self, mtp_fd_config):
+        mtp_fd_config.model_config.architectures[0] = mtp_fd_config.model_config.architectures[0].replace("Moe", "MTP")
+        mtp_fd_config.speculative_config.sharing_model = None
+        mtp_fd_config.model_config.start_layer_index = mtp_fd_config.model_config.num_hidden_layers
+        mtp_fd_config.model_config.num_hidden_layers = 1
+        mtp_fd_config.model_config.model = mtp_fd_config.speculative_config.model
+        if mtp_fd_config.speculative_config.quantization != "":
+            mtp_fd_config.model_config.quantization = mtp_fd_config.speculative_config.quantization
+        mtp_fd_config.speculative_config.model_type = "mtp"
+
     def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
         """Generate mapping between inference and training parameter for RL(donot delete!)."""
         if self._mappings_built:
@@ -633,9 +669,106 @@ def _add_layer_mappings(layer_idx: int):
             _add_layer_mappings(layer_idx)
 
         self._complete_missing_mappings()
+
+        # extra for mtp
+        if self.num_nextn_predict_layers > 0:
+            mtp_infer_to_train_mapping = self.mtp_layers.get_name_mappings_to_training(trainer_degree)
+            self.infer_to_train_mapping.update(mtp_infer_to_train_mapping)
+
         infer_to_train_mapping_copy = copy.deepcopy(self.infer_to_train_mapping)
         for key in infer_to_train_mapping_copy.keys():
             if "mlp.experts.gate_correction_bias" in key:
                 self.infer_to_train_mapping.pop(key)
 
         return self.infer_to_train_mapping
+
+
+class Glm4MTPForCausalLMRL(Glm4MTPForCausalLM, BaseRLModel):
+    """
+    Glm4MTPForCausalLMRL
+    """
+
+    _get_tensor_parallel_mappings = Glm4MTPPretrainedModel._get_tensor_parallel_mappings
+
+    def __init__(self, fd_config: FDConfig):
+        """
+        Args:
+            fd_config (FDConfig): Configurations for the LLM model.
+        """
+        super(Glm4MTPForCausalLMRL, self).__init__(fd_config)
+
+    @classmethod
+    def name(self) -> str:
+        """name"""
+        return "Glm4MTPForCausalLMRL"
+
+    def get_name_mappings_to_training(self, trainer_degree=None) -> Dict[str, str]:
+        """Generate mapping between inference and training parameter for RL(donot delete!)."""
+        if self._mappings_built:
+            return self.infer_to_train_mapping
+
+        self.infer_to_train_mapping = {}
+        self._mappings_built = True
+
+        # Prepare placeholders
+        place_holders = ["weight"]
+
+        base_name = "model.layers"
+
+        # Helper function to add layer mappings
+        def _add_layer_mappings(layer_idx: int):
+            # MTP specific mappings
+            self.infer_to_train_mapping[f"{base_name}.{layer_idx}.shared_head.head.weight"] = (
+                f"{base_name}.{layer_idx}.shared_head.head.weight"
+            )
+            self.infer_to_train_mapping[f"{base_name}.{layer_idx}.shared_head.norm.weight"] = (
+                f"{base_name}.{layer_idx}.shared_head.norm.weight"
+            )
+            self.infer_to_train_mapping[f"{base_name}.{layer_idx}.eh_proj.weight"] = (
+                f"{base_name}.{layer_idx}.eh_proj.weight"
+            )
+            self.infer_to_train_mapping[f"{base_name}.{layer_idx}.enorm.weight"] = (
+                f"{base_name}.{layer_idx}.enorm.weight"
+            )
+            self.infer_to_train_mapping[f"{base_name}.{layer_idx}.hnorm.weight"] = (
+                f"{base_name}.{layer_idx}.hnorm.weight"
+            )
+
+            # MoE specific mappings
+            self.infer_to_train_mapping[f"{base_name}.{layer_idx}.mlp.gate.weight"] = (
+                f"{base_name}.{layer_idx}.mlp.gate.weight"
+            )
+
+            self.infer_to_train_mapping[f"{base_name}.{layer_idx}.mlp.gate.e_score_correction_bias"] = (
+                f"{base_name}.{layer_idx}.mlp.gate.e_score_correction_bias"
+            )
+
+            # MoE experts mappings
+            for expert_idx in range(self.fd_config.model_config.n_routed_experts):
+                for ph in place_holders:
+                    # up_gate_proj (up_gate_proj)
+                    up_gate_proj_key = f"{base_name}.{layer_idx}.mlp.experts.up_gate_proj_weight"
+                    if up_gate_proj_key not in self.infer_to_train_mapping:
+                        self.infer_to_train_mapping[up_gate_proj_key] = []
+                    self.infer_to_train_mapping[up_gate_proj_key].append(
+                        f"{base_name}.{layer_idx}.mlp.experts.{expert_idx}.up_gate_proj.{ph}"
+                    )
+
+                    # down_proj (down_proj)
+                    down_proj_key = f"{base_name}.{layer_idx}.mlp.experts.down_proj_weight"
+                    if down_proj_key not in self.infer_to_train_mapping:
+                        self.infer_to_train_mapping[down_proj_key] = []
+                    self.infer_to_train_mapping[down_proj_key].append(
+                        f"{base_name}.{layer_idx}.mlp.experts.{expert_idx}.down_proj.{ph}"
+                    )
+
+        # Process MoE layers
+        for layer_idx in range(
+            self.fd_config.model_config.start_layer_index,
+            self.fd_config.model_config.start_layer_index + self.fd_config.model_config.num_nextn_predict_layers,
+        ):
+            _add_layer_mappings(layer_idx)
+
+        self._complete_missing_mappings()
+
+        return self.infer_to_train_mapping
diff --git a/tests/ci_use/GLM-45-AIR/baseline.txt b/tests/ci_use/GLM-45-AIR/baseline.txt
index bddb29fdace..4ebb05f0ce9 100644
--- a/tests/ci_use/GLM-45-AIR/baseline.txt
+++ b/tests/ci_use/GLM-45-AIR/baseline.txt
@@ -2,12 +2,26 @@ lm_head.linear.weight
 lm_head.linear.weight:lm_head.weight
 model.embed_tokens.embeddings.weight
 model.embed_tokens.embeddings.weight:model.embed_tokens.weight
+model.layers.0.eh_proj.linear.weight:model.layers.0.eh_proj.linear.weight
+model.layers.0.enorm.weight:model.layers.0.enorm.weight
+model.layers.0.hnorm.weight:model.layers.0.hnorm.weight
 model.layers.0.input_layernorm.weight
 model.layers.0.input_layernorm.weight:model.layers.0.input_layernorm.weight
 model.layers.0.mlp.down_proj.weight
 model.layers.0.mlp.down_proj.weight:model.layers.0.mlp.down_proj.weight
 model.layers.0.mlp.up_gate_proj.weight
 model.layers.0.mlp.up_gate_proj.weight:model.layers.0.mlp.up_gate_proj.weight
+model.layers.0.mtp_block.input_layernorm.weight:model.layers.0.mtp_block.input_layernorm.weight
+model.layers.0.mtp_block.mlp.experts.down_proj_weight:model.layers.0.mtp_block.mlp.experts.down_proj_weight
+model.layers.0.mtp_block.mlp.experts.up_gate_proj_weight:model.layers.0.mtp_block.mlp.experts.up_gate_proj_weight
+model.layers.0.mtp_block.mlp.gate.e_score_correction_bias:model.layers.0.mtp_block.mlp.gate.e_score_correction_bias
+model.layers.0.mtp_block.mlp.gate.weight:model.layers.0.mtp_block.mlp.gate.weight
+model.layers.0.mtp_block.mlp.shared_experts.down_proj.weight:model.layers.0.mtp_block.mlp.shared_experts.down_proj.weight
+model.layers.0.mtp_block.mlp.shared_experts.up_gate_proj.weight:model.layers.0.mtp_block.mlp.shared_experts.up_gate_proj.weight
+model.layers.0.mtp_block.post_attention_layernorm.weight:model.layers.0.mtp_block.post_attention_layernorm.weight
+model.layers.0.mtp_block.self_attn.o_proj.weight:model.layers.0.mtp_block.self_attn.o_proj.weight
+model.layers.0.mtp_block.self_attn.qkv_proj.bias:model.layers.0.mtp_block.self_attn.qkv_proj.bias
+model.layers.0.mtp_block.self_attn.qkv_proj.weight:model.layers.0.mtp_block.self_attn.qkv_proj.weight
 model.layers.0.post_attention_layernorm.weight
 model.layers.0.post_attention_layernorm.weight:model.layers.0.post_attention_layernorm.weight
 model.layers.0.self_attn.o_proj.weight
@@ -16,6 +30,7 @@ model.layers.0.self_attn.qkv_proj.bias
 model.layers.0.self_attn.qkv_proj.bias:model.layers.0.self_attn.qkv_proj.bias
 model.layers.0.self_attn.qkv_proj.weight
 model.layers.0.self_attn.qkv_proj.weight:model.layers.0.self_attn.qkv_proj.weight
+model.layers.0.shared_head.norm.weight:model.layers.0.shared_head.norm.weight
 model.layers.1.input_layernorm.weight
 model.layers.1.input_layernorm.weight:model.layers.1.input_layernorm.weight
 model.layers.1.mlp.experts.down_proj_weight
@@ -39,5 +54,45 @@ model.layers.1.self_attn.qkv_proj.bias
 model.layers.1.self_attn.qkv_proj.bias:model.layers.1.self_attn.qkv_proj.bias
 model.layers.1.self_attn.qkv_proj.weight
 model.layers.1.self_attn.qkv_proj.weight:model.layers.1.self_attn.qkv_proj.weight
+model.layers.2.eh_proj.weight:model.layers.2.eh_proj.weight
+model.layers.2.enorm.weight:model.layers.2.enorm.weight
+model.layers.2.hnorm.weight:model.layers.2.hnorm.weight
+model.layers.2.mlp.experts.down_proj_weight:['model.layers.2.mlp.experts.0.down_proj.weight', 'model.layers.2.mlp.experts.1.down_proj.weight', 'model.layers.2.mlp.experts.2.down_proj.weight', 'model.layers.2.mlp.experts.3.down_proj.weight', 'model.layers.2.mlp.experts.4.down_proj.weight', 'model.layers.2.mlp.experts.5.down_proj.weight', 'model.layers.2.mlp.experts.6.down_proj.weight', 'model.layers.2.mlp.experts.7.down_proj.weight', 'model.layers.2.mlp.experts.8.down_proj.weight', 'model.layers.2.mlp.experts.9.down_proj.weight', 'model.layers.2.mlp.experts.10.down_proj.weight', 'model.layers.2.mlp.experts.11.down_proj.weight', 'model.layers.2.mlp.experts.12.down_proj.weight', 'model.layers.2.mlp.experts.13.down_proj.weight', 'model.layers.2.mlp.experts.14.down_proj.weight', 'model.layers.2.mlp.experts.15.down_proj.weight', 'model.layers.2.mlp.experts.16.down_proj.weight', 'model.layers.2.mlp.experts.17.down_proj.weight', 'model.layers.2.mlp.experts.18.down_proj.weight', 'model.layers.2.mlp.experts.19.down_proj.weight', 'model.layers.2.mlp.experts.20.down_proj.weight', 'model.layers.2.mlp.experts.21.down_proj.weight', 'model.layers.2.mlp.experts.22.down_proj.weight', 'model.layers.2.mlp.experts.23.down_proj.weight', 'model.layers.2.mlp.experts.24.down_proj.weight', 'model.layers.2.mlp.experts.25.down_proj.weight', 'model.layers.2.mlp.experts.26.down_proj.weight', 'model.layers.2.mlp.experts.27.down_proj.weight', 'model.layers.2.mlp.experts.28.down_proj.weight', 'model.layers.2.mlp.experts.29.down_proj.weight', 'model.layers.2.mlp.experts.30.down_proj.weight', 'model.layers.2.mlp.experts.31.down_proj.weight', 'model.layers.2.mlp.experts.32.down_proj.weight', 'model.layers.2.mlp.experts.33.down_proj.weight', 'model.layers.2.mlp.experts.34.down_proj.weight', 'model.layers.2.mlp.experts.35.down_proj.weight', 'model.layers.2.mlp.experts.36.down_proj.weight', 'model.layers.2.mlp.experts.37.down_proj.weight', 'model.layers.2.mlp.experts.38.down_proj.weight', 'model.layers.2.mlp.experts.39.down_proj.weight', 'model.layers.2.mlp.experts.40.down_proj.weight', 'model.layers.2.mlp.experts.41.down_proj.weight', 'model.layers.2.mlp.experts.42.down_proj.weight', 'model.layers.2.mlp.experts.43.down_proj.weight', 'model.layers.2.mlp.experts.44.down_proj.weight', 'model.layers.2.mlp.experts.45.down_proj.weight', 'model.layers.2.mlp.experts.46.down_proj.weight', 'model.layers.2.mlp.experts.47.down_proj.weight', 'model.layers.2.mlp.experts.48.down_proj.weight', 'model.layers.2.mlp.experts.49.down_proj.weight', 'model.layers.2.mlp.experts.50.down_proj.weight', 'model.layers.2.mlp.experts.51.down_proj.weight', 'model.layers.2.mlp.experts.52.down_proj.weight', 'model.layers.2.mlp.experts.53.down_proj.weight', 'model.layers.2.mlp.experts.54.down_proj.weight', 'model.layers.2.mlp.experts.55.down_proj.weight', 'model.layers.2.mlp.experts.56.down_proj.weight', 'model.layers.2.mlp.experts.57.down_proj.weight', 'model.layers.2.mlp.experts.58.down_proj.weight', 'model.layers.2.mlp.experts.59.down_proj.weight', 'model.layers.2.mlp.experts.60.down_proj.weight', 'model.layers.2.mlp.experts.61.down_proj.weight', 'model.layers.2.mlp.experts.62.down_proj.weight', 'model.layers.2.mlp.experts.63.down_proj.weight', 'model.layers.2.mlp.experts.64.down_proj.weight', 'model.layers.2.mlp.experts.65.down_proj.weight', 'model.layers.2.mlp.experts.66.down_proj.weight', 'model.layers.2.mlp.experts.67.down_proj.weight', 'model.layers.2.mlp.experts.68.down_proj.weight', 'model.layers.2.mlp.experts.69.down_proj.weight', 'model.layers.2.mlp.experts.70.down_proj.weight', 'model.layers.2.mlp.experts.71.down_proj.weight', 'model.layers.2.mlp.experts.72.down_proj.weight', 'model.layers.2.mlp.experts.73.down_proj.weight', 'model.layers.2.mlp.experts.74.down_proj.weight', 'model.layers.2.mlp.experts.75.down_proj.weight', 'model.layers.2.mlp.experts.76.down_proj.weight', 'model.layers.2.mlp.experts.77.down_proj.weight', 'model.layers.2.mlp.experts.78.down_proj.weight', 'model.layers.2.mlp.experts.79.down_proj.weight', 'model.layers.2.mlp.experts.80.down_proj.weight', 'model.layers.2.mlp.experts.81.down_proj.weight', 'model.layers.2.mlp.experts.82.down_proj.weight', 'model.layers.2.mlp.experts.83.down_proj.weight', 'model.layers.2.mlp.experts.84.down_proj.weight', 'model.layers.2.mlp.experts.85.down_proj.weight', 'model.layers.2.mlp.experts.86.down_proj.weight', 'model.layers.2.mlp.experts.87.down_proj.weight', 'model.layers.2.mlp.experts.88.down_proj.weight', 'model.layers.2.mlp.experts.89.down_proj.weight', 'model.layers.2.mlp.experts.90.down_proj.weight', 'model.layers.2.mlp.experts.91.down_proj.weight', 'model.layers.2.mlp.experts.92.down_proj.weight', 'model.layers.2.mlp.experts.93.down_proj.weight', 'model.layers.2.mlp.experts.94.down_proj.weight', 'model.layers.2.mlp.experts.95.down_proj.weight', 'model.layers.2.mlp.experts.96.down_proj.weight', 'model.layers.2.mlp.experts.97.down_proj.weight', 'model.layers.2.mlp.experts.98.down_proj.weight', 'model.layers.2.mlp.experts.99.down_proj.weight', 'model.layers.2.mlp.experts.100.down_proj.weight', 'model.layers.2.mlp.experts.101.down_proj.weight', 'model.layers.2.mlp.experts.102.down_proj.weight', 'model.layers.2.mlp.experts.103.down_proj.weight', 'model.layers.2.mlp.experts.104.down_proj.weight', 'model.layers.2.mlp.experts.105.down_proj.weight', 'model.layers.2.mlp.experts.106.down_proj.weight', 'model.layers.2.mlp.experts.107.down_proj.weight', 'model.layers.2.mlp.experts.108.down_proj.weight', 'model.layers.2.mlp.experts.109.down_proj.weight', 'model.layers.2.mlp.experts.110.down_proj.weight', 'model.layers.2.mlp.experts.111.down_proj.weight', 'model.layers.2.mlp.experts.112.down_proj.weight', 'model.layers.2.mlp.experts.113.down_proj.weight', 'model.layers.2.mlp.experts.114.down_proj.weight', 'model.layers.2.mlp.experts.115.down_proj.weight', 'model.layers.2.mlp.experts.116.down_proj.weight', 'model.layers.2.mlp.experts.117.down_proj.weight', 'model.layers.2.mlp.experts.118.down_proj.weight', 'model.layers.2.mlp.experts.119.down_proj.weight', 'model.layers.2.mlp.experts.120.down_proj.weight', 'model.layers.2.mlp.experts.121.down_proj.weight', 'model.layers.2.mlp.experts.122.down_proj.weight', 'model.layers.2.mlp.experts.123.down_proj.weight', 'model.layers.2.mlp.experts.124.down_proj.weight', 'model.layers.2.mlp.experts.125.down_proj.weight', 'model.layers.2.mlp.experts.126.down_proj.weight', 'model.layers.2.mlp.experts.127.down_proj.weight']
+model.layers.2.mlp.experts.up_gate_proj_weight:['model.layers.2.mlp.experts.0.up_gate_proj.weight', 'model.layers.2.mlp.experts.1.up_gate_proj.weight', 'model.layers.2.mlp.experts.2.up_gate_proj.weight', 'model.layers.2.mlp.experts.3.up_gate_proj.weight', 'model.layers.2.mlp.experts.4.up_gate_proj.weight', 'model.layers.2.mlp.experts.5.up_gate_proj.weight', 'model.layers.2.mlp.experts.6.up_gate_proj.weight', 'model.layers.2.mlp.experts.7.up_gate_proj.weight', 'model.layers.2.mlp.experts.8.up_gate_proj.weight', 'model.layers.2.mlp.experts.9.up_gate_proj.weight', 'model.layers.2.mlp.experts.10.up_gate_proj.weight', 'model.layers.2.mlp.experts.11.up_gate_proj.weight', 'model.layers.2.mlp.experts.12.up_gate_proj.weight', 'model.layers.2.mlp.experts.13.up_gate_proj.weight', 'model.layers.2.mlp.experts.14.up_gate_proj.weight', 'model.layers.2.mlp.experts.15.up_gate_proj.weight', 'model.layers.2.mlp.experts.16.up_gate_proj.weight', 'model.layers.2.mlp.experts.17.up_gate_proj.weight', 'model.layers.2.mlp.experts.18.up_gate_proj.weight', 'model.layers.2.mlp.experts.19.up_gate_proj.weight', 'model.layers.2.mlp.experts.20.up_gate_proj.weight', 'model.layers.2.mlp.experts.21.up_gate_proj.weight', 'model.layers.2.mlp.experts.22.up_gate_proj.weight', 'model.layers.2.mlp.experts.23.up_gate_proj.weight', 'model.layers.2.mlp.experts.24.up_gate_proj.weight', 'model.layers.2.mlp.experts.25.up_gate_proj.weight', 'model.layers.2.mlp.experts.26.up_gate_proj.weight', 'model.layers.2.mlp.experts.27.up_gate_proj.weight', 'model.layers.2.mlp.experts.28.up_gate_proj.weight', 'model.layers.2.mlp.experts.29.up_gate_proj.weight', 'model.layers.2.mlp.experts.30.up_gate_proj.weight', 'model.layers.2.mlp.experts.31.up_gate_proj.weight', 'model.layers.2.mlp.experts.32.up_gate_proj.weight', 'model.layers.2.mlp.experts.33.up_gate_proj.weight', 'model.layers.2.mlp.experts.34.up_gate_proj.weight', 'model.layers.2.mlp.experts.35.up_gate_proj.weight', 'model.layers.2.mlp.experts.36.up_gate_proj.weight', 'model.layers.2.mlp.experts.37.up_gate_proj.weight', 'model.layers.2.mlp.experts.38.up_gate_proj.weight', 'model.layers.2.mlp.experts.39.up_gate_proj.weight', 'model.layers.2.mlp.experts.40.up_gate_proj.weight', 'model.layers.2.mlp.experts.41.up_gate_proj.weight', 'model.layers.2.mlp.experts.42.up_gate_proj.weight', 'model.layers.2.mlp.experts.43.up_gate_proj.weight', 'model.layers.2.mlp.experts.44.up_gate_proj.weight', 'model.layers.2.mlp.experts.45.up_gate_proj.weight', 'model.layers.2.mlp.experts.46.up_gate_proj.weight', 'model.layers.2.mlp.experts.47.up_gate_proj.weight', 'model.layers.2.mlp.experts.48.up_gate_proj.weight', 'model.layers.2.mlp.experts.49.up_gate_proj.weight', 'model.layers.2.mlp.experts.50.up_gate_proj.weight', 'model.layers.2.mlp.experts.51.up_gate_proj.weight', 'model.layers.2.mlp.experts.52.up_gate_proj.weight', 'model.layers.2.mlp.experts.53.up_gate_proj.weight', 'model.layers.2.mlp.experts.54.up_gate_proj.weight', 'model.layers.2.mlp.experts.55.up_gate_proj.weight', 'model.layers.2.mlp.experts.56.up_gate_proj.weight', 'model.layers.2.mlp.experts.57.up_gate_proj.weight', 'model.layers.2.mlp.experts.58.up_gate_proj.weight', 'model.layers.2.mlp.experts.59.up_gate_proj.weight', 'model.layers.2.mlp.experts.60.up_gate_proj.weight', 'model.layers.2.mlp.experts.61.up_gate_proj.weight', 'model.layers.2.mlp.experts.62.up_gate_proj.weight', 'model.layers.2.mlp.experts.63.up_gate_proj.weight', 'model.layers.2.mlp.experts.64.up_gate_proj.weight', 'model.layers.2.mlp.experts.65.up_gate_proj.weight', 'model.layers.2.mlp.experts.66.up_gate_proj.weight', 'model.layers.2.mlp.experts.67.up_gate_proj.weight', 'model.layers.2.mlp.experts.68.up_gate_proj.weight', 'model.layers.2.mlp.experts.69.up_gate_proj.weight', 'model.layers.2.mlp.experts.70.up_gate_proj.weight', 'model.layers.2.mlp.experts.71.up_gate_proj.weight', 'model.layers.2.mlp.experts.72.up_gate_proj.weight', 'model.layers.2.mlp.experts.73.up_gate_proj.weight', 'model.layers.2.mlp.experts.74.up_gate_proj.weight', 'model.layers.2.mlp.experts.75.up_gate_proj.weight', 'model.layers.2.mlp.experts.76.up_gate_proj.weight', 'model.layers.2.mlp.experts.77.up_gate_proj.weight', 'model.layers.2.mlp.experts.78.up_gate_proj.weight', 'model.layers.2.mlp.experts.79.up_gate_proj.weight', 'model.layers.2.mlp.experts.80.up_gate_proj.weight', 'model.layers.2.mlp.experts.81.up_gate_proj.weight', 'model.layers.2.mlp.experts.82.up_gate_proj.weight', 'model.layers.2.mlp.experts.83.up_gate_proj.weight', 'model.layers.2.mlp.experts.84.up_gate_proj.weight', 'model.layers.2.mlp.experts.85.up_gate_proj.weight', 'model.layers.2.mlp.experts.86.up_gate_proj.weight', 'model.layers.2.mlp.experts.87.up_gate_proj.weight', 'model.layers.2.mlp.experts.88.up_gate_proj.weight', 'model.layers.2.mlp.experts.89.up_gate_proj.weight', 'model.layers.2.mlp.experts.90.up_gate_proj.weight', 'model.layers.2.mlp.experts.91.up_gate_proj.weight', 'model.layers.2.mlp.experts.92.up_gate_proj.weight', 'model.layers.2.mlp.experts.93.up_gate_proj.weight', 'model.layers.2.mlp.experts.94.up_gate_proj.weight', 'model.layers.2.mlp.experts.95.up_gate_proj.weight', 'model.layers.2.mlp.experts.96.up_gate_proj.weight', 'model.layers.2.mlp.experts.97.up_gate_proj.weight', 'model.layers.2.mlp.experts.98.up_gate_proj.weight', 'model.layers.2.mlp.experts.99.up_gate_proj.weight', 'model.layers.2.mlp.experts.100.up_gate_proj.weight', 'model.layers.2.mlp.experts.101.up_gate_proj.weight', 'model.layers.2.mlp.experts.102.up_gate_proj.weight', 'model.layers.2.mlp.experts.103.up_gate_proj.weight', 'model.layers.2.mlp.experts.104.up_gate_proj.weight', 'model.layers.2.mlp.experts.105.up_gate_proj.weight', 'model.layers.2.mlp.experts.106.up_gate_proj.weight', 'model.layers.2.mlp.experts.107.up_gate_proj.weight', 'model.layers.2.mlp.experts.108.up_gate_proj.weight', 'model.layers.2.mlp.experts.109.up_gate_proj.weight', 'model.layers.2.mlp.experts.110.up_gate_proj.weight', 'model.layers.2.mlp.experts.111.up_gate_proj.weight', 'model.layers.2.mlp.experts.112.up_gate_proj.weight', 'model.layers.2.mlp.experts.113.up_gate_proj.weight', 'model.layers.2.mlp.experts.114.up_gate_proj.weight', 'model.layers.2.mlp.experts.115.up_gate_proj.weight', 'model.layers.2.mlp.experts.116.up_gate_proj.weight', 'model.layers.2.mlp.experts.117.up_gate_proj.weight', 'model.layers.2.mlp.experts.118.up_gate_proj.weight', 'model.layers.2.mlp.experts.119.up_gate_proj.weight', 'model.layers.2.mlp.experts.120.up_gate_proj.weight', 'model.layers.2.mlp.experts.121.up_gate_proj.weight', 'model.layers.2.mlp.experts.122.up_gate_proj.weight', 'model.layers.2.mlp.experts.123.up_gate_proj.weight', 'model.layers.2.mlp.experts.124.up_gate_proj.weight', 'model.layers.2.mlp.experts.125.up_gate_proj.weight', 'model.layers.2.mlp.experts.126.up_gate_proj.weight', 'model.layers.2.mlp.experts.127.up_gate_proj.weight']
+model.layers.2.mlp.gate.e_score_correction_bias:model.layers.2.mlp.gate.e_score_correction_bias
+model.layers.2.mlp.gate.weight:model.layers.2.mlp.gate.weight
+model.layers.2.shared_head.head.weight:model.layers.2.shared_head.head.weight
+model.layers.2.shared_head.norm.weight:model.layers.2.shared_head.norm.weight
 model.norm.weight
 model.norm.weight:model.norm.weight
+mtp_layers.model.layers.0.eh_proj.linear.weight
+mtp_layers.model.layers.0.eh_proj.linear.weight:mtp_layers.model.layers.0.eh_proj.linear.weight
+mtp_layers.model.layers.0.enorm.weight
+mtp_layers.model.layers.0.enorm.weight:mtp_layers.model.layers.0.enorm.weight
+mtp_layers.model.layers.0.hnorm.weight
+mtp_layers.model.layers.0.hnorm.weight:mtp_layers.model.layers.0.hnorm.weight
+mtp_layers.model.layers.0.mtp_block.input_layernorm.weight
+mtp_layers.model.layers.0.mtp_block.input_layernorm.weight:mtp_layers.model.layers.0.mtp_block.input_layernorm.weight
+mtp_layers.model.layers.0.mtp_block.mlp.experts.down_proj_weight
+mtp_layers.model.layers.0.mtp_block.mlp.experts.down_proj_weight:mtp_layers.model.layers.0.mtp_block.mlp.experts.down_proj_weight
+mtp_layers.model.layers.0.mtp_block.mlp.experts.gate_correction_bias
+mtp_layers.model.layers.0.mtp_block.mlp.experts.up_gate_proj_weight
+mtp_layers.model.layers.0.mtp_block.mlp.experts.up_gate_proj_weight:mtp_layers.model.layers.0.mtp_block.mlp.experts.up_gate_proj_weight
+mtp_layers.model.layers.0.mtp_block.mlp.gate.e_score_correction_bias
+mtp_layers.model.layers.0.mtp_block.mlp.gate.e_score_correction_bias:mtp_layers.model.layers.0.mtp_block.mlp.gate.e_score_correction_bias
+mtp_layers.model.layers.0.mtp_block.mlp.gate.weight
+mtp_layers.model.layers.0.mtp_block.mlp.gate.weight:mtp_layers.model.layers.0.mtp_block.mlp.gate.weight
+mtp_layers.model.layers.0.mtp_block.mlp.shared_experts.down_proj.weight
+mtp_layers.model.layers.0.mtp_block.mlp.shared_experts.down_proj.weight:mtp_layers.model.layers.0.mtp_block.mlp.shared_experts.down_proj.weight
+mtp_layers.model.layers.0.mtp_block.mlp.shared_experts.up_gate_proj.weight
+mtp_layers.model.layers.0.mtp_block.mlp.shared_experts.up_gate_proj.weight:mtp_layers.model.layers.0.mtp_block.mlp.shared_experts.up_gate_proj.weight
+mtp_layers.model.layers.0.mtp_block.post_attention_layernorm.weight
+mtp_layers.model.layers.0.mtp_block.post_attention_layernorm.weight:mtp_layers.model.layers.0.mtp_block.post_attention_layernorm.weight
+mtp_layers.model.layers.0.mtp_block.self_attn.o_proj.weight
+mtp_layers.model.layers.0.mtp_block.self_attn.o_proj.weight:mtp_layers.model.layers.0.mtp_block.self_attn.o_proj.weight
+mtp_layers.model.layers.0.mtp_block.self_attn.qkv_proj.bias
+mtp_layers.model.layers.0.mtp_block.self_attn.qkv_proj.bias:mtp_layers.model.layers.0.mtp_block.self_attn.qkv_proj.bias
+mtp_layers.model.layers.0.mtp_block.self_attn.qkv_proj.weight
+mtp_layers.model.layers.0.mtp_block.self_attn.qkv_proj.weight:mtp_layers.model.layers.0.mtp_block.self_attn.qkv_proj.weight
+mtp_layers.model.layers.0.shared_head.norm.weight
+mtp_layers.model.layers.0.shared_head.norm.weight:mtp_layers.model.layers.0.shared_head.norm.weight

From fe80b01ef6715f08528d3c7f3c1f94224d613fe9 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Thu, 29 Jan 2026 01:42:06 +0800
Subject: [PATCH 156/161] fix insert decode task after set stop flag as true

---
 .../model_executor/layers/moe/routing_indices_cache.py | 10 ++++++++--
 fastdeploy/worker/gpu_model_runner.py                  |  7 -------
 2 files changed, 8 insertions(+), 9 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index a7e74ce1310..b9e3c2ec9a9 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -279,8 +279,14 @@ def register_request(self, batch_id: int, request_id: str):
         """
         # The chunked prefill tasks will be registered repeatedly
         if batch_id in self.routing_batch_to_request:
-            logger.warning(f"[R3] Request {request_id} has been registered")
-            return
+            if self.routing_batch_to_request[batch_id] == request_id:
+                logger.warning(f"[R3] Request {request_id} has been registered at {batch_id}.")
+                return
+            else:
+                raise RuntimeError(
+                    f"[R3] The Batch {batch_id} has been registered by request {self.routing_batch_to_request[batch_id]}, now robed by {request_id},"
+                )
+
         # Register the new request
         self.routing_batch_to_request[batch_id] = request_id
         logger.info(f"[R3] Register request {request_id} with batch id {batch_id}")
diff --git a/fastdeploy/worker/gpu_model_runner.py b/fastdeploy/worker/gpu_model_runner.py
index 05728fea179..94e33b924b3 100644
--- a/fastdeploy/worker/gpu_model_runner.py
+++ b/fastdeploy/worker/gpu_model_runner.py
@@ -707,13 +707,6 @@ def insert_tasks_v1(self, req_dicts: List[Request], num_running_requests: int =
                 if self.share_inputs["is_block_step"][idx]:  # has tasks to continue to decode
                     has_decode_task = True
 
-                # Routing Replay
-                if (
-                    self.fd_config.routing_replay_config.enable_routing_replay
-                    and self.seq_lens_routing_buffer[idx][0] == 0
-                ):  # new decode task
-                    self.routing_replay_manager.register_request(batch_id=idx, request_id=request.request_id)
-
                 continue
             else:  # preempted task
                 logger.info(f"Handle preempted request {request} at idx {idx}")

From f04ba4889701f7258df7694d4b7311612dddd324 Mon Sep 17 00:00:00 2001
From: YuBaoku <49938469+EmmonsCurse@users.noreply.github.com>
Date: Thu, 29 Jan 2026 10:33:15 +0800
Subject: [PATCH 157/161] [CI] Remove test_splitwise_scheduler and download
 latest_wheel explicitly to avoid pip cache issues (#6265)

---
 .github/workflows/_accuracy_test.yml          |   4 +-
 .github/workflows/_base_test.yml              |   4 +-
 .github/workflows/_build_linux.yml            |   4 +-
 .github/workflows/_build_linux_rl.yml         |   4 +-
 .github/workflows/_logprob_test_linux.yml     |   4 +-
 .github/workflows/_pre_ce_test.yml            |   6 +-
 .github/workflows/_stable_test.yml            |   4 +-
 .github/workflows/_unit_test_coverage.yml     |   4 +-
 .../test_ernie_03b_pd_splitwise_scheduler.py  | 427 ------------------
 9 files changed, 26 insertions(+), 435 deletions(-)
 delete mode 100644 tests/e2e/test_ernie_03b_pd_splitwise_scheduler.py

diff --git a/.github/workflows/_accuracy_test.yml b/.github/workflows/_accuracy_test.yml
index 7f969fa7397..40c9d5bd98b 100644
--- a/.github/workflows/_accuracy_test.yml
+++ b/.github/workflows/_accuracy_test.yml
@@ -161,7 +161,9 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          # Avoid using pip cache to ensure the wheel is updated to the latest version
+          wget -q --no-proxy https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_base_test.yml b/.github/workflows/_base_test.yml
index 377714b05bc..a6ae5cf07c9 100644
--- a/.github/workflows/_base_test.yml
+++ b/.github/workflows/_base_test.yml
@@ -186,7 +186,9 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          # Avoid using pip cache to ensure the wheel is updated to the latest version
+          wget -q --no-proxy https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_build_linux.yml b/.github/workflows/_build_linux.yml
index d6bb583d2d0..0ead47d1ce8 100644
--- a/.github/workflows/_build_linux.yml
+++ b/.github/workflows/_build_linux.yml
@@ -173,7 +173,9 @@ jobs:
             elif [[ "${PADDLEVERSION}" != "" ]];then
               python -m pip install paddlepaddle-gpu==${PADDLEVERSION} -i https://www.paddlepaddle.org.cn/packages/stable/cu126/
             else
-              python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+              # Avoid using pip cache to ensure the wheel is updated to the latest version
+              wget -q --no-proxy https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+              python -m pip install paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
             fi
 
             pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
diff --git a/.github/workflows/_build_linux_rl.yml b/.github/workflows/_build_linux_rl.yml
index 6e570965b95..38f052473e8 100644
--- a/.github/workflows/_build_linux_rl.yml
+++ b/.github/workflows/_build_linux_rl.yml
@@ -161,7 +161,9 @@ jobs:
             chown -R $(whoami) /workspace/FastDeploy
             cd FastDeploy
 
-            python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Paddle-RL-Compile/release/3.3/latest/paddlepaddle_gpu-3.3.0.dev-cp310-cp310-linux_x86_64.whl
+            # Avoid using pip cache to ensure the wheel is updated to the latest version
+            wget -q --no-proxy https://paddle-qa.bj.bcebos.com/paddle-pipeline/Paddle-RL-Compile/release/3.3/latest/paddlepaddle_gpu-3.3.0.dev-cp310-cp310-linux_x86_64.whl
+            python -m pip install paddlepaddle_gpu*
 
             pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_logprob_test_linux.yml b/.github/workflows/_logprob_test_linux.yml
index 3af3b7a6052..066acd79c95 100644
--- a/.github/workflows/_logprob_test_linux.yml
+++ b/.github/workflows/_logprob_test_linux.yml
@@ -156,7 +156,9 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          # Avoid using pip cache to ensure the wheel is updated to the latest version
+          wget -q --no-proxy https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_pre_ce_test.yml b/.github/workflows/_pre_ce_test.yml
index 72720a6a682..b78a5862507 100644
--- a/.github/workflows/_pre_ce_test.yml
+++ b/.github/workflows/_pre_ce_test.yml
@@ -172,7 +172,11 @@ jobs:
           --gpus "\"device=${DEVICES}\"" ${docker_image} /bin/bash -c '
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          # Avoid using pip cache to ensure the wheel is updated to the latest version
+          wget -q --no-proxy https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+
+          pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
           python -m pip install ${fd_wheel_url}
           bash scripts/run_pre_ce.sh
           '
diff --git a/.github/workflows/_stable_test.yml b/.github/workflows/_stable_test.yml
index 4fd8739c41a..c4857f4b474 100644
--- a/.github/workflows/_stable_test.yml
+++ b/.github/workflows/_stable_test.yml
@@ -164,7 +164,9 @@ jobs:
           -v "${CACHE_DIR}/ConfigDir:/root/.config" \
           -e TZ="Asia/Shanghai" \
           --gpus '"device='"${DEVICES}"'"' ${docker_image} /bin/bash -xc '
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          # Avoid using pip cache to ensure the wheel is updated to the latest version
+          wget -q --no-proxy https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
 
           pip config set global.index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
diff --git a/.github/workflows/_unit_test_coverage.yml b/.github/workflows/_unit_test_coverage.yml
index 146df7e0fa7..ce4ad4fd79a 100644
--- a/.github/workflows/_unit_test_coverage.yml
+++ b/.github/workflows/_unit_test_coverage.yml
@@ -203,7 +203,9 @@ jobs:
           git config --global --add safe.directory /workspace/FastDeploy
           cd FastDeploy
           git diff origin/${BASE_REF}..HEAD --unified=0 > diff.txt
-          python -m pip install https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          # Avoid using pip cache to ensure the wheel is updated to the latest version
+          wget -q --no-proxy https://paddle-qa.bj.bcebos.com/paddle-pipeline/Release-TagBuild-Training-Linux-Gpu-Cuda12.6-Cudnn9.5-Trt10.5-Mkl-Avx-Gcc11-SelfBuiltPypiUse/latest/paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
+          python -m pip install paddlepaddle_gpu-0.0.0-cp310-cp310-linux_x86_64.whl
           pip config set global.extra-index-url https://mirrors.tuna.tsinghua.edu.cn/pypi/web/simple
 
           python -m pip install -r scripts/unittest_requirement.txt
diff --git a/tests/e2e/test_ernie_03b_pd_splitwise_scheduler.py b/tests/e2e/test_ernie_03b_pd_splitwise_scheduler.py
deleted file mode 100644
index cac68c6806c..00000000000
--- a/tests/e2e/test_ernie_03b_pd_splitwise_scheduler.py
+++ /dev/null
@@ -1,427 +0,0 @@
-# Copyright (c) 2025 PaddlePaddle Authors. All Rights Reserved.
-#
-# Licensed under the Apache License, Version 2.0 (the "License");
-# you may not use this file except in compliance with the License.
-# You may obtain a copy of the License at
-#
-#     http://www.apache.org/licenses/LICENSE-2.0
-#
-# Unless required by applicable law or agreed to in writing, software
-# distributed under the License is distributed on an "AS IS" BASIS,
-# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
-# See the License for the specific language governing permissions and
-# limitations under the License.
-
-# Test splitwise deployment which uses splitwise_scheduler,
-# and ENABLE_V1_KVCACHE_SCHEDULER is 0
-
-import json
-import os
-import shutil
-import signal
-import subprocess
-import sys
-import time
-
-import pytest
-import requests
-from utils.serving_utils import (
-    FD_API_PORT,
-    FD_CACHE_QUEUE_PORT,
-    FD_ENGINE_QUEUE_PORT,
-    FD_METRICS_PORT,
-    clean,
-    is_port_open,
-)
-
-# Read ports from environment variables; use default values if not set
-FD_CONNECTOR_PORT = int(os.getenv("FD_CONNECTOR_PORT", 8433))
-FD_REDIS_PORT = int(os.getenv("FD_REDIS_PORT", 8533))
-
-# List of ports to clean before and after tests
-PORTS_TO_CLEAN = [
-    FD_API_PORT,
-    FD_ENGINE_QUEUE_PORT,
-    FD_METRICS_PORT,
-    FD_CACHE_QUEUE_PORT,
-    FD_CONNECTOR_PORT,
-    FD_API_PORT + 1,
-    FD_ENGINE_QUEUE_PORT + 1,
-    FD_METRICS_PORT + 1,
-    FD_CACHE_QUEUE_PORT + 1,
-    FD_CONNECTOR_PORT + 1,
-    FD_REDIS_PORT,
-]
-
-
-@pytest.fixture(scope="session", autouse=True)
-def setup_and_run_server():
-    """
-    Pytest fixture that runs once per test session:
-    - Cleans ports before tests
-    - Starts the API server as a subprocess
-    - Waits for server port to open (up to 30 seconds)
-    - Tears down server after all tests finish
-    """
-    print("Pre-test port cleanup...")
-    clean(PORTS_TO_CLEAN)
-
-    print("log dir clean ")
-    if os.path.exists("log_redis") and os.path.isdir("log_redis"):
-        shutil.rmtree("log_redis")
-    if os.path.exists("log_prefill") and os.path.isdir("log_prefill"):
-        shutil.rmtree("log_prefill")
-    if os.path.exists("log_decode") and os.path.isdir("log_decode"):
-        shutil.rmtree("log_decode")
-
-    base_path = os.getenv("MODEL_PATH")
-    if base_path:
-        model_path = os.path.join(base_path, "ERNIE-4.5-0.3B-Paddle")
-    else:
-        model_path = "baidu/ERNIE-4.5-0.3B-Paddle"
-    print(f"model_path: {model_path}")
-
-    # redis-server
-    print("start redis...")
-    env_copy = os.environ.copy()
-    log_path = "router.log"
-
-    cmd = [
-        "redis-server",
-        "--port",
-        str(FD_REDIS_PORT),
-        "--daemonize",
-        "yes",
-    ]
-
-    with open(log_path, "w") as logfile:
-        process_redis = subprocess.Popen(
-            cmd,
-            stdout=logfile,
-            stderr=subprocess.STDOUT,
-            start_new_session=True,  # Enables killing full group via os.killpg
-            env=env_copy,
-        )
-
-    # prefill实例
-    print("start prefill...")
-    env_prefill = os.environ.copy()
-    env_prefill["CUDA_VISIBLE_DEVICES"] = "0"
-    env_prefill["ENABLE_V1_KVCACHE_SCHEDULER"] = "0"
-    env_prefill["FD_LOG_DIR"] = "log_prefill"
-    prefill_log_path = "server_prefill.log"
-    prefill_cmd = [
-        sys.executable,
-        "-m",
-        "fastdeploy.entrypoints.openai.api_server",
-        "--model",
-        model_path,
-        "--port",
-        str(FD_API_PORT),
-        "--tensor-parallel-size",
-        "1",
-        "--engine-worker-queue-port",
-        str(FD_ENGINE_QUEUE_PORT),
-        "--metrics-port",
-        str(FD_METRICS_PORT),
-        "--cache-queue-port",
-        str(FD_CACHE_QUEUE_PORT),
-        "--max-model-len",
-        "8192",
-        "--max-num-seqs",
-        "20",
-        "--quantization",
-        "wint8",
-        "--splitwise-role",
-        "prefill",
-        "--cache-transfer-protocol",
-        "ipc",
-        "--pd-comm-port",
-        str(FD_CONNECTOR_PORT),
-        "--scheduler-name",
-        "splitwise",
-        "--scheduler-host",
-        "127.0.0.1",
-        "--scheduler-port",
-        str(FD_REDIS_PORT),
-    ]
-
-    # Start subprocess in new process group
-    with open(prefill_log_path, "w") as logfile:
-        process_prefill = subprocess.Popen(
-            prefill_cmd,
-            stdout=logfile,
-            stderr=subprocess.STDOUT,
-            start_new_session=True,  # Enables killing full group via os.killpg
-            env=env_prefill,
-        )
-    time.sleep(1)
-
-    # decode实例
-    print("start decode...")
-    env_decode = os.environ.copy()
-    env_decode["CUDA_VISIBLE_DEVICES"] = "1"
-    env_decode["ENABLE_V1_KVCACHE_SCHEDULER"] = "0"
-    env_decode["FD_LOG_DIR"] = "log_decode"
-    decode_log_path = "server_decode.log"
-    decode_cmd = [
-        sys.executable,
-        "-m",
-        "fastdeploy.entrypoints.openai.api_server",
-        "--model",
-        model_path,
-        "--port",
-        str(FD_API_PORT + 1),
-        "--tensor-parallel-size",
-        "1",
-        "--engine-worker-queue-port",
-        str(FD_ENGINE_QUEUE_PORT + 1),
-        "--metrics-port",
-        str(FD_METRICS_PORT + 1),
-        "--cache-queue-port",
-        str(FD_CACHE_QUEUE_PORT + 1),
-        "--max-model-len",
-        "8192",
-        "--max-num-seqs",
-        "20",
-        "--quantization",
-        "wint8",
-        "--splitwise-role",
-        "decode",
-        "--cache-transfer-protocol",
-        "ipc",
-        "--pd-comm-port",
-        str(FD_CONNECTOR_PORT + 1),
-        "--scheduler-name",
-        "splitwise",
-        "--scheduler-host",
-        "127.0.0.1",
-        "--scheduler-port",
-        str(FD_REDIS_PORT),
-    ]
-
-    # Start subprocess in new process group
-    with open(decode_log_path, "w") as logfile:
-        process_decode = subprocess.Popen(
-            decode_cmd,
-            stdout=logfile,
-            stderr=subprocess.STDOUT,
-            start_new_session=True,  # Enables killing full group via os.killpg
-            env=env_decode,
-        )
-
-    # Wait up to 300 seconds for API server to be ready
-    for _ in range(60):
-        if is_port_open("127.0.0.1", FD_API_PORT) and is_port_open("127.0.0.1", FD_API_PORT + 1):
-            print(f"Prefill server is up on port {FD_API_PORT}")
-            print(f"Decode server is up on port {FD_API_PORT + 1}")
-            break
-        time.sleep(5)
-    else:
-        print("[TIMEOUT] API server failed to start in 5 minutes. Cleaning up...")
-        try:
-            os.killpg(process_prefill.pid, signal.SIGTERM)
-            os.killpg(process_decode.pid, signal.SIGTERM)
-            clean(PORTS_TO_CLEAN)
-        except Exception as e:
-            print(f"Failed to kill process group: {e}")
-        raise RuntimeError(f"API server did not start on port {FD_API_PORT}")
-
-    yield  # Run tests
-
-    print("\n===== Post-test server cleanup... =====")
-    try:
-        os.killpg(process_redis.pid, signal.SIGTERM)
-        os.killpg(process_prefill.pid, signal.SIGTERM)
-        os.killpg(process_decode.pid, signal.SIGTERM)
-        clean(PORTS_TO_CLEAN)
-        print(f"Prefill server (pid={process_prefill.pid}) terminated")
-        print(f"Decode server (pid={process_decode.pid}) terminated")
-    except Exception as e:
-        print(f"Failed to terminate API server: {e}")
-
-
-@pytest.fixture(scope="session")
-def api_url(request):
-    """
-    Returns the API endpoint URL for chat completions.
-    """
-    return f"http://0.0.0.0:{FD_API_PORT}/v1/chat/completions", f"http://0.0.0.0:{FD_API_PORT+1}/v1/chat/completions"
-
-
-@pytest.fixture(scope="session")
-def metrics_url(request):
-    """
-    Returns the metrics endpoint URL.
-    """
-    return f"http://0.0.0.0:{FD_METRICS_PORT}/metrics"
-
-
-@pytest.fixture
-def headers():
-    """
-    Returns common HTTP request headers.
-    """
-    return {"Content-Type": "application/json"}
-
-
-def test_metrics_config(metrics_url):
-    timeout = 600
-    url = metrics_url.replace("metrics", "config-info")
-    res = requests.get(url, timeout=timeout)
-    assert res.status_code == 200
-
-
-def send_request(url, payload, timeout=60):
-    """
-    发送请求到指定的URL，并返回响应结果。
-    """
-    headers = {
-        "Content-Type": "application/json",
-    }
-
-    try:
-        res = requests.post(url, headers=headers, json=payload, timeout=timeout)
-        print("🟢 接收响应中...\n")
-        return res
-    except requests.exceptions.Timeout:
-        print(f"❌ 请求超时（超过 {timeout} 秒）")
-        return None
-    except requests.exceptions.RequestException as e:
-        print(f"❌ 请求失败：{e}")
-        return None
-
-
-def get_stream_chunks(response):
-    """解析流式返回，生成chunk List[dict]"""
-    chunks = []
-
-    if response.status_code == 200:
-        for line in response.iter_lines(decode_unicode=True):
-            if line:
-                if line.startswith("data: "):
-                    line = line[len("data: ") :]
-
-                if line.strip() == "[DONE]":
-                    break
-
-                try:
-                    chunk = json.loads(line)
-                    chunks.append(chunk)
-                except Exception as e:
-                    print(f"解析失败: {e}, 行内容: {line}")
-    else:
-        print(f"请求失败，状态码: {response.status_code}")
-        print("返回内容：", response.text)
-
-    return chunks
-
-
-def test_chat_usage_stream(api_url):
-    """测试流式chat usage"""
-    payload = {
-        "model": "default",
-        "temperature": 0,
-        "top_p": 0,
-        "seed": 33,
-        "messages": [
-            {"role": "system", "content": "You are a helpful assistant."},
-            {"role": "user", "content": "牛顿的三大运动定律是什么？"},
-        ],
-        "max_tokens": 50,
-        "stream": True,
-        "stream_options": {"include_usage": True, "continuous_usage_stats": True},
-        "metadata": {"min_tokens": 10},
-    }
-    p_url, d_url = api_url
-    response = send_request(url=p_url, payload=payload)
-    chunks = get_stream_chunks(response)
-    result = "".join([x["choices"][0]["delta"]["content"] for x in chunks[:-1]])
-    print("Decode Response:", result)
-    assert result != "", "结果为空"
-    usage = chunks[-1]["usage"]
-    total_tokens = usage["completion_tokens"] + usage["prompt_tokens"]
-    assert payload["max_tokens"] >= usage["completion_tokens"], "completion_tokens大于max_tokens"
-    assert payload["metadata"]["min_tokens"] <= usage["completion_tokens"], "completion_tokens小于min_tokens"
-    assert usage["total_tokens"] == total_tokens, "total_tokens不等于prompt_tokens + completion_tokens"
-
-
-def test_chat_usage_non_stream(api_url):
-    """测试非流式chat usage"""
-    payload = {
-        "model": "default",
-        "temperature": 0,
-        "top_p": 0,
-        "seed": 33,
-        "messages": [
-            {"role": "system", "content": "You are a helpful assistant."},
-            {"role": "user", "content": "牛顿的三大运动定律是什么？"},
-        ],
-        "max_tokens": 50,
-        "stream": False,
-        "metadata": {"min_tokens": 10},
-    }
-
-    p_url, d_url = api_url
-    response = send_request(url=p_url, payload=payload).json()
-    usage = response["usage"]
-    result = response["choices"][0]["message"]["content"]
-    assert result != "", "结果为空"
-    total_tokens = usage["completion_tokens"] + usage["prompt_tokens"]
-    assert payload["max_tokens"] >= usage["completion_tokens"], "completion_tokens大于max_tokens"
-    assert payload["metadata"]["min_tokens"] <= usage["completion_tokens"], "completion_tokens小于min_tokens"
-    assert usage["total_tokens"] == total_tokens, "total_tokens不等于prompt_tokens + completion_tokens"
-
-
-def test_non_chat_usage_stream(api_url):
-    """测试流式非chat usage"""
-    payload = {
-        "model": "default",
-        "temperature": 0,
-        "top_p": 0,
-        "seed": 33,
-        "prompt": "牛顿的三大运动定律是什么？",
-        "max_tokens": 50,
-        "stream": True,
-        "stream_options": {"include_usage": True, "continuous_usage_stats": True},
-        "metadata": {"min_tokens": 10},
-    }
-    p_url, d_url = api_url
-    p_url = p_url.replace("chat/completions", "completions")
-
-    response = send_request(url=p_url, payload=payload)
-    chunks = get_stream_chunks(response)
-    result = "".join([x["choices"][0]["text"] for x in chunks[:-1]])
-    # print("Decode Response:", result)
-    assert result != "", "结果为空"
-    usage = chunks[-1]["usage"]
-    total_tokens = usage["completion_tokens"] + usage["prompt_tokens"]
-    assert payload["max_tokens"] >= usage["completion_tokens"], "completion_tokens大于max_tokens"
-    assert payload["metadata"]["min_tokens"] <= usage["completion_tokens"], "completion_tokens小于min_tokens"
-    assert usage["total_tokens"] == total_tokens, "total_tokens不等于prompt_tokens + completion_tokens"
-
-
-def test_non_chat_usage_non_stream(api_url):
-    """测试非流式非chat usage"""
-    payload = {
-        "model": "default",
-        "temperature": 0,
-        "top_p": 0,
-        "seed": 33,
-        "prompt": "牛顿的三大运动定律是什么？",
-        "max_tokens": 50,
-        "stream": False,
-        "metadata": {"min_tokens": 10},
-    }
-    p_url, d_url = api_url
-    p_url = p_url.replace("chat/completions", "completions")
-
-    response = send_request(url=p_url, payload=payload).json()
-    usage = response["usage"]
-    result = response["choices"][0]["text"]
-    # print("Decode Response:", result)
-    assert result != "", "结果为空"
-    total_tokens = usage["completion_tokens"] + usage["prompt_tokens"]
-    assert payload["max_tokens"] >= usage["completion_tokens"], "completion_tokens大于max_tokens"
-    assert payload["metadata"]["min_tokens"] <= usage["completion_tokens"], "completion_tokens小于min_tokens"
-    assert usage["total_tokens"] == total_tokens, "total_tokens不等于prompt_tokens + completion_tokens"

From 7bc4f05e51d733816b9f02ec694ce7fb2381254f Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Sat, 31 Jan 2026 19:40:12 +0800
Subject: [PATCH 158/161] Success Run StoreWrapper

---
 .../layers/moe/routing_indices_cache.py       | 495 +++++++++++-------
 subprocess_test_case.py                       | 206 ++++++++
 test_subprocess.py                            | 251 +++++++++
 3 files changed, 750 insertions(+), 202 deletions(-)
 create mode 100644 subprocess_test_case.py
 create mode 100644 test_subprocess.py

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 8e67c886041..4dc57aedb5c 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -14,12 +14,16 @@
 # limitations under the License.
 """
 
-import asyncio
+import atexit
+import multiprocessing
 import os
 import shutil
+import threading
 import time
 from abc import ABC, abstractmethod
-from typing import Dict, List, Optional
+from concurrent.futures import ThreadPoolExecutor
+from multiprocessing import Process, Queue
+from typing import Dict, Optional, TypedDict
 
 import numpy as np
 import paddle
@@ -28,7 +32,7 @@
 import triton.language as tl
 from paddleformers.utils.log import logger
 
-from fastdeploy.config import FDConfig
+from fastdeploy.config import FDConfig, RoutingReplayConfig
 
 
 @triton.jit
@@ -149,26 +153,30 @@ class RoutingReplayManager:
 
     def __init__(self, fd_config: FDConfig, block_table, total_block_num):
         self.fd_config = fd_config
+        self.block_table = block_table
         self.max_num_seqs = fd_config.scheduler_config.max_num_seqs
         self.max_model_len = fd_config.model_config.max_model_len
         self.num_moe_layers = fd_config.model_config.num_hidden_layers - fd_config.model_config.moe_layer_start_index
         self.only_last_turn = fd_config.routing_replay_config.only_last_turn
         self.use_fused_put = fd_config.routing_replay_config.use_fused_put
-
         if fd_config.model_config.architectures[0] == "Glm4MoeForCausalLM":
             self.moe_top_k = fd_config.model_config.num_experts_per_tok
         else:
             self.moe_top_k = fd_config.model_config.moe_k
         self.tp_rank = fd_config.parallel_config.tensor_parallel_rank
 
-        self.routing_store = get_routing_store(fd_config=fd_config)
+        # Initialize the routing replay table and routing cache
         self.routing_batch_to_request: Dict[int, str] = {}
-
         num_experts = fd_config.model_config.moe_num_experts + fd_config.model_config.moe_num_shared_experts
         self.routing_dtype = self.get_routing_dtype(num_experts=num_experts)
         self._init_routing_cache(dtype=self.routing_dtype, total_block_num=total_block_num)
 
-        self.block_table = block_table
+        # Initialize routing store wrapper
+        if self.tp_rank == 0:
+            self._store_wrapper = StoreWrapper(
+                fd_config=fd_config,
+            )
+            self._store_wrapper.start_store_warpper()
 
     def _init_routing_cache(self, dtype: str, total_block_num: int):
         """Initialize the device buffer and host buffer."""
@@ -247,13 +255,13 @@ def compute_slot_mapping(self, positions: np.ndarray):
 
         return slot_mapping
 
-    def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder):
+    def _get_routing_from_cache(self, finished_batch_ids, seq_lens_decoder):
         """
-        Get the slot mapping of the request cache.
         When request is finished or cleared the length of the request is recorded at seq_lens_decoder
             1. finish the step: after update input, lens = seq_lens_decoder_buffer
             2. clear parameter: after update input, lens = seq_lens_decoder_buffer
         """
+        # Get the slot mapping of the request cache.
         current_token_nums = seq_lens_decoder.numpy()[:, 0]
         positions = []
         for batch_id in range(self.max_num_seqs):
@@ -262,10 +270,8 @@ def _get_request_cache_ids(self, finished_batch_ids, seq_lens_decoder):
                 position = np.arange(0, current_token_nums[batch_id])
             positions.append(position)
 
-        return self.compute_slot_mapping(positions=positions)
-
-    def _get_routing_from_cache(self, token_cache_ids):
-        """Collection the cached routing information"""
+        # Collection the cached routing information
+        token_cache_ids = self.compute_slot_mapping(positions=positions)
         for slot_map in token_cache_ids:
             if len(slot_map) > 0:
                 token_cached_routing = self._host_cache[slot_map, :, :]
@@ -281,14 +287,16 @@ def put_finished_batch(
         for batch_id, finished in enumerate(finished_batch_ids_list):
             if finished:
                 assert batch_id in self.routing_batch_to_request.keys()
+                # Deregister the request
                 request_id = self._deregister_request(batch_id)
-                asyncio.run(
-                    self._put_request_to_store(
-                        batch_id=batch_id,
-                        request_id=request_id,
-                        seq_lens_decoder=seq_lens_decoder,
-                    )
+                # Put the routing of finished request to store
+                self._put_request_to_store(
+                    batch_id=batch_id,
+                    request_id=request_id,
+                    seq_lens_decoder=seq_lens_decoder,
                 )
+                # Clear the slot of the finished batch
+                self._clear_table_slot(batch_id)
 
     def register_request(self, batch_id: int, request_id: str):
         """
@@ -318,67 +326,42 @@ def _deregister_request(self, batch_id: int) -> str:
         assert batch_id in self.routing_batch_to_request
         return self.routing_batch_to_request.pop(batch_id)
 
-    async def _put_request_to_store(
+    def _put_request_to_store(
         self,
         batch_id: int,
         request_id: str,
         seq_lens_decoder,
     ):
-        before_put_request_time = time.perf_counter()
         if self.tp_rank == 0:
-            slot_mapping = self._get_request_cache_ids(
+            before_put_request_time = time.perf_counter()
+
+            # Collect the routing of finished request
+            batch_buffer = self._get_routing_from_cache(
                 finished_batch_ids=[batch_id], seq_lens_decoder=seq_lens_decoder
             )
-            batch_buffer = self._get_routing_from_cache(token_cache_ids=slot_mapping)
             rollout_id = self.split_request_id(request_id)
             # TODO(gongshaotian): Delete pad func after trainer support dynamic len
-            batch_buffer = self.pad_routing_cache(routing_indices=batch_buffer)
+            paded_batch_buffer = self.pad_routing_cache(routing_indices=batch_buffer)
 
-            tasks = []
             if self.use_fused_put:
-                tasks.append(self.routing_store.fused_put(routing_indices=batch_buffer, rollout_id=rollout_id))
+                self._store_wrapper.submit_put_task(routing_indices=paded_batch_buffer, rollout_id=rollout_id)
             else:
                 for layer_id in range(self.num_moe_layers):
                     layer_buffer = batch_buffer[layer_id]
-                    tasks.append(
-                        self.routing_store.put(routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id)
+                    self._store_wrapper.submit_put_task(
+                        routing_indices=layer_buffer, rollout_id=rollout_id, layer_idx=layer_id
                     )
+
+            # Only store the routing of last turn
             if self.only_last_turn:
-                prefix_batch = self.get_needed_clear_ids(rollout_id)
-                if prefix_batch is not None:
-                    tasks.append(self.routing_store.clear_prefix_batch(roullout_id_prefixes=prefix_batch))
-            await asyncio.gather(*tasks)
-        self._clear_table_slot(batch_id)
-        logger.info(f"[R3] Async put {request_id} time cost: {time.perf_counter() - before_put_request_time}")
+                self._store_wrapper.submit_clear_prefix_batch_task(rollout_id=rollout_id)
+
+            logger.info(f"[R3] Submit {request_id} time cost: {time.perf_counter() - before_put_request_time}")
 
     def _clear_table_slot(self, batch_id: int):
         assert 0 <= batch_id < self.max_num_seqs
         self.routing_replay_table[batch_id].fill_(-1)
 
-    def clear_routing_table(self):
-        """Clear all slots of the routing replay table"""
-        self.routing_replay_table.fill_(-1)
-
-    def _clear_store(self):
-        """Clear routing store"""
-        self.routing_store.clear_store()
-
-    def _clear_request_of_store(self, request_id):
-        """Clear one request of routing store"""
-        rollout_id = self.split_request_id(request_id)
-        for layer_idx in range(self.num_moe_layers):
-            self.routing_store.clear(rollout_id=rollout_id, layer_idx=layer_idx)
-
-    def get_request_from_store(self, request_id: str) -> List[paddle.Tensor]:
-        """Get the routing indices of the request from store"""
-        routing_list = []
-        rollout_id = self.split_request_id(request_id)
-        for layer_idx in range(self.num_moe_layers):
-            one_layer_routing = self.routing_store.get(rollout_id, layer_idx)
-            routing_list.append(one_layer_routing)
-
-        return routing_list
-
     def get_routing_table(self) -> paddle.Tensor:
         return self.routing_replay_table
 
@@ -399,7 +382,158 @@ def split_request_id(self, request_id: str):
         rollout_id = reversed_tmp_str[-1][::-1]
         return rollout_id
 
-    def get_needed_clear_ids(self, roullout_id: str) -> Optional[List[str]]:
+    def pad_routing_cache(self, routing_indices) -> paddle.Tensor:
+        """Pad routing indices of the request levevl to max model len"""
+        current_shape = routing_indices.shape[1]
+        pad_tensor = paddle.full(
+            shape=[self.num_moe_layers, (self.max_model_len - current_shape), self.moe_top_k],
+            fill_value=-1,
+            dtype=self.routing_dtype,
+        )
+        return paddle.concat([routing_indices, pad_tensor], axis=1)
+
+
+class StoreWrapper(object):
+    def __init__(self, fd_config: False) -> None:
+        super().__init__()
+        self.fd_config = fd_config
+
+        # Initialize task queue
+        layer_num = 61
+        max_request = 200
+        self.queue_max_size = layer_num * max_request
+        # self._task_queue = multiprocessing.Queue(maxsize=self.queue_max_size)
+        self.manager = multiprocessing.Manager()
+        self._task_queue = self.manager.Queue(maxsize=self.queue_max_size)
+
+        self._monitor_thread: threading.Thread = None
+        self._stop_monitor = threading.Event()
+
+        # Initialize consumer process
+        self._routing_store_process = StoreProcess(
+            task_queue=self._task_queue,
+            routing_replay_config=self.fd_config.routing_replay_config,
+        )
+        self._sotre_process_running = False
+
+        # Register atexit handler
+        atexit.register(self.shutdown)
+
+    def shutdown(self):
+        """ """
+        if not self._sotre_process_running:
+            return
+        self._sotre_process_running = False
+
+        # Stop the monitor thread
+        self._stop_monitor.set()
+        if self._monitor_thread and self._monitor_thread.is_alive():
+            self._monitor_thread.join(timeout=3.0)
+
+        # Put a sentinel value to signal the consumer to stop
+        if self._routing_store_process and self._routing_store_process.is_alive():
+            try:
+                self._task_queue.put_nowait(None)
+            except Exception as e:
+                logger.info(f"Could not put sentinel into queue: {e}")
+
+        if self._routing_store_process and self._routing_store_process.is_alive():
+            # Wait for all tasks to be processed
+            self._routing_store_process.join(timeout=10.0)
+            if self._routing_store_process.is_alive():
+                self._routing_store_process.terminate()
+                self._routing_store_process.join()
+
+        self._task_queue.join()
+        self.manager.shutdown()
+        self._sotre_process_running = False
+
+    def start_store_warpper(self):
+        """ """
+        if self._sotre_process_running:
+            return
+        self._sotre_process_running = True
+
+        # Start monitor thread
+        self._stop_monitor.clear()
+        self._monitor_thread = threading.Thread(target=self._monitor_queue_load, daemon=True)
+        self._monitor_thread.start()
+
+        # Start Routing Store Wrapper in sub process
+        self._routing_store_process.start()
+
+    def _monitor_queue_load(self):
+        """ """
+        while not self._stop_monitor.is_set():
+            time.sleep(2.0)
+            if not self._sotre_process_running:
+                break
+            qsize = self._task_queue.qsize()
+
+            # Alarm when the task exceeds 80% of the queue capacity
+            if qsize > self.queue_max_size * 0.8:
+                logger.info(
+                    f"[Monitor] Queue load is HIGH: {qsize}/{self.queue_max_size}. "
+                    f"Dropped tasks so far: {self._dropped_tasks}. "
+                    "Consider increasing max_workers or queue_max_size."
+                )
+
+    def submit_put_task(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int = None) -> None:
+        """Submit a put task to the task queue"""
+        if not self._sotre_process_running:
+            raise RuntimeError("Store not started.")
+
+        start_time = time.perf_counter()
+        if layer_idx is not None:
+            rdma_rollout_key = f"{rollout_id}_{layer_idx}"
+        else:
+            rdma_rollout_key = rollout_id
+
+        routing_indices_np = np.array(routing_indices.numpy(), copy=True)
+
+        task: StoreTask = {"task_type": "put", "key": rdma_rollout_key, "data": routing_indices_np}
+
+        try:
+            self._task_queue.put_nowait(task)
+        except Exception:
+            raise RuntimeError(f"Queue is FULL. Dropping put task for key: {rdma_rollout_key}. ")
+        logger.info(f"[R3] Submit put task for key: {rdma_rollout_key}, cost time: {time.perf_counter()-start_time} s")
+
+    def submit_clear_store_task(self) -> None:
+        """Submit clear store task"""
+        if not self._sotre_process_running:
+            raise RuntimeError("Store not started.")
+
+        start_time = time.perf_counter()
+        task: StoreTask = {"task_type": "clear_store", "key": None, "data": None}
+
+        try:
+            self._task_queue.put_nowait(task)
+            # Wait for the task to be processed
+            self._task_queue.join()
+        except Exception:
+            raise RuntimeError("Queue is FULL. Dropping put task for key: clear_store. ")
+        logger.info(f"[R3] Submit clear task, cost time: {time.perf_counter()-start_time} s")
+
+    def submit_clear_prefix_batch_task(self, rollout_id) -> None:
+        """Submit clear prefix batch task"""
+        if not self._sotre_process_running:
+            raise RuntimeError("Store not started.")
+        prefix_batch = self.get_needed_clear_ids(rollout_id)
+
+        if prefix_batch is None:
+            return
+        start_time = time.perf_counter()
+        task: StoreTask = {"task_type": "clear_prefix_batch", "key": prefix_batch, "data": None}
+        try:
+            self._task_queue.put_nowait(task)
+        except Exception:
+            raise RuntimeError("Queue is FULL. Dropping put task for key: clear_store. ")
+        logger.info(
+            f"[R3] Submit clear prefix batch task for key: {prefix_batch}, cost time: {time.perf_counter()-start_time} s"
+        )
+
+    def get_needed_clear_ids(self, roullout_id: str) -> Optional[str]:
         """
         Generate the prefix IDs for all closed multi-round tasks.
         rollout_id: "xxx_xxx_epoch_15:2:2:1"
@@ -413,51 +547,85 @@ def get_needed_clear_ids(self, roullout_id: str) -> Optional[List[str]]:
         assert turn_id >= 0 and segment_id >= 0
         prefix_batch = None
         if turn_id > 0:
-            prefix_batch = [f"{prefix_gen_id}:{(turn_id-1)}:{segment_id}"]
+            prefix_batch = f"{prefix_gen_id}:{(turn_id-1)}:{segment_id}"
         return prefix_batch
 
-    def clear_request(self, batch_id: int):
-        """Clear the routing indices of the request"""
-        self._clear_table_slot(batch_id)
-        self.routing_batch_to_request.pop(batch_id, None)
 
-    def pad_routing_cache(self, routing_indices) -> paddle.Tensor:
-        """Pad routing indices of the request levevl to max model len"""
-        current_shape = routing_indices.shape[1]
-        pad_tensor = paddle.full(
-            shape=[self.num_moe_layers, (self.max_model_len - current_shape), self.moe_top_k],
-            fill_value=-1,
-            dtype=self.routing_dtype,
-        )
-        return paddle.concat([routing_indices, pad_tensor], axis=1)
+class StoreTask(TypedDict):
+    task_type: str
+    key: str
+    data: np.ndarray
+
+
+class StoreProcess(Process):
+    def __init__(self, task_queue: Queue, routing_replay_config: RoutingReplayConfig) -> None:
+        super().__init__()
+
+        self._task_queue = task_queue
+        self.routing_replay_config = routing_replay_config
+        self._routing_store = get_routing_store(routing_replay_config=routing_replay_config)
+        self.max_workers = 5
+
+    def run(self):
+        logger.info(f"[R3] Start Running Store Wrapper in sub process {os.getpid()}")
+        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
+            while True:
+                try:
+                    task = StoreTask(self._task_queue.get())
+                    logger.info(f"[R3] Receive {task['task_type']} task, key: {task['key']}")
+                    if task is None:  # Sentinel
+                        self._task_queue.task_done()
+                        break
+
+                    if task["task_type"] == "put":
+                        logger.info(f"[R3] before process put task, key: {task['key']}")
+                        future = executor.submit(self.process_put_task, task)
+                        future.add_done_callback(lambda f: self._task_queue.task_done())
+
+                    elif task["task_type"] == "clear_store":
+                        future = executor.submit(self.process_clear_store_task, task)
+                        future.add_done_callback(lambda f: self._task_queue.task_done())
+
+                    elif task["task_type"] == "clear_prefix_batch":
+                        future = executor.submit(self.process_clear_prefix_batch_task, task)
+                        future.add_done_callback(lambda f: self._task_queue.task_done())
+                    logger.info(future.result())
+                except Exception as e:
+                    self._task_queue.task_done()
+                    raise ValueError(f"{e}")
+
+        logger.info(f"[Consumer Process {Process.current_process().pid}] Shutdown.")
+
+    def process_put_task(self, store_task: StoreTask) -> None:
+        try:
+            self._routing_store.put(routing_key=store_task["key"], routing_indices=store_task["data"])
+        except Exception as e:
+            raise RuntimeError(f"{e}")
+
+    def process_clear_store_task(self, store_task: StoreTask) -> None:
+        try:
+            self._routing_store.clear_store()
+        except Exception as e:
+            raise RuntimeError(f"{e}")
+
+    def process_clear_prefix_batch_task(self, store_task: StoreTask) -> None:
+        try:
+            self._routing_store.clear_prefix_batch(routing_prefix_key=store_task["key"])
+        except Exception as e:
+            raise RuntimeError(f"{e}")
 
 
 class RoutingStoreBase(ABC):
     """Base class for routing store"""
 
-    def __init__(self, fd_config: FDConfig) -> None:
-        self.fd_config = fd_config
+    def __init__(self, routing_replay_config: RoutingReplayConfig) -> None:
+        self.routing_replay_config = routing_replay_config
 
     @abstractmethod
-    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: Optional[int] = None) -> None:
+    def put(self, routing_key: str, routing_indices: np.ndarray) -> None:
         """Put the routing indices into store"""
         raise NotImplementedError
 
-    @abstractmethod
-    async def fused_put(self, routing_indices: paddle.Tensor, rollout_id: str) -> None:
-        """Fused routing of all layers and put the fused routing into store"""
-        raise NotImplementedError
-
-    @abstractmethod
-    def get(self, rollout_id: str, layer_idx: Optional[int] = None) -> paddle.Tensor:
-        """Get the routing indices from store"""
-        raise NotImplementedError
-
-    @abstractmethod
-    def clear(self, rollout_id: str, layer_idx: Optional[int] = None) -> None:
-        """Clear the routing indices of the request"""
-        raise NotImplementedError
-
     @abstractmethod
     def clear_store(
         self,
@@ -466,7 +634,7 @@ def clear_store(
         raise NotImplementedError
 
     @abstractmethod
-    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
+    def clear_prefix_batch(self, routing_prefix_key: str):
         """Clear the routing indices"""
         raise NotImplementedError
 
@@ -474,154 +642,77 @@ async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
 class RoutingStoreLocal(RoutingStoreBase):
     """Routing Store using local memory"""
 
-    def __init__(self, fd_config) -> None:
-        super().__init__(fd_config=fd_config)
-        self.local_store_dir = fd_config.routing_replay_config.local_store_dir
+    def __init__(self, routing_replay_config) -> None:
+        super().__init__(routing_replay_config=routing_replay_config)
+        self.local_store_dir = routing_replay_config.local_store_dir
+
         self.clear_store()
+        os.makedirs(self.local_store_dir, exist_ok=True)
 
-    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+    def put(
+        self,
+        routing_key: str,
+        routing_indices: np.ndarray,
+    ) -> None:
         """Put the routing indices into store"""
-        routing_key = f"{rollout_id}_{layer_idx}"
-
-        # async put
-        time_before_put = time.perf_counter()
-        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
-        os.makedirs(dir_path, exist_ok=True)
-        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
-        paddle.save(routing_indices, file_path)
-        logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
-
-    async def fused_put(self, routing_indices: paddle.Tensor, rollout_id: str) -> None:
-        """Fused routing of all layers and put the fused routing into store"""
-        routing_key = f"{rollout_id}"
-
-        # async put
+        # TODO(gongshaotian) covert ./store_dir/routing_key/layer_id.pdtensor to ./store_dir/routing_key.pt
         time_before_put = time.perf_counter()
         file_path = os.path.join(self.local_store_dir, f"{routing_key}.pdtensor")
         paddle.save(routing_indices, file_path)
         logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
 
-    def get(
-        self,
-        rollout_id: str,
-        layer_idx: int = None,
-    ) -> paddle.Tensor:
-        """Get the routing indices from store"""
-        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
-        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
-        assert os.path.exists(file_path), f"File not found: {file_path}"
-        layer_routing_indices = paddle.load(file_path)
-
-        return layer_routing_indices
-
-    def clear(
-        self,
-        rollout_id: str,
-        layer_idx: int = None,
-    ) -> None:
-        """Clear the routing indices of the request"""
-        dir_path = os.path.join(self.local_store_dir, f"{rollout_id}")
-        file_path = os.path.join(dir_path, f"layer_{layer_idx}.pdtensor")
-        assert os.path.exists(file_path), f"File not found: {file_path}"
-        os.remove(file_path)
-
-        # Delete empty directory
-        if len(os.listdir(dir_path)) == 0:
-            os.rmdir(dir_path)
-
     def clear_store(self):
         """Clear the routing indices store"""
         if os.path.isdir(self.local_store_dir):
             shutil.rmtree(self.local_store_dir)
 
-    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
-        # async delete
-        logger.info(f"[R3] clear_prefix_batch {roullout_id_prefixes}")
+        logger.info("[R3] Clear routing store.")
+
+    def clear_prefix_batch(self, routing_prefix_key: str):
+        """Clear the routing indices"""
+        raise NotImplementedError
 
 
 class RoutingStoreRDMA(RoutingStoreBase):
     """Routing Store using RDMA"""
 
-    def __init__(self, fd_config) -> None:
-        super().__init__(fd_config=fd_config)
+    def __init__(self, routing_replay_config) -> None:
+        super().__init__(routing_replay_config=routing_replay_config)
         try:
             # Only used in RLHF
             from p2pstore import P2PClient, P2PConfig
         except ModuleNotFoundError:
             raise ModuleNotFoundError(" RoutingStoreRDMA and p2pstore only support in RLHF. ")
 
-        rdma_store_server = fd_config.routing_replay_config.rdma_store_server
+        rdma_store_server = routing_replay_config.rdma_store_server
         p2pConfig = P2PConfig(metadata_server=rdma_store_server)
         self.p2p_client = P2PClient(p2pConfig)
         self.clear_store()
 
-    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+    def put(self, routing_key: str, routing_indices: np.ndarray) -> None:
         """Put the routing indices into store"""
-        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
-
-        # async put
-        time_before_put = time.perf_counter()
-        routing_indices_cpu = routing_indices.cpu()
-        routing_indices_np = np.array(routing_indices_cpu.numpy(), copy=True)
-        copy_time = time.perf_counter()
-        await self.p2p_client.put(rdma_rollout_key, routing_indices_np)
-        logger.info(
-            f"[R3] The routing key {rdma_rollout_key} copy cost is {copy_time-time_before_put}s, put cost is {time.perf_counter()-time_before_put}s"
-        )
-
-    async def fused_put(self, routing_indices: paddle.Tensor, rollout_id: str) -> None:
-        """Fused routing of all layers and put the fused routing into store"""
-        rdma_rollout_key = f"{rollout_id}"
-
-        # async put
         time_before_put = time.perf_counter()
-        routing_indices_cpu = routing_indices.cpu()
-        routing_indices_np = routing_indices_cpu.numpy()
-        copy_time = time.perf_counter()
-        await self.p2p_client.put(rdma_rollout_key, routing_indices_np)
-        logger.info(
-            f"[R3] The routing key {rdma_rollout_key} copy cost is {copy_time-time_before_put}s, fused put cost is {time.perf_counter()-time_before_put}s"
-        )
-
-    def get(
-        self,
-        rollout_id: str,
-        layer_idx: int = None,
-    ) -> paddle.Tensor:
-        """Get the routing indices from store"""
-        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
-        # sync get
-        tmp_routing = asyncio.run(self.p2p_client.get(rdma_rollout_key))
-        return tmp_routing
-
-    def clear(
-        self,
-        rollout_id: str,
-        layer_idx: int = None,
-    ) -> None:
-        """Clear the routing indices of the request"""
-        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
-        # sync delete
-        asyncio.run(self.p2p_client.delete(rdma_rollout_key))
+        self.p2p_client.put(routing_key, routing_indices)
+        logger.info(f"[R3] The routing key {routing_key}, put cost is {time.perf_counter()-time_before_put}s")
 
-    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
+    def clear_prefix_batch(self, routing_prefix_key: str):
         # async delete
-        await self.p2p_client.delete_prefix_batch(roullout_id_prefixes)
-        logger.info(f"[R3] clear_prefix_batch {roullout_id_prefixes}")
+        self.p2p_client.delete_prefix_batch(routing_prefix_key)
+        logger.info(f"[R3] Clear prefix batch, prefix key: {routing_prefix_key}")
 
     def clear_store(self):
         """Clear the routing indices store"""
-        # sync clear routing store
-        asyncio.run(self.p2p_client.clear())
+        self.p2p_client.clear()
+        logger.info("[R3] Clear routing store.")
 
 
-def get_routing_store(fd_config: FDConfig) -> RoutingStoreBase:
-    if fd_config.routing_replay_config.routing_store_type == "local":
-        return RoutingStoreLocal(fd_config=fd_config)
-    elif fd_config.routing_replay_config.routing_store_type == "rdma":
-        return RoutingStoreRDMA(fd_config=fd_config)
+def get_routing_store(routing_replay_config: RoutingReplayConfig) -> RoutingStoreBase:
+    if routing_replay_config.routing_store_type == "local":
+        return RoutingStoreLocal(routing_replay_config=routing_replay_config)
+    elif routing_replay_config.routing_store_type == "rdma":
+        return RoutingStoreRDMA(routing_replay_config=routing_replay_config)
     else:
         raise ValueError(
-            f"Invalid routing store type: '{fd_config.routing_replay_config.routing_store_type}'. "
+            f"Invalid routing store type: '{routing_replay_config.routing_store_type}'. "
             "Valid types are: 'local', 'rdma'"
         )
diff --git a/subprocess_test_case.py b/subprocess_test_case.py
new file mode 100644
index 00000000000..825845e0a31
--- /dev/null
+++ b/subprocess_test_case.py
@@ -0,0 +1,206 @@
+import numpy
+from typing import List, Dict, Any, TypedDict
+from concurrent.futures import ThreadPoolExecutor
+from multiprocessing import Process, Queue
+import asyncio
+import time
+import numpy as np
+import paddle
+from concurrent.futures import ThreadPoolExecutor
+from typing import List, Dict, Any, TypedDict
+import atexit
+import threading
+import os
+
+class RoutingManager(object):
+    def __init__(self) -> None:
+
+        # Initialize routing store
+        self._routing_store = RoutingStoreLocal()
+
+        # Initialize routing store wrapper
+        self._routing_store_process = StoreWrapper(
+            routing_store=self._routing_store
+        )
+
+class StoreTask(TypedDict):
+    task_type: str
+    key: str
+    data: np.ndarray
+
+class StoreProcess(Process):
+    def __init__(self, task_queue: Queue, routing_store: object) -> None:
+        self._task_quequ = task_queue
+        self._routing_store = routing_store
+
+    def run(self):
+        print(f"[R3] Start Running Store Wrapper in sub process {os.getpid()}")
+        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
+            while True:
+                try:
+                    
+                    task = self._task_quequ.get()
+                    
+                    if task is None: # Sentinel
+                        self._task_quequ.task_done()
+                        break
+                    
+                    if task['task_type'] == 'put':
+                        executor.submit(self.process_put_task, task)
+                    elif task['task_type'] == 'clear_store':
+                        executor.submit(self.process_clear_store_task, task)
+                        self._task_quequ.task_done()
+                    elif task['task_type'] == 'clear_prefix_batch':
+                        executor.submit(self.process_clear_prefix_batch_task, task)
+                    else:
+                        raise ValueError(f'Unknown task type: {task["task_type"]}')
+
+                except Exception as e:
+                    self._task_quequ.task_done()
+                    raise ValueError(f'{e}')
+        
+        print(f"[Consumer Process {Process.current_process().pid}] Shutdown.")
+
+    def process_put_task(self, store_task: StoreTask) -> None:
+        """ """
+        self._routing_store.put(store_task.key, store_task.data)
+
+    def process_clear_store_task(self, store_task: StoreTask) -> None:
+        """ """
+        self._routing_store.clear()
+
+    def process_clear_prefix_batch_task(self, store_task: StoreTask) -> None:
+        """ """
+        self._routing_store.delete_prefix_batch(store_task.key)
+
+class StoreWrapper(object):
+    def __init__(self) -> None:
+        # Initialize task queue
+        layer_num = 61
+        max_request = 200
+        self.queue_max_size = layer_num * max_request
+        self._task_queue = Queue(maxsize=self.queue_max_size)
+        self._monitor_thread: threading.Thread = None
+        self._stop_monitor = threading.Event()
+
+        # Initialize consumer process
+        self._routing_store_process = StoreProcess(
+            task_queue=self._task_queue,
+            routing_store=self._routing_store
+        )
+        self._is_running = False
+
+        # Register atexit handler
+        atexit.register(self.shutdown)
+    
+    def shutdown(self):
+        """ """
+        if not self._is_running:
+            return
+        print.info("Shutting down...")
+        self._is_running = False
+
+        # Put a sentinel value to signal the consumer to stop
+        try:
+            self._task_queue.put_nowait(None)
+        except:
+            pass
+        if self._consumer_process and self._consumer_process.is_alive():
+            # Wait for all tasks to be processed
+            self._consumer_process.join(timeout=5.0)
+            if self._consumer_process.is_alive():
+                self._consumer_process.terminate()
+        self._is_running = False
+
+    def start_store_warpper(self):
+        """ """
+        if self._wrapper_is_running:
+            return
+        self._is_running = True
+
+        # Start monitor thread
+        self._stop_monitor.clear()
+        self._monitor_thread = threading.Thread(target=self._monitor_queue_load, daemon=True)
+        self._monitor_thread.start()
+
+        # Start Routing Store Wrapper in sub process
+        self._routing_store_process.run()
+
+    def _monitor_queue_load(self):
+        """ """
+        while not self._stop_monitor.is_set():
+            time.sleep(2.0)
+            qsize = self._task_queue.qsize()
+            
+            # Alarm when the task exceeds 80% of the queue capacity
+            if qsize > self.queue_max_size * 0.8:
+                print(
+                    f"[Monitor] Queue load is HIGH: {qsize}/{self.queue_max_size}. "
+                    f"Dropped tasks so far: {self._dropped_tasks}. "
+                    "Consider increasing max_workers or queue_max_size."
+                )
+            else:
+                print(f"[Monitor] Queue load: {qsize}/{self.queue_max_size}. Healthy.")
+
+    def submit_put_task(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+        """ Submit a put task to the task queue"""
+        if not self._is_running:
+            raise RuntimeError("Store not started.")
+
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
+        routing_indices_cpu = routing_indices.cpu()
+        routing_indices_np = np.array(routing_indices_cpu.numpy(), copy=True)
+        
+        task: StoreTask = {
+            "type": "put",
+            "key": rdma_rollout_key,
+            "data": routing_indices_np
+        }
+
+        try:
+            self._task_queue.put_nowait(task)
+        except Exception: 
+            raise RuntimeError(
+                f"Queue is FULL. Dropping put task for key: {rdma_rollout_key}. "
+            )
+    
+    def submit_clear_task(self) -> None:
+        """ Submit clear store task """
+        if not self._is_running:
+            raise RuntimeError("Store not started.")
+        
+        task: StoreTask = {
+            "type": "clear_store",
+            "key": None,
+            "data": None
+        }
+
+        try:
+            self._task_queue.put_nowait(task)
+            # Wait for the task to be processed
+            self._task_queue.join()
+        except Exception:
+            raise RuntimeError(
+                f"Queue is FULL. Dropping put task for key: clear_store. "
+            )
+
+    def submit_clear_prefix_batch_task(self, rollout_id) -> None:
+        """ Submit clear prefix batch task"""
+        if not self._is_running:
+            raise RuntimeError("Store not started.")
+        prefix_batch = self.get_needed_clear_ids(rollout_id)
+
+        if prefix_batch is None:
+            return
+
+        task :StoreTask = {
+            "type": "clear_prefix_batch",
+            "key": prefix_batch,
+            "data": None
+        }
+        try:
+            self._task_queue.put_nowait(task)
+        except Exception:
+            raise RuntimeError(
+                f"Queue is FULL. Dropping put task for key: clear_store. ")
+
diff --git a/test_subprocess.py b/test_subprocess.py
new file mode 100644
index 00000000000..7c5853e47e6
--- /dev/null
+++ b/test_subprocess.py
@@ -0,0 +1,251 @@
+import asyncio
+import time
+import numpy as np
+import paddle
+import logging
+from multiprocessing import Process, Queue
+from concurrent.futures import ThreadPoolExecutor
+from typing import List, Dict, Any, TypedDict
+import atexit
+import threading
+
+# ... (省略之前的 Mock 和基础类定义，保持不变) ...
+
+class PutTask(TypedDict):
+    type: str
+    key: str
+    data: np.ndarray
+
+class RoutingStoreRDMA(RoutingStoreBase):
+    """
+    Producer-Consumer RDMA Store with NON-BLOCKING producer.
+    Goal: Main process never waits for IO.
+    """
+
+    def __init__(self, fd_config: FDConfig, max_workers: int = 4, queue_max_size: int = 10000) -> None:
+        super().__init__(fd_config=fd_config)
+        try:
+            from p2pstore import P2PClient, P2PConfig
+        except ModuleNotFoundError:
+            raise ModuleNotFoundError("RoutingStoreRDMA and p2pstore only supported in RLHF environment.")
+
+        self.max_workers = max_workers
+        self.queue_max_size = queue_max_size
+        
+        # 使用更大的队列减少丢弃概率
+        self._task_queue: Queue = Queue(maxsize=self.queue_max_size)
+        
+        self._consumer_process: Process = None
+        self._monitor_thread: threading.Thread = None
+        self._stop_monitor = threading.Event()
+
+        self.p2p_config = P2PConfig(metadata_server=fd_config.routing_replay_config.rdma_store_server)
+        self.p2p_client = None # 将在子进程中初始化
+
+        self._is_running = False
+        self._dropped_tasks = 0
+        
+        atexit.register(self.shutdown)
+
+    # --- 消费者侧逻辑 (子进程) ---
+    
+    def _consumer_worker(self, task: PutTask):
+        """工作线程执行实际的 put"""
+        key = task['key']
+        data = task['data']
+        loop = asyncio.new_event_loop()
+        asyncio.set_event_loop(loop)
+        try:
+            loop.run_until_complete(self.p2p_client.put(key, data))
+        except Exception as e:
+            logger.error(f"Worker failed for key {key}: {e}")
+        finally:
+            loop.close()
+
+    def _consumer_process_main(self, task_queue: Queue, p2p_config: P2PConfig):
+        """消费者进程主循环"""
+        print(f"[Consumer Process {Process.current_process().pid}] Started with {self.max_workers} workers.")
+        self.p2p_client = P2PClient(p2p_config)
+        
+        with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
+            while True:
+                try:
+                    # 阻塞等待任务，这是消费者进程该做的事
+                    task = task_queue.get()
+                    if task is None: # Sentinel
+                        break
+                    
+                    # 提交给线程池异步执行
+                    executor.submit(self._consumer_worker, task)
+                    
+                except Exception as e:
+                    logger.error(f"Consumer loop error: {e}")
+                    break
+        
+        print(f"[Consumer Process {Process.current_process().pid}] Shutdown.")
+
+    # --- 生产者侧逻辑 (主进程) ---
+
+    def _monitor_queue_load(self):
+        """后台监控线程：仅用于观察，绝不阻塞主逻辑"""
+        while not self._stop_monitor.is_set():
+            time.sleep(2.0)
+            qsize = self._task_queue.qsize()
+            # 如果队列长度超过 80%，说明消费者跟不上了，需要告警
+            if qsize > self.queue_max_size * 0.8:
+                logger.warning(
+                    f"[Monitor] Queue load is HIGH: {qsize}/{self.queue_max_size}. "
+                    f"Dropped tasks so far: {self._dropped_tasks}. "
+                    "Consider increasing max_workers or queue_max_size."
+                )
+            else:
+                logger.info(f"[Monitor] Queue load: {qsize}/{self.queue_max_size}. Healthy.")
+
+    def start(self):
+        """启动消费者进程和监控线程"""
+        if self._is_running:
+            return
+
+        self._is_running = True
+        self._consumer_process = Process(
+            target=self._consumer_process_main,
+            args=(self._task_queue, self.p2p_config),
+            daemon=True
+        )
+        self._consumer_process.start()
+
+        # 启动监控线程（守护线程）
+        self._stop_monitor.clear()
+        self._monitor_thread = threading.Thread(target=self._monitor_queue_load, daemon=True)
+        self._monitor_thread.start()
+        
+        logger.info(f"RoutingStoreRDMA started. Consumer PID: {self._consumer_process.pid}")
+
+    async def put(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int) -> None:
+        """
+        【非阻塞】生产者接口：极速入队，立即返回。
+        如果队列满了，直接丢弃并计数（也可以选择抛异常或其他策略）。
+        """
+        if not self._is_running:
+            raise RuntimeError("Store not started.")
+
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}"
+        
+        # 数据准备（这部分在主进程做，因为需要访问 Tensor）
+        routing_indices_cpu = routing_indices.cpu()
+        routing_indices_np = np.array(routing_indices_cpu.numpy(), copy=True)
+        
+        task: PutTask = {
+            "type": "put",
+            "key": rdma_rollout_key,
+            "data": routing_indices_np
+        }
+
+        try:
+            # 核心：put_nowait 绝对不阻塞
+            self._task_queue.put_nowait(task)
+        except Exception: 
+            # 队列满了
+            self._dropped_tasks += 1
+            logger.warning(
+                f"Queue is FULL. Dropping put task for key: {rdma_rollout_key}. "
+                f"Total dropped: {self._dropped_tasks}"
+            )
+            # 这里不抛异常，不阻塞，仅仅记录日志
+
+    async def fused_put(self, routing_indices: paddle.Tensor, rollout_id: str) -> None:
+        """【非阻塞】生产者接口：极速入队"""
+        if not self._is_running:
+            raise RuntimeError("Store not started.")
+
+        rdma_rollout_key = f"{rollout_id}"
+        routing_indices_cpu = routing_indices.cpu()
+        routing_indices_np = routing_indices_cpu.numpy()
+
+        task: PutTask = {
+            "type": "fused_put",
+            "key": rdma_rollout_key,
+            "data": routing_indices_np
+        }
+
+        try:
+            self._task_queue.put_nowait(task)
+        except Exception:
+            self._dropped_tasks += 1
+            logger.warning(
+                f"Queue is FULL. Dropping fused_put task for key: {rdma_rollout_key}. "
+                f"Total dropped: {self._dropped_tasks}"
+            )
+
+    # --- 同步/管理接口 ---
+
+    def wait_completion(self, timeout: float = 30.0):
+        """
+        【可选同步】等待所有队列中的任务被处理完。
+        仅在程序退出前调用，平时不要调用。
+        """
+        if not self._is_running:
+            return
+
+        logger.info("Waiting for consumer to finish remaining tasks...")
+        start = time.time()
+        
+        # 1. 发送停止信号给消费者进程
+        self._task_queue.put(None)
+        
+        # 2. 等待消费者进程结束
+        self._consumer_process.join(timeout=timeout)
+        
+        if self._consumer_process.is_alive():
+            logger.error("Consumer did not finish in time. Terminating.")
+            self._consumer_process.terminate()
+        
+        # 3. 停止监控
+        self._stop_monitor.set()
+        if self._monitor_thread:
+            self._monitor_thread.join(timeout=2.0)
+
+        logger.info(f"Wait completed in {time.time() - start:.2f}s. Total dropped tasks: {self._dropped_tasks}")
+
+    def shutdown(self):
+        """优雅关闭"""
+        if not self._is_running:
+            return
+        
+        logger.info("Shutting down...")
+        self._is_running = False
+        
+        # 确保队列里有东西让消费者醒来（如果之前空了）
+        try:
+            self._task_queue.put_nowait(None)
+        except:
+            pass
+
+        if self._consumer_process and self._consumer_process.is_alive():
+            self._consumer_process.join(timeout=5.0)
+            if self._consumer_process.is_alive():
+                self._consumer_process.terminate()
+        
+        self._is_running = False
+        logger.info("Shutdown complete.")
+
+    # ... (get, clear 等同步方法保持不变，它们直接创建临时 client) ...
+    def get(self, rollout_id: str, layer_idx: int = None) -> paddle.Tensor:
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}" if layer_idx is not None else rollout_id
+        # 临时创建 client 用于同步读
+        tmp_client = P2PClient(self.p2p_config)
+        tmp_routing = asyncio.run(tmp_client.get(rdma_rollout_key))
+        return paddle.to_tensor(tmp_routing)
+
+    def clear(self, rollout_id: str, layer_idx: int = None) -> None:
+        rdma_rollout_key = f"{rollout_id}_{layer_idx}" if layer_idx is not None else rollout_id
+        tmp_client = P2PClient(self.p2p_config)
+        asyncio.run(tmp_client.delete(rdma_rollout_key))
+
+    async def clear_prefix_batch(self, roullout_id_prefixes: List[str]):
+        tmp_client = P2PClient(self.p2p_config)
+        await tmp_client.delete_prefix_batch(roullout_id_prefixes)
+
+    def clear_store(self):
+        tmp_client = P2PClient(self.p2p_config)
+        asyncio.run(tmp_client.clear())
\ No newline at end of file

From 2e37e944a34683ba7e89c827fd414aeee617e331 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Mon, 2 Feb 2026 11:05:01 +0800
Subject: [PATCH 159/161] WIP support async thread

---
 .../layers/moe/routing_indices_cache.py       | 174 +++++++++++++++---
 run_r3_test.sh                                |   2 +-
 2 files changed, 147 insertions(+), 29 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index 4dc57aedb5c..ff2fa922a92 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -14,12 +14,15 @@
 # limitations under the License.
 """
 
+import asyncio
 import atexit
+import functools
 import multiprocessing
 import os
 import shutil
 import threading
 import time
+import traceback
 from abc import ABC, abstractmethod
 from concurrent.futures import ThreadPoolExecutor
 from multiprocessing import Process, Queue
@@ -441,7 +444,7 @@ def shutdown(self):
             # Wait for all tasks to be processed
             self._routing_store_process.join(timeout=10.0)
             if self._routing_store_process.is_alive():
-                self._routing_store_process.terminate()
+                self._routing_store_process.close()
                 self._routing_store_process.join()
 
         self._task_queue.join()
@@ -472,11 +475,12 @@ def _monitor_queue_load(self):
 
             # Alarm when the task exceeds 80% of the queue capacity
             if qsize > self.queue_max_size * 0.8:
-                logger.info(
+                logger.warning(
                     f"[Monitor] Queue load is HIGH: {qsize}/{self.queue_max_size}. "
                     f"Dropped tasks so far: {self._dropped_tasks}. "
                     "Consider increasing max_workers or queue_max_size."
                 )
+            logger.info(f"[Monitor] Queue load: {qsize}/{self.queue_max_size}")
 
     def submit_put_task(self, routing_indices: paddle.Tensor, rollout_id: str, layer_idx: int = None) -> None:
         """Submit a put task to the task queue"""
@@ -566,10 +570,20 @@ def __init__(self, task_queue: Queue, routing_replay_config: RoutingReplayConfig
         self._routing_store = get_routing_store(routing_replay_config=routing_replay_config)
         self.max_workers = 5
 
+        # Initialize event loop thread
+        self._closed = False
+        self._event_loop_thread = AsyncEventLoopThread()
+        self._event_loop_thread.start()
+        if not self._event_loop_thread._started_event.wait(timeout=5.0):
+            raise RuntimeError("Failed to start async event loop thread")
+
+        init_task = {"task_type": "clear_store", "key": "initialize_store", "data": None}
+        self._task_queue.put_nowait(init_task)
+
     def run(self):
         logger.info(f"[R3] Start Running Store Wrapper in sub process {os.getpid()}")
         with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
-            while True:
+            while not self._closed:
                 try:
                     task = StoreTask(self._task_queue.get())
                     logger.info(f"[R3] Receive {task['task_type']} task, key: {task['key']}")
@@ -581,38 +595,135 @@ def run(self):
                         logger.info(f"[R3] before process put task, key: {task['key']}")
                         future = executor.submit(self.process_put_task, task)
                         future.add_done_callback(lambda f: self._task_queue.task_done())
-
                     elif task["task_type"] == "clear_store":
                         future = executor.submit(self.process_clear_store_task, task)
                         future.add_done_callback(lambda f: self._task_queue.task_done())
-
                     elif task["task_type"] == "clear_prefix_batch":
                         future = executor.submit(self.process_clear_prefix_batch_task, task)
                         future.add_done_callback(lambda f: self._task_queue.task_done())
-                    logger.info(future.result())
                 except Exception as e:
                     self._task_queue.task_done()
-                    raise ValueError(f"{e}")
+                    raise RuntimeError(f"Error during processing task. {e}")
 
         logger.info(f"[Consumer Process {Process.current_process().pid}] Shutdown.")
 
     def process_put_task(self, store_task: StoreTask) -> None:
         try:
-            self._routing_store.put(routing_key=store_task["key"], routing_indices=store_task["data"])
+            coro_obj = self._routing_store.put(routing_key=store_task["key"], routing_indices=store_task["data"])
+            future = self._event_loop_thread.submit_coroutine(
+                coro_obj, callback=functools.partial(self._on_async_task_completed, store_task)
+            )
         except Exception as e:
-            raise RuntimeError(f"{e}")
+            logger.error(f"Error submitting put task: {e}")
+            traceback.print_exc()
+            raise
 
     def process_clear_store_task(self, store_task: StoreTask) -> None:
         try:
-            self._routing_store.clear_store()
+            coro_obj = self._routing_store.clear_store()
+            future = self._event_loop_thread.submit_coroutine(
+                coro_obj, callback=functools.partial(self._on_async_task_completed, store_task)
+            )
         except Exception as e:
-            raise RuntimeError(f"{e}")
+            logger.error(f"Error during processing clear store task. {e}")
+            traceback.print_exc()
+            raise
 
     def process_clear_prefix_batch_task(self, store_task: StoreTask) -> None:
         try:
-            self._routing_store.clear_prefix_batch(routing_prefix_key=store_task["key"])
+            coro_obj = self._routing_store.clear_prefix_batch(routing_prefix_key=store_task["key"])
+            future = self._event_loop_thread.submit_coroutine(
+                coro_obj, callback=functools.partial(self._on_async_task_completed, store_task)
+            )
         except Exception as e:
-            raise RuntimeError(f"{e}")
+            logger.error(f"Error submitting clear_prefix_batch task: {e}")
+            traceback.print_exc()
+            raise
+
+    def _on_async_task_completed(self, task, future):
+        """ """
+        try:
+            result = future.result()
+            logger.info(f"[R3] Async task completed: {task['task_type']}, key: {task.get('key')}")
+        except Exception as e:
+            logger.error(f"[R3] Async task failed: {task['task_type']}, key: {task.get('key')}, error: {e}")
+            # traceback.print_exc()
+            # # reraise the exception to executor
+            # raise
+            logger.error(f"[Async Thread] Full traceback: {traceback.format_exc()}")
+
+    def close(self):
+        """Close the store process"""
+        self._closed = True
+        if hasattr(self, "_event_loop_thread"):
+            self._event_loop_thread.stop()
+
+
+class AsyncEventLoopThread(threading.Thread):
+    def __init__(self):
+        super().__init__(daemon=True)
+        self._loop = None
+        self._started_event = threading.Event()
+        self._closed = False
+
+    def run(self):
+        """Run the async event loop"""
+        self._loop = asyncio.new_event_loop()
+        asyncio.set_event_loop(self._loop)
+
+        async def debug_task():
+            logger.info("[EventLoopThread] Debug task started!")
+            await asyncio.sleep(0.1)
+            logger.info("[EventLoopThread] Debug task completed!")
+
+        # 在 run_forever 之前先运行一次调试任务
+        self._loop.run_until_complete(debug_task())
+
+        # Set the event loop to be started
+        self._started_event.set()
+        logger.info("[EventLoopThread] Event loop started, running forever...")
+
+        try:
+            self._loop.run_forever()
+            logger.info("[EventLoopThread] Event loop stopped")
+        except Exception as e:
+            logger.error(f"[EventLoopThread] Event loop exception: {e}")
+            traceback.print_exc()
+        finally:
+            logger.info("[EventLoopThread] Closing event loop")
+            self._loop.close()
+
+    def submit_coroutine(self, coro, callback=None):
+        """Thread safely submit coroutine to event loop"""
+        if self._closed:
+            raise RuntimeError("Event loop thread is closed")
+        if not self._started_event.wait(timeout=5.0):
+            raise RuntimeError("Event loop failed to start within 5 seconds")
+
+        logger.info(f"[EventLoopThread] About to submit coroutine: {coro}")
+        logger.info(f"[EventLoopThread] Is coroutine: {asyncio.iscoroutine(coro)}")
+
+        future = asyncio.run_coroutine_threadsafe(coro, self._loop)
+        logger.info(f"[EventLoopThread] Coroutine submitted, future: {future}")
+
+        if callback:
+
+            def wrapped_callback(f):
+                try:
+                    callback(f)
+                except Exception as e:
+                    print(f"Error in callback: {e}")
+                    traceback.print_exc()
+
+            future.add_done_callback(wrapped_callback)
+        return future
+
+    def stop(self):
+        """Stop the event loop"""
+        if not self._closed:
+            self._closed = True
+            if self._loop:
+                self._loop.call_soon_threadsafe(self._loop.stop)
 
 
 class RoutingStoreBase(ABC):
@@ -622,19 +733,19 @@ def __init__(self, routing_replay_config: RoutingReplayConfig) -> None:
         self.routing_replay_config = routing_replay_config
 
     @abstractmethod
-    def put(self, routing_key: str, routing_indices: np.ndarray) -> None:
+    async def put(self, routing_key: str, routing_indices: np.ndarray) -> None:
         """Put the routing indices into store"""
         raise NotImplementedError
 
     @abstractmethod
-    def clear_store(
+    async def clear_store(
         self,
     ):
         """Clear the routing indices store"""
         raise NotImplementedError
 
     @abstractmethod
-    def clear_prefix_batch(self, routing_prefix_key: str):
+    async def clear_prefix_batch(self, routing_prefix_key: str):
         """Clear the routing indices"""
         raise NotImplementedError
 
@@ -646,29 +757,29 @@ def __init__(self, routing_replay_config) -> None:
         super().__init__(routing_replay_config=routing_replay_config)
         self.local_store_dir = routing_replay_config.local_store_dir
 
-        self.clear_store()
-        os.makedirs(self.local_store_dir, exist_ok=True)
+        # asyncio.run(self.clear_store())
 
-    def put(
+    async def put(
         self,
         routing_key: str,
         routing_indices: np.ndarray,
     ) -> None:
         """Put the routing indices into store"""
+        os.makedirs(self.local_store_dir, exist_ok=True)
         # TODO(gongshaotian) covert ./store_dir/routing_key/layer_id.pdtensor to ./store_dir/routing_key.pt
         time_before_put = time.perf_counter()
         file_path = os.path.join(self.local_store_dir, f"{routing_key}.pdtensor")
         paddle.save(routing_indices, file_path)
         logger.info(f"[R3] The routing key {routing_key} put cost is {time.perf_counter()-time_before_put}s")
 
-    def clear_store(self):
+    async def clear_store(self):
         """Clear the routing indices store"""
         if os.path.isdir(self.local_store_dir):
             shutil.rmtree(self.local_store_dir)
 
         logger.info("[R3] Clear routing store.")
 
-    def clear_prefix_batch(self, routing_prefix_key: str):
+    async def clear_prefix_batch(self, routing_prefix_key: str):
         """Clear the routing indices"""
         raise NotImplementedError
 
@@ -687,22 +798,29 @@ def __init__(self, routing_replay_config) -> None:
         rdma_store_server = routing_replay_config.rdma_store_server
         p2pConfig = P2PConfig(metadata_server=rdma_store_server)
         self.p2p_client = P2PClient(p2pConfig)
-        self.clear_store()
+        # asyncio.run(self.clear_store())
 
-    def put(self, routing_key: str, routing_indices: np.ndarray) -> None:
+    async def put(self, routing_key: str, routing_indices: np.ndarray) -> None:
         """Put the routing indices into store"""
         time_before_put = time.perf_counter()
-        self.p2p_client.put(routing_key, routing_indices)
+        try:
+            logger.info("[R3] p2p_client.put() before")
+            await self.p2p_client.put(routing_key, routing_indices)
+            logger.info("[R3] p2p_client.put() completed successfully")
+        except Exception as e:
+            logger.error(f"[R3] p2p_client.put() failed: {e}")
+            raise
+
         logger.info(f"[R3] The routing key {routing_key}, put cost is {time.perf_counter()-time_before_put}s")
 
-    def clear_prefix_batch(self, routing_prefix_key: str):
+    async def clear_prefix_batch(self, routing_prefix_key: str):
         # async delete
-        self.p2p_client.delete_prefix_batch(routing_prefix_key)
+        await self.p2p_client.delete_prefix_batch(routing_prefix_key)
         logger.info(f"[R3] Clear prefix batch, prefix key: {routing_prefix_key}")
 
-    def clear_store(self):
+    async def clear_store(self):
         """Clear the routing indices store"""
-        self.p2p_client.clear()
+        await self.p2p_client.clear()
         logger.info("[R3] Clear routing store.")
 
 
diff --git a/run_r3_test.sh b/run_r3_test.sh
index 0299d4032d7..66de2b604ce 100644
--- a/run_r3_test.sh
+++ b/run_r3_test.sh
@@ -15,7 +15,7 @@ python -m fastdeploy.entrypoints.openai.api_server --config ${config_yaml} --mod
     --tensor-parallel-size 1 --max-model-len 32768 --max-num-seqs 1 \
     --enable-chunked-prefill --enable-prefix-caching --port 8888 --max-num-batched-tokens 64 --metrics-port 8889 --engine-worker-queue-port 9999 \
     --graph-optimization-config '{"use_cudagraph": true}' \
-    --routing-replay-config '{"enable_routing_replay":true, "routing_store_type":"local", "local_store_dir":"./routing_replay_output", "use_fused_put":false}' \
+    --routing-replay-config '{"enable_routing_replay":true, "routing_store_type":"rdma", "local_store_dir":"./routing_replay_output", "use_fused_put":false, "rdma_store_server":"redis://10.95.239.155:6379"}' \
     # --speculative-config '{"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 1,"model": "'$model_path'/mtp"}' \
 
 
From a899fc267a8b34362e9bf2a82c4b056a68f85eeb Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Mon, 2 Feb 2026 17:03:15 +0800
Subject: [PATCH 160/161] success run async thread put

---
 .../layers/moe/routing_indices_cache.py       | 73 +++++++++----------
 1 file changed, 33 insertions(+), 40 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index ff2fa922a92..d850eeb106e 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -567,21 +567,26 @@ def __init__(self, task_queue: Queue, routing_replay_config: RoutingReplayConfig
 
         self._task_queue = task_queue
         self.routing_replay_config = routing_replay_config
-        self._routing_store = get_routing_store(routing_replay_config=routing_replay_config)
-        self.max_workers = 5
-
-        # Initialize event loop thread
+        self.max_workers = 1
         self._closed = False
+        # Note: _routing_store and _event_loop_thread must be initialized in run()
+        # because they cannot be properly inherited after fork()
+        self._routing_store = None
+        self._event_loop_thread = None
+
+    def run(self):
+        logger.info(f"[R3] Start Running Store Wrapper in sub process {os.getpid()}")
+
+        # Initialize routing store in subprocess
+        self._routing_store = get_routing_store(routing_replay_config=self.routing_replay_config)
+
+        # Initialize event loop thread in subprocess
         self._event_loop_thread = AsyncEventLoopThread()
         self._event_loop_thread.start()
         if not self._event_loop_thread._started_event.wait(timeout=5.0):
-            raise RuntimeError("Failed to start async event loop thread")
+            raise RuntimeError("Failed to start async event loop thread in subprocess")
 
-        init_task = {"task_type": "clear_store", "key": "initialize_store", "data": None}
-        self._task_queue.put_nowait(init_task)
-
-    def run(self):
-        logger.info(f"[R3] Start Running Store Wrapper in sub process {os.getpid()}")
+        logger.info(f"[R3] Event loop thread started in subprocess {os.getpid()}")
         with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
             while not self._closed:
                 try:
@@ -613,6 +618,7 @@ def process_put_task(self, store_task: StoreTask) -> None:
             future = self._event_loop_thread.submit_coroutine(
                 coro_obj, callback=functools.partial(self._on_async_task_completed, store_task)
             )
+            return future
         except Exception as e:
             logger.error(f"Error submitting put task: {e}")
             traceback.print_exc()
@@ -624,6 +630,7 @@ def process_clear_store_task(self, store_task: StoreTask) -> None:
             future = self._event_loop_thread.submit_coroutine(
                 coro_obj, callback=functools.partial(self._on_async_task_completed, store_task)
             )
+            return future
         except Exception as e:
             logger.error(f"Error during processing clear store task. {e}")
             traceback.print_exc()
@@ -635,6 +642,7 @@ def process_clear_prefix_batch_task(self, store_task: StoreTask) -> None:
             future = self._event_loop_thread.submit_coroutine(
                 coro_obj, callback=functools.partial(self._on_async_task_completed, store_task)
             )
+            return future
         except Exception as e:
             logger.error(f"Error submitting clear_prefix_batch task: {e}")
             traceback.print_exc()
@@ -643,7 +651,7 @@ def process_clear_prefix_batch_task(self, store_task: StoreTask) -> None:
     def _on_async_task_completed(self, task, future):
         """ """
         try:
-            result = future.result()
+            # result = future.result()
             logger.info(f"[R3] Async task completed: {task['task_type']}, key: {task.get('key')}")
         except Exception as e:
             logger.error(f"[R3] Async task failed: {task['task_type']}, key: {task.get('key')}, error: {e}")
@@ -671,14 +679,6 @@ def run(self):
         self._loop = asyncio.new_event_loop()
         asyncio.set_event_loop(self._loop)
 
-        async def debug_task():
-            logger.info("[EventLoopThread] Debug task started!")
-            await asyncio.sleep(0.1)
-            logger.info("[EventLoopThread] Debug task completed!")
-
-        # 在 run_forever 之前先运行一次调试任务
-        self._loop.run_until_complete(debug_task())
-
         # Set the event loop to be started
         self._started_event.set()
         logger.info("[EventLoopThread] Event loop started, running forever...")
@@ -700,11 +700,7 @@ def submit_coroutine(self, coro, callback=None):
         if not self._started_event.wait(timeout=5.0):
             raise RuntimeError("Event loop failed to start within 5 seconds")
 
-        logger.info(f"[EventLoopThread] About to submit coroutine: {coro}")
-        logger.info(f"[EventLoopThread] Is coroutine: {asyncio.iscoroutine(coro)}")
-
         future = asyncio.run_coroutine_threadsafe(coro, self._loop)
-        logger.info(f"[EventLoopThread] Coroutine submitted, future: {future}")
 
         if callback:
 
@@ -716,6 +712,7 @@ def wrapped_callback(f):
                     traceback.print_exc()
 
             future.add_done_callback(wrapped_callback)
+            logger.info("coro add callback func")
         return future
 
     def stop(self):
@@ -756,8 +753,7 @@ class RoutingStoreLocal(RoutingStoreBase):
     def __init__(self, routing_replay_config) -> None:
         super().__init__(routing_replay_config=routing_replay_config)
         self.local_store_dir = routing_replay_config.local_store_dir
-
-        # asyncio.run(self.clear_store())
+        os.makedirs(self.local_store_dir, exist_ok=True)
 
     async def put(
         self,
@@ -765,7 +761,6 @@ async def put(
         routing_indices: np.ndarray,
     ) -> None:
         """Put the routing indices into store"""
-        os.makedirs(self.local_store_dir, exist_ok=True)
         # TODO(gongshaotian) covert ./store_dir/routing_key/layer_id.pdtensor to ./store_dir/routing_key.pt
         time_before_put = time.perf_counter()
         file_path = os.path.join(self.local_store_dir, f"{routing_key}.pdtensor")
@@ -798,30 +793,28 @@ def __init__(self, routing_replay_config) -> None:
         rdma_store_server = routing_replay_config.rdma_store_server
         p2pConfig = P2PConfig(metadata_server=rdma_store_server)
         self.p2p_client = P2PClient(p2pConfig)
-        # asyncio.run(self.clear_store())
 
     async def put(self, routing_key: str, routing_indices: np.ndarray) -> None:
         """Put the routing indices into store"""
         time_before_put = time.perf_counter()
-        try:
-            logger.info("[R3] p2p_client.put() before")
-            await self.p2p_client.put(routing_key, routing_indices)
-            logger.info("[R3] p2p_client.put() completed successfully")
-        except Exception as e:
-            logger.error(f"[R3] p2p_client.put() failed: {e}")
-            raise
-
+        result = await self.p2p_client.put(routing_key, routing_indices)
         logger.info(f"[R3] The routing key {routing_key}, put cost is {time.perf_counter()-time_before_put}s")
+        return result
 
     async def clear_prefix_batch(self, routing_prefix_key: str):
-        # async delete
-        await self.p2p_client.delete_prefix_batch(routing_prefix_key)
-        logger.info(f"[R3] Clear prefix batch, prefix key: {routing_prefix_key}")
+        time_before_clear = time.perf_counter()
+        result = await self.p2p_client.delete_prefix_batch(routing_prefix_key)
+        logger.info(
+            f"[R3] The clear routing prefix key {routing_prefix_key}, cost is {time.perf_counter()-time_before_clear}s"
+        )
+        return result
 
     async def clear_store(self):
         """Clear the routing indices store"""
-        await self.p2p_client.clear()
-        logger.info("[R3] Clear routing store.")
+        time_before_clear = time.perf_counter()
+        result = await self.p2p_client.clear()
+        logger.info(f"[R3] Clear routing store cost is {time.perf_counter()-time_before_clear}s.")
+        return result
 
 
 def get_routing_store(routing_replay_config: RoutingReplayConfig) -> RoutingStoreBase:

From 20733cd92fe437a8613bfba20bffb9b0d3e01af6 Mon Sep 17 00:00:00 2001
From: gongshaotian <gstian5555@outlook.com>
Date: Mon, 2 Feb 2026 20:28:12 +0800
Subject: [PATCH 161/161] fix clear prefix batch bug

---
 .../layers/moe/routing_indices_cache.py             | 13 +++++++------
 run_r3_test.sh                                      |  4 ++--
 2 files changed, 9 insertions(+), 8 deletions(-)

diff --git a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
index d850eeb106e..795fbafeb8f 100644
--- a/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
+++ b/fastdeploy/model_executor/layers/moe/routing_indices_cache.py
@@ -405,7 +405,7 @@ def __init__(self, fd_config: False) -> None:
         layer_num = 61
         max_request = 200
         self.queue_max_size = layer_num * max_request
-        # self._task_queue = multiprocessing.Queue(maxsize=self.queue_max_size)
+
         self.manager = multiprocessing.Manager()
         self._task_queue = self.manager.Queue(maxsize=self.queue_max_size)
 
@@ -586,6 +586,9 @@ def run(self):
         if not self._event_loop_thread._started_event.wait(timeout=5.0):
             raise RuntimeError("Failed to start async event loop thread in subprocess")
 
+        clear_store_task = StoreTask({"task_type": "clear_store", "key": None, "data": None})
+        self._task_queue.put_nowait(clear_store_task)
+
         logger.info(f"[R3] Event loop thread started in subprocess {os.getpid()}")
         with ThreadPoolExecutor(max_workers=self.max_workers) as executor:
             while not self._closed:
@@ -655,10 +658,8 @@ def _on_async_task_completed(self, task, future):
             logger.info(f"[R3] Async task completed: {task['task_type']}, key: {task.get('key')}")
         except Exception as e:
             logger.error(f"[R3] Async task failed: {task['task_type']}, key: {task.get('key')}, error: {e}")
-            # traceback.print_exc()
-            # # reraise the exception to executor
-            # raise
-            logger.error(f"[Async Thread] Full traceback: {traceback.format_exc()}")
+            traceback.print_exc()
+            raise
 
     def close(self):
         """Close the store process"""
@@ -803,7 +804,7 @@ async def put(self, routing_key: str, routing_indices: np.ndarray) -> None:
 
     async def clear_prefix_batch(self, routing_prefix_key: str):
         time_before_clear = time.perf_counter()
-        result = await self.p2p_client.delete_prefix_batch(routing_prefix_key)
+        result = await self.p2p_client.delete_prefix_batch([routing_prefix_key])
         logger.info(
             f"[R3] The clear routing prefix key {routing_prefix_key}, cost is {time.perf_counter()-time_before_clear}s"
         )
diff --git a/run_r3_test.sh b/run_r3_test.sh
index 66de2b604ce..b1fbc2d8154 100644
--- a/run_r3_test.sh
+++ b/run_r3_test.sh
@@ -12,10 +12,10 @@ rm -rf core.*
 config_yaml=./benchmarks/yaml/eb45-32k-wint2-tp4.yaml
 model_path=/root/paddlejob/workspace/env_run/output/models/paddle/ERNIE-4.5-21B-A3B-Paddle
 python -m fastdeploy.entrypoints.openai.api_server --config ${config_yaml} --model ${model_path} \
-    --tensor-parallel-size 1 --max-model-len 32768 --max-num-seqs 1 \
+    --tensor-parallel-size 1 --max-model-len 32768 --max-num-seqs 64 \
     --enable-chunked-prefill --enable-prefix-caching --port 8888 --max-num-batched-tokens 64 --metrics-port 8889 --engine-worker-queue-port 9999 \
     --graph-optimization-config '{"use_cudagraph": true}' \
-    --routing-replay-config '{"enable_routing_replay":true, "routing_store_type":"rdma", "local_store_dir":"./routing_replay_output", "use_fused_put":false, "rdma_store_server":"redis://10.95.239.155:6379"}' \
+    --routing-replay-config '{"enable_routing_replay":true, "routing_store_type":"rdma", "local_store_dir":"./routing_replay_output", "use_fused_put":true, "rdma_store_server":"redis://10.95.239.155:6379"}' \
     # --speculative-config '{"method": "mtp", "num_speculative_tokens": 1, "num_model_steps": 1,"model": "'$model_path'/mtp"}' \