NVIDIA-NeMo · terrykong · Jul 16, 2025 · Jul 12, 2025 · Jul 16, 2025
@@ -578,7 +578,12 @@ def train(
                             "generation" in self.cfg
                             and self.cfg["generation"] is not None
                         ):
-                            logits.div_(self.cfg["generation"]["temperature"])
+                            # The V1 engine returns raw logits before temperature scaling.
+                            # The V0 engine (when VLLM_USE_V1 is not '1') returns scaled logits.
+                            # Therefore, we only divide if we are NOT using the V1 engine.
+                            use_v1_engine = os.environ.get("VLLM_USE_V1") == "1"
+                            if not use_v1_engine:
+                                logits.div_(self.cfg["generation"]["temperature"])
 
                         if self.cp_size > 1:
                             seq_index_dtensor = (