NVIDIA · h-guo18 · Feb 23, 2026 · benchislett · Feb 23, 2026 · h-guo18
@@ -205,6 +205,7 @@ def train():
                 "eagle_decoder_type": eagle_args.eagle_decoder_type,
                 "eagle_offline": use_offline_training,
                 "eagle_architecture_config": custom_config,
+                "eagle_train_length": training_args.training_seq_len,
             }
 
             mtsp.convert(model, [("eagle", config)])

@@ -175,6 +175,15 @@ def _get_config_from_draft_or_base(key: str, model: nn.Module):
         if self.hf_quant_config is not None:
             template_config["quantization_config"] = self.hf_quant_config
 
+        # For long context quality, we disable rope scaling for training
+        # and set yarn during export for inference.
+        template_config["rope_scaling"] = {
+            "rope_type": "yarn",
+            "rope_theta": 10000,
+            "factor": 32.0,
+            "original_max_position_embeddings": model.eagle_train_length,
+        }
+
         return template_config
 
     def export_quant_config(self):

@@ -105,3 +105,10 @@ class EagleConfig(ModeloptBaseConfig):
         default="llama",
         description=("The class of eagle decoder to use. Available options: llama, kimik2"),
     )
+
+    eagle_train_length: int = ModeloptField(
+        default=2048,
+        description=(
+            "The length of the training data. Used to set original_max_position_embeddings in rope_scaling."
+        ),
+    )
@@ -58,6 +58,7 @@ def convert_to_eagle_model(model: nn.Module, config: EagleConfig) -> ConvertRetu
         eagle_loss_decay_factor=config.eagle_loss_decay_factor,
         eagle_architecture_config=config.eagle_architecture_config,
         eagle_decoder_type=config.eagle_decoder_type,
+        eagle_train_length=config.eagle_train_length,
     )
 
     # no metadata, all specified via config.

@@ -19,14 +19,7 @@
     "hidden_act": "silu",
     "torch_dtype": "bfloat16",
     "position_embedding_type": "rope",
-    "rope_scaling": {
-        "factor": 8.0,
-        "low_freq_factor": 1.0,
-        "high_freq_factor": 4.0,
-        "original_max_position_embeddings": 8192,
-        "rope_type": "llama3",
-    },
-    "rope_theta": 500000.0,
+    "rope_scaling": {"rope_type": "default", "rope_theta": 10000},
     "num_hidden_layers": 1,
     "intermediate_size": 14336,
     "num_attention_heads": 32,
@@ -83,15 +76,9 @@
     "qk_rope_head_dim": 64,
     "rms_norm_eps": 0.00001,
     "rope_scaling": {
-        "beta_fast": 1.0,
-        "beta_slow": 1.0,
-        "factor": 64.0,
-        "mscale": 1.0,
-        "mscale_all_dim": 1.0,
-        "original_max_position_embeddings": 4096,
-        "type": "yarn",
+        "rope_type": "default",
+        "rope_theta": 10000,
     },
-    "rope_theta": 50000.0,
     "routed_scaling_factor": 2.827,
     "scoring_func": "sigmoid",
     "seq_aux": True,

@@ -35,6 +35,7 @@ def modify(
         eagle_loss_decay_factor,
         eagle_architecture_config,
         eagle_decoder_type,
+        eagle_train_length,
     ):
         """Base Eagle Model modify function. Child class should implement the details."""
         self.eagle_offline = eagle_offline
@@ -45,3 +46,4 @@ def modify(
         self.eagle_reuse_base_decoder = eagle_reuse_base_decoder
         self.eagle_loss_decay_factor = eagle_loss_decay_factor
         self.eagle_decoder_type = eagle_decoder_type
+        self.eagle_train_length = eagle_train_length
@@ -693,6 +693,7 @@ def modify(
         eagle_loss_decay_factor,
         eagle_architecture_config,
         eagle_decoder_type,
+        eagle_train_length,
     ):
         if self.config.pipeline_model_parallel_size > 1:
             warnings.warn(
@@ -715,6 +716,7 @@ def modify(
             eagle_loss_decay_factor=eagle_loss_decay_factor,
             eagle_architecture_config=eagle_architecture_config,
             eagle_decoder_type=eagle_decoder_type,
+            eagle_train_length=eagle_train_length,
         )
 
         # sequence_parallel is not used in offline eagle

@@ -560,6 +560,7 @@ def modify(
         eagle_loss_decay_factor,
         eagle_architecture_config,
         eagle_decoder_type,
+        eagle_train_length,
     ):
         """Constructor.
 
@@ -576,6 +577,7 @@ def modify(
             eagle_loss_decay_factor=eagle_loss_decay_factor,
             eagle_architecture_config=eagle_architecture_config,
             eagle_decoder_type=eagle_decoder_type,
+            eagle_train_length=eagle_train_length,
         )
 
         if eagle_decoder_type == "llama":