quic · ochougul · Jan 27, 2026 · Jan 23, 2026 · Jan 23, 2026
diff --git a/QEfficient/transformers/models/gpt_oss/modeling_gpt_oss.py b/QEfficient/transformers/models/gpt_oss/modeling_gpt_oss.py
@@ -402,9 +402,8 @@ def forward(self, hidden_states):
 
         # Apply routing weights AFTER expert computation
         experts_out = experts_out * router_top_value.unsqueeze(-1)
-        experts_out = experts_out.sum(dim=1)
-
-        return experts_out, router_logits
+        experts_out_sum = torch.einsum("bnd->bd", experts_out)
+        return experts_out_sum, router_logits
 
     def optimized_moe_forward(self, hidden_states: torch.Tensor):
         B, S, H = hidden_states.shape