ROCm · mqhc2020 · Dec 30, 2025 · Dec 30, 2025 · Copilot · Dec 30, 2025
diff --git a/aiter/ops/triton/gemm_afp4wfp4.py b/aiter/ops/triton/gemm_afp4wfp4.py
@@ -73,10 +73,41 @@ def gemm_afp4wfp4_fake_tensor(
     config: Optional[str] = None,
     skip_reduce: Optional[bool] = False,
 ) -> torch.Tensor:
-    if y is None:
-        M, _ = x.shape
-        N, _ = w.shape
-        return torch.empty((M, N), dtype=dtype, device=x.device)
+
+    M, K = x.shape
+    N, _ = w.shape
+
-
+
+    if config is None:
+        raise ValueError("gemm_afp4wfp4_fake_tensor requires a non-None serialized config.")
-
+
+    if config is None:
+        raise ValueError("gemm_afp4wfp4_fake_tensor requires a non-None serialized config.")
+    config = deserialize_str(config)
+    num_ksplit = config["NUM_KSPLIT"]
+    block_size_k = config["BLOCK_SIZE_K"]
+
+    if num_ksplit > 1:
+        _, block_size_k, num_ksplit = get_splitk(
+            K, config["BLOCK_SIZE_K"], num_ksplit
+        )
+
+    if block_size_k >= 2 * K:
+        num_ksplit= 1
-        _, block_size_k, num_ksplit = get_splitk(
-            K, config["BLOCK_SIZE_K"], num_ksplit
-        )
-
-    if block_size_k >= 2 * K:
-        num_ksplit= 1
+        splitk_block_size, block_size_k, num_ksplit = get_splitk(
+            K, config["BLOCK_SIZE_K"], num_ksplit
+        )
+        config["SPLITK_BLOCK_SIZE"] = splitk_block_size
+        config["BLOCK_SIZE_K"] = block_size_k
+        config["NUM_KSPLIT"] = num_ksplit
+
+    if block_size_k >= 2 * K:
+        block_size_k = max(triton.next_power_of_2(2 * K), 128)
+        num_ksplit = 1
+        config["BLOCK_SIZE_K"] = block_size_k
+        config["SPLITK_BLOCK_SIZE"] = block_size_k
+        config["NUM_KSPLIT"] = num_ksplit
-        _, block_size_k, num_ksplit = get_splitk(
-            K, config["BLOCK_SIZE_K"], num_ksplit
-        )
-
-    if block_size_k >= 2 * K:
-        num_ksplit= 1
+        splitk_block_size, block_size_k, num_ksplit = get_splitk(
+            K, config["BLOCK_SIZE_K"], num_ksplit
+        )
+        config["SPLITK_BLOCK_SIZE"] = splitk_block_size
+        config["BLOCK_SIZE_K"] = block_size_k
+        config["NUM_KSPLIT"] = num_ksplit
+
+    if block_size_k >= 2 * K:
+        block_size_k = max(triton.next_power_of_2(2 * K), 128)
+        num_ksplit = 1
+        config["BLOCK_SIZE_K"] = block_size_k
+        config["SPLITK_BLOCK_SIZE"] = block_size_k
+        config["NUM_KSPLIT"] = num_ksplit
+
+    if num_ksplit > 1:
+        if _USE_GEMM_SPLITK_BF16:
+            y_pp = torch.empty(
+                (num_ksplit, M, N), dtype=y.dtype, device=x.device
-                (num_ksplit, M, N), dtype=y.dtype, device=x.device
+                (num_ksplit, M, N), dtype=dtype, device=x.device
-                (num_ksplit, M, N), dtype=y.dtype, device=x.device
+                (num_ksplit, M, N), dtype=dtype, device=x.device
+            )
+        else:
+            y_pp = torch.empty(
+                (num_ksplit, M, N), dtype=torch.float32, device=x.device
+            )
+    else:
+        y_pp = None
+
+    if y is None and (num_ksplit == 1 or not skip_reduce):
+        y = torch.empty((M, N), dtype=dtype, device=x.device)
+
+    if num_ksplit > 1:
+        if skip_reduce:
+            return y_pp
+
     return y
 
 
@@ -556,6 +587,12 @@ def gemm_afp4wfp4(
     dtype: Optional[torch.dtype] = torch.bfloat16,
     y: Optional[torch.Tensor] = None,
     config: Optional[dict] = None,
+    skip_reduce: Optional[bool] = False,
 ) -> torch.Tensor:
-    config_hashable = serialize_dict(config) if config else None
-    return gemm_afp4wfp4_(x, w, x_scales, w_scales, dtype, y, config_hashable)
+    if config is None:
+        config_hashable = None
+        M, K = x.shape
+        N, _ = w.shape
+        config = _get_config(M, N, K)
+    config_hashable = serialize_dict(config)
-        config_hashable = None
-        M, K = x.shape
-        N, _ = w.shape
-        config = _get_config(M, N, K)
-    config_hashable = serialize_dict(config)
+        M, K = x.shape
+        N, _ = w.shape
+        config = _get_config(M, N, K)
+    config_hashable = serialize_dict(config) if config is not None else None
-        config_hashable = None
-        M, K = x.shape
-        N, _ = w.shape
-        config = _get_config(M, N, K)
-    config_hashable = serialize_dict(config)
+        M, K = x.shape
+        N, _ = w.shape
+        config = _get_config(M, N, K)
+    config_hashable = serialize_dict(config) if config is not None else None
+    return gemm_afp4wfp4_(x, w, x_scales, w_scales, dtype, y, config_hashable, skip_reduce)