From b8ed23d7979b262dbf89d8d384c7d15073d6c9a6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 12:40:59 +0200
Subject: [PATCH 001/535] Add python bindings for common module

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py                             |  99 ++++++++++++++++++++++-
 transformer_engine/common/pybind.cpp | 114 +++++++++++++++++++++++++++
 2 files changed, 212 insertions(+), 1 deletion(-)
 create mode 100644 transformer_engine/common/pybind.cpp

diff --git a/setup.py b/setup.py
index 4a344191de..c7c1f5d137 100644
--- a/setup.py
+++ b/setup.py
@@ -464,6 +464,103 @@ def setup_common_extension() -> CMakeExtension:
 def _all_files_in_dir(path):
     return list(path.iterdir())
 
+def setup_common_pybind_extension() -> setuptools.Extension:
+    """Setup CUDA extension for common library"""
+
+    # Source files
+    src_dir = root_path / "transformer_engine" / "common"
+    sources = [
+        src_dir / "transformer_engine.cpp",
+        src_dir / "pybind.cpp",
+        src_dir / "transpose" / "cast_transpose.cu",
+        src_dir / "transpose" / "transpose.cu",
+        src_dir / "transpose" / "cast_transpose_fusion.cu",
+        src_dir / "transpose" / "transpose_fusion.cu",
+        src_dir / "transpose" / "multi_cast_transpose.cu",
+        src_dir / "activation" / "gelu.cu",
+        src_dir / "fused_attn" / "fused_attn_f16_max512_seqlen.cu",
+        src_dir / "fused_attn" / "fused_attn_f16_arbitrary_seqlen.cu",
+        src_dir / "activation" / "relu.cu",
+        src_dir / "activation" / "swiglu.cu",
+        src_dir / "fused_attn" / "fused_attn_fp8.cu",
+        src_dir / "fused_attn" / "fused_attn.cpp",
+        src_dir / "fused_attn" / "utils.cu",
+        src_dir / "gemm" / "cublaslt_gemm.cu",
+        src_dir / "layer_norm" / "ln_api.cpp",
+        src_dir / "layer_norm" / "ln_bwd_semi_cuda_kernel.cu",
+        src_dir / "layer_norm" / "ln_fwd_cuda_kernel.cu",
+        src_dir / "rmsnorm" / "rmsnorm_api.cpp",
+        src_dir / "rmsnorm" / "rmsnorm_bwd_semi_cuda_kernel.cu",
+        src_dir / "rmsnorm" / "rmsnorm_fwd_cuda_kernel.cu",
+        src_dir / "util" / "cast.cu",
+        src_dir / "util" / "cuda_driver.cpp",
+        src_dir / "util" / "cuda_runtime.cpp",
+        src_dir / "util" / "rtc.cpp",
+        src_dir / "util" / "system.cpp",
+        src_dir / "fused_softmax" / "scaled_masked_softmax.cu",
+        src_dir / "fused_softmax" / "scaled_upper_triang_masked_softmax.cu",
+        src_dir / "fused_softmax" / "scaled_masked_softmax.cu",
+        src_dir / "fused_softmax" / "scaled_upper_triang_masked_softmax.cu",
+    ]
+
+    # Header files
+    include_dirs = [
+        src_dir / "include",
+        root_path / "3rdparty" / "cudnn-frontend" / "include",
+    ]
+
+    # Compiler flags
+    cxx_flags = ["-O3"]
+    nvcc_flags = [
+        "-O3",
+        "-gencode",
+        "arch=compute_70,code=sm_70",
+        "-U__CUDA_NO_HALF_OPERATORS__",
+        "-U__CUDA_NO_HALF_CONVERSIONS__",
+        "-U__CUDA_NO_BFLOAT16_OPERATORS__",
+        "-U__CUDA_NO_BFLOAT16_CONVERSIONS__",
+        "-U__CUDA_NO_BFLOAT162_OPERATORS__",
+        "-U__CUDA_NO_BFLOAT162_CONVERSIONS__",
+        "--expt-relaxed-constexpr",
+        "--expt-extended-lambda",
+        "--use_fast_math",
+    ]
+
+    # Version-dependent CUDA options
+    try:
+        version = cuda_version()
+    except FileNotFoundError:
+        print("Could not determine CUDA Toolkit version")
+    else:
+        if version >= (11, 2):
+            nvcc_flags.extend(["--threads", "4"])
+        if version >= (11, 0):
+            nvcc_flags.extend(["-gencode", "arch=compute_80,code=sm_80"])
+        if version >= (11, 8):
+            nvcc_flags.extend(["-gencode", "arch=compute_90,code=sm_90"])
+
+    # userbuffers support
+    if with_userbuffers():
+        if os.getenv("MPI_HOME"):
+            mpi_home = Path(os.getenv("MPI_HOME"))
+            include_dirs.append(mpi_home / "include")
+        cxx_flags.append("-DNVTE_WITH_USERBUFFERS")
+        nvcc_flags.append("-DNVTE_WITH_USERBUFFERS")
+
+    # Construct PyTorch CUDA extension
+    sources = [str(path) for path in sources]
+    include_dirs = [str(path) for path in include_dirs]
+    from torch.utils.cpp_extension import CUDAExtension
+    return CUDAExtension(
+        name="transformer_engine_cuda",
+        sources=sources,
+        include_dirs=include_dirs,
+        extra_compile_args={
+            "cxx": cxx_flags,
+            "nvcc": nvcc_flags,
+        },
+    )
+
 def setup_pytorch_extension() -> setuptools.Extension:
     """Setup CUDA extension for PyTorch support"""
 
@@ -611,7 +708,7 @@ def main():
     setup_requires, install_requires, test_requires = setup_requirements()
 
     # Extensions
-    ext_modules = [setup_common_extension()]
+    ext_modules = [setup_common_extension(), setup_common_pybind_extension()]
     if "pytorch" in frameworks():
         ext_modules.append(setup_pytorch_extension())
 
diff --git a/transformer_engine/common/pybind.cpp b/transformer_engine/common/pybind.cpp
new file mode 100644
index 0000000000..9c596d4416
--- /dev/null
+++ b/transformer_engine/common/pybind.cpp
@@ -0,0 +1,114 @@
+/*************************************************************************
+ * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+ *
+ * See LICENSE for license information.
+ ************************************************************************/
+
+#include <transformer_engine/activation.h>
+#include <transformer_engine/cast.h>
+#include <transformer_engine/fused_attn.h>
+#include <transformer_engine/gemm.h>
+#include <transformer_engine/layer_norm.h>
+#include <transformer_engine/rmsnorm.h>
+#include <transformer_engine/softmax.h>
+#include <transformer_engine/transformer_engine.h>
+#include <transformer_engine/transpose.h>
+
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+    m.def("nvte_gelu", &nvte_gelu)
+    m.def("nvte_dgelu", &nvte_dgelu)
+    m.def("nvte_geglu", &nvte_geglu)
+    m.def("nvte_dgeglu", &nvte_dgeglu)
+    m.def("nvte_relu", &nvte_relu)
+    m.def("nvte_drelu", &nvte_drelu)
+    m.def("nvte_swiglu", &nvte_swiglu)
+    m.def("nvte_dswiglu", &nvte_dswiglu)
+    m.def("nvte_reglu", &nvte_reglu)
+    m.def("nvte_dreglu", &nvte_dreglu)
+
+    m.def("nvte_fp8_quantize", &nvte_fp8_quantize)
+    m.def("nvte_fp8_dequantize", &nvte_fp8_dequantize)
+
+    m.def("nvte_get_fused_attn_backend", &nvte_get_fused_attn_backend)
+    m.def("nvte_fused_attn_fwd_qkvpacked", &nvte_fused_attn_fwd_qkvpacked)
+    m.def("nvte_fused_attn_bwd_qkvpacked", &nvte_fused_attn_bwd_qkvpacked)
+    m.def("nvte_fused_attn_fwd_kvpacked", &nvte_fused_attn_fwd_kvpacked)
+    m.def("nvte_fused_attn_bwd_kvpacked", &nvte_fused_attn_bwd_kvpacked)
+
+    m.def("nvte_cublas_gemm", &nvte_cublas_gemm)
+
+    m.def("nvte_layernorm_fwd", &nvte_layernorm_fwd)
+    m.def("nvte_layernorm1p_fwd", &nvte_layernorm1p_fwd)
+    m.def("nvte_layernorm_bwd", &nvte_layernorm_bwd)
+    m.def("nvte_layernorm1p_bwd", &nvte_layernorm1p_bwd)
+
+    m.def("nvte_rmsnorm_fwd", &nvte_rmsnorm_fwd)
+    m.def("nvte_rmsnorm_bwd", &nvte_rmsnorm_bwd)
+
+    m.def("nvte_scaled_softmax_forward", &nvte_scaled_softmax_forward)
+    m.def("nvte_scaled_softmax_backward", &nvte_scaled_softmax_backward)
+    m.def("nvte_scaled_masked_softmax_forward", &nvte_scaled_masked_softmax_forward)
+    m.def("nvte_scaled_masked_softmax_backward", &nvte_scaled_masked_softmax_backward)
+    m.def("nvte_scaled_upper_triang_masked_softmax_forward", &nvte_scaled_upper_triang_masked_softmax_forward)
+    m.def("nvte_scaled_upper_triang_masked_softmax_backward", &nvte_scaled_upper_triang_masked_softmax_backward)
+
+    m.def("nvte_create_tensor", &nvte_create_tensor)
+    m.def("nvte_destroy_tensor", &nvte_destroy_tensor)
+    m.def("nvte_tensor_type", &nvte_tensor_type)
+    m.def("nvte_tensor_shape", &nvte_tensor_shape)
+    m.def("nvte_tensor_data", &nvte_tensor_data)
+    m.def("nvte_tensor_amax", &nvte_tensor_amax)
+    m.def("nvte_tensor_scale", &nvte_tensor_scale)
+    m.def("nvte_tensor_scale_inv", &nvte_tensor_scale_inv)
+    m.def("nvte_tensor_pack_create", &nvte_tensor_pack_create)
+    m.def("nvte_tensor_pack_destroy", &nvte_tensor_pack_destroy)
+
+    m.def("nvte_cast_transpose", &nvte_cast_transpose)
+    m.def("nvte_transpose", &nvte_transpose)
+    m.def("nvte_cast_transpose_dbias", &nvte_cast_transpose_dbias)
+    m.def("nvte_fp8_transpose_dbias", &nvte_fp8_transpose_dbias)
+    m.def("nvte_cast_transpose_dbias_dgelu", &nvte_cast_transpose_dbias_dgelu)
+    m.def("nvte_multi_cast_transpose", &nvte_multi_cast_transpose)
+    m.def("nvte_dgeglu_cast_transpose", &nvte_dgeglu_cast_transpose)
+
+    py::enum_<NVTEDType>(m, "NVTEDType")
+        .value("kNVTEByte", kNVTEByte)
+        .value("kNVTEInt32", kNVTEInt32)
+        .value("kNVTEInt64", kNVTEInt64)
+        .value("kNVTEFloat32", kNVTEFloat32)
+        .value("kNVTEFloat16", kNVTEFloat16)
+        .value("kNVTEBFloat16", kNVTEBFloat16)
+        .value("kNVTEFloat8E4M3", kNVTEFloat8E4M3)
+        .value("kNVTEFloat8E5M2", kNVTEFloat8E5M2);
+
+    py::enum_<NVTE_Fused_Attn_Backend>(m, "NVTE_Fused_Attn_Backend")
+        .value("NVTE_No_Backend", NVTE_No_Backend)
+        .value("NVTE_F16_max512_seqlen", NVTE_F16_max512_seqlen)
+        .value("NVTE_F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
+        .value("NVTE_FP8", NVTE_FP8);
+
+    py::enum_<NVTE_QKV_Layout>(m, "NVTE_QKV_Layout")
+        .value("NVTE_NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
+        .value("NVTE_QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
+        .value("NVTE_KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
+
+    py::enum_<NVTE_Bias_Type>(m, "NVTE_Bias_Type")
+        .value("NVTE_NO_BIAS", NVTE_NO_BIAS)
+        .value("NVTE_PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
+        .value("NVTE_POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
+
+    py::enum_<NVTE_Mask_Type>(m, "NVTE_Mask_Type")
+        .value("NVTE_NO_MASK", NVTE_NO_MASK)
+        .value("NVTE_PADDING_MASK", NVTE_PADDING_MASK)
+        .value("NVTE_CAUSAL_MASK", NVTE_CAUSAL_MASK);
+
+    py::class_<transformer_engine::FP8TensorMeta>(m, "NVTEShape")
+        .def(py::init<>())
+        .def_readwrite("data", &NVTEShape::data)
+        .def_readwrite("ndim", &NVTEShape::ndim)
+
+    py::class_<NVTETensorPack>(m, "NVTETensorPack")
+        .def(py::init<>())
+        .def_readwrite("tensors", &NVTETensorPack::tensors)
+        .def_readwrite("size", &NVTETensorPack::size)
+}
\ No newline at end of file

From b11974b8a36ee0a6e8c16735d31141a681e8af9b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 12:54:05 +0200
Subject: [PATCH 002/535] fix duplicate file name

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/setup.py b/setup.py
index c7c1f5d137..691ea65a5d 100644
--- a/setup.py
+++ b/setup.py
@@ -499,8 +499,6 @@ def setup_common_pybind_extension() -> setuptools.Extension:
         src_dir / "util" / "system.cpp",
         src_dir / "fused_softmax" / "scaled_masked_softmax.cu",
         src_dir / "fused_softmax" / "scaled_upper_triang_masked_softmax.cu",
-        src_dir / "fused_softmax" / "scaled_masked_softmax.cu",
-        src_dir / "fused_softmax" / "scaled_upper_triang_masked_softmax.cu",
     ]
 
     # Header files

From 2eca14599bedc2a42bf0b0eb192edd1425a108df Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 13:19:43 +0200
Subject: [PATCH 003/535] omit unnecessary files in build

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py | 29 +----------------------------
 1 file changed, 1 insertion(+), 28 deletions(-)

diff --git a/setup.py b/setup.py
index 691ea65a5d..66ec079695 100644
--- a/setup.py
+++ b/setup.py
@@ -470,41 +470,14 @@ def setup_common_pybind_extension() -> setuptools.Extension:
     # Source files
     src_dir = root_path / "transformer_engine" / "common"
     sources = [
-        src_dir / "transformer_engine.cpp",
         src_dir / "pybind.cpp",
-        src_dir / "transpose" / "cast_transpose.cu",
-        src_dir / "transpose" / "transpose.cu",
-        src_dir / "transpose" / "cast_transpose_fusion.cu",
-        src_dir / "transpose" / "transpose_fusion.cu",
-        src_dir / "transpose" / "multi_cast_transpose.cu",
-        src_dir / "activation" / "gelu.cu",
-        src_dir / "fused_attn" / "fused_attn_f16_max512_seqlen.cu",
-        src_dir / "fused_attn" / "fused_attn_f16_arbitrary_seqlen.cu",
-        src_dir / "activation" / "relu.cu",
-        src_dir / "activation" / "swiglu.cu",
-        src_dir / "fused_attn" / "fused_attn_fp8.cu",
-        src_dir / "fused_attn" / "fused_attn.cpp",
-        src_dir / "fused_attn" / "utils.cu",
-        src_dir / "gemm" / "cublaslt_gemm.cu",
-        src_dir / "layer_norm" / "ln_api.cpp",
-        src_dir / "layer_norm" / "ln_bwd_semi_cuda_kernel.cu",
-        src_dir / "layer_norm" / "ln_fwd_cuda_kernel.cu",
-        src_dir / "rmsnorm" / "rmsnorm_api.cpp",
-        src_dir / "rmsnorm" / "rmsnorm_bwd_semi_cuda_kernel.cu",
-        src_dir / "rmsnorm" / "rmsnorm_fwd_cuda_kernel.cu",
-        src_dir / "util" / "cast.cu",
-        src_dir / "util" / "cuda_driver.cpp",
-        src_dir / "util" / "cuda_runtime.cpp",
-        src_dir / "util" / "rtc.cpp",
-        src_dir / "util" / "system.cpp",
-        src_dir / "fused_softmax" / "scaled_masked_softmax.cu",
-        src_dir / "fused_softmax" / "scaled_upper_triang_masked_softmax.cu",
     ]
 
     # Header files
     include_dirs = [
         src_dir / "include",
         root_path / "3rdparty" / "cudnn-frontend" / "include",
+        root_path / "transformer_engine"
     ]
 
     # Compiler flags

From d63885fc91772211f795859000dd315685626d0f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 13:24:42 +0200
Subject: [PATCH 004/535] add missing include

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/pybind.cpp | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/transformer_engine/common/pybind.cpp b/transformer_engine/common/pybind.cpp
index 9c596d4416..8f151c94d9 100644
--- a/transformer_engine/common/pybind.cpp
+++ b/transformer_engine/common/pybind.cpp
@@ -14,6 +14,9 @@
 #include <transformer_engine/transformer_engine.h>
 #include <transformer_engine/transpose.h>
 
+#include <pybind11/pybind11.h>
+namespace py = pybind11;
+
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
     m.def("nvte_gelu", &nvte_gelu)
     m.def("nvte_dgelu", &nvte_dgelu)

From 6a18645ac3e7528e79c85020af93f777b11a661f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 13:29:55 +0200
Subject: [PATCH 005/535] fix pybind.cpp

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/pybind.cpp | 112 +++++++++++++--------------
 1 file changed, 56 insertions(+), 56 deletions(-)

diff --git a/transformer_engine/common/pybind.cpp b/transformer_engine/common/pybind.cpp
index 8f151c94d9..b0afa53170 100644
--- a/transformer_engine/common/pybind.cpp
+++ b/transformer_engine/common/pybind.cpp
@@ -18,61 +18,61 @@
 namespace py = pybind11;
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
-    m.def("nvte_gelu", &nvte_gelu)
-    m.def("nvte_dgelu", &nvte_dgelu)
-    m.def("nvte_geglu", &nvte_geglu)
-    m.def("nvte_dgeglu", &nvte_dgeglu)
-    m.def("nvte_relu", &nvte_relu)
-    m.def("nvte_drelu", &nvte_drelu)
-    m.def("nvte_swiglu", &nvte_swiglu)
-    m.def("nvte_dswiglu", &nvte_dswiglu)
-    m.def("nvte_reglu", &nvte_reglu)
-    m.def("nvte_dreglu", &nvte_dreglu)
-
-    m.def("nvte_fp8_quantize", &nvte_fp8_quantize)
-    m.def("nvte_fp8_dequantize", &nvte_fp8_dequantize)
-
-    m.def("nvte_get_fused_attn_backend", &nvte_get_fused_attn_backend)
-    m.def("nvte_fused_attn_fwd_qkvpacked", &nvte_fused_attn_fwd_qkvpacked)
-    m.def("nvte_fused_attn_bwd_qkvpacked", &nvte_fused_attn_bwd_qkvpacked)
-    m.def("nvte_fused_attn_fwd_kvpacked", &nvte_fused_attn_fwd_kvpacked)
-    m.def("nvte_fused_attn_bwd_kvpacked", &nvte_fused_attn_bwd_kvpacked)
-
-    m.def("nvte_cublas_gemm", &nvte_cublas_gemm)
-
-    m.def("nvte_layernorm_fwd", &nvte_layernorm_fwd)
-    m.def("nvte_layernorm1p_fwd", &nvte_layernorm1p_fwd)
-    m.def("nvte_layernorm_bwd", &nvte_layernorm_bwd)
-    m.def("nvte_layernorm1p_bwd", &nvte_layernorm1p_bwd)
-
-    m.def("nvte_rmsnorm_fwd", &nvte_rmsnorm_fwd)
-    m.def("nvte_rmsnorm_bwd", &nvte_rmsnorm_bwd)
-
-    m.def("nvte_scaled_softmax_forward", &nvte_scaled_softmax_forward)
-    m.def("nvte_scaled_softmax_backward", &nvte_scaled_softmax_backward)
-    m.def("nvte_scaled_masked_softmax_forward", &nvte_scaled_masked_softmax_forward)
-    m.def("nvte_scaled_masked_softmax_backward", &nvte_scaled_masked_softmax_backward)
-    m.def("nvte_scaled_upper_triang_masked_softmax_forward", &nvte_scaled_upper_triang_masked_softmax_forward)
-    m.def("nvte_scaled_upper_triang_masked_softmax_backward", &nvte_scaled_upper_triang_masked_softmax_backward)
-
-    m.def("nvte_create_tensor", &nvte_create_tensor)
-    m.def("nvte_destroy_tensor", &nvte_destroy_tensor)
-    m.def("nvte_tensor_type", &nvte_tensor_type)
-    m.def("nvte_tensor_shape", &nvte_tensor_shape)
-    m.def("nvte_tensor_data", &nvte_tensor_data)
-    m.def("nvte_tensor_amax", &nvte_tensor_amax)
-    m.def("nvte_tensor_scale", &nvte_tensor_scale)
-    m.def("nvte_tensor_scale_inv", &nvte_tensor_scale_inv)
-    m.def("nvte_tensor_pack_create", &nvte_tensor_pack_create)
-    m.def("nvte_tensor_pack_destroy", &nvte_tensor_pack_destroy)
-
-    m.def("nvte_cast_transpose", &nvte_cast_transpose)
-    m.def("nvte_transpose", &nvte_transpose)
-    m.def("nvte_cast_transpose_dbias", &nvte_cast_transpose_dbias)
-    m.def("nvte_fp8_transpose_dbias", &nvte_fp8_transpose_dbias)
-    m.def("nvte_cast_transpose_dbias_dgelu", &nvte_cast_transpose_dbias_dgelu)
-    m.def("nvte_multi_cast_transpose", &nvte_multi_cast_transpose)
-    m.def("nvte_dgeglu_cast_transpose", &nvte_dgeglu_cast_transpose)
+    m.def("nvte_gelu", &nvte_gelu);
+    m.def("nvte_dgelu", &nvte_dgelu);
+    m.def("nvte_geglu", &nvte_geglu);
+    m.def("nvte_dgeglu", &nvte_dgeglu);
+    m.def("nvte_relu", &nvte_relu);
+    m.def("nvte_drelu", &nvte_drelu);
+    m.def("nvte_swiglu", &nvte_swiglu);
+    m.def("nvte_dswiglu", &nvte_dswiglu);
+    m.def("nvte_reglu", &nvte_reglu);
+    m.def("nvte_dreglu", &nvte_dreglu);
+
+    m.def("nvte_fp8_quantize", &nvte_fp8_quantize);
+    m.def("nvte_fp8_dequantize", &nvte_fp8_dequantize);
+
+    m.def("nvte_get_fused_attn_backend", &nvte_get_fused_attn_backend);
+    m.def("nvte_fused_attn_fwd_qkvpacked", &nvte_fused_attn_fwd_qkvpacked);
+    m.def("nvte_fused_attn_bwd_qkvpacked", &nvte_fused_attn_bwd_qkvpacked);
+    m.def("nvte_fused_attn_fwd_kvpacked", &nvte_fused_attn_fwd_kvpacked);
+    m.def("nvte_fused_attn_bwd_kvpacked", &nvte_fused_attn_bwd_kvpacked);
+
+    m.def("nvte_cublas_gemm", &nvte_cublas_gemm);
+
+    m.def("nvte_layernorm_fwd", &nvte_layernorm_fwd);
+    m.def("nvte_layernorm1p_fwd", &nvte_layernorm1p_fwd);
+    m.def("nvte_layernorm_bwd", &nvte_layernorm_bwd);
+    m.def("nvte_layernorm1p_bwd", &nvte_layernorm1p_bwd);
+
+    m.def("nvte_rmsnorm_fwd", &nvte_rmsnorm_fwd);
+    m.def("nvte_rmsnorm_bwd", &nvte_rmsnorm_bwd);
+
+    m.def("nvte_scaled_softmax_forward", &nvte_scaled_softmax_forward);
+    m.def("nvte_scaled_softmax_backward", &nvte_scaled_softmax_backward);
+    m.def("nvte_scaled_masked_softmax_forward", &nvte_scaled_masked_softmax_forward);
+    m.def("nvte_scaled_masked_softmax_backward", &nvte_scaled_masked_softmax_backward);
+    m.def("nvte_scaled_upper_triang_masked_softmax_forward", &nvte_scaled_upper_triang_masked_softmax_forward);
+    m.def("nvte_scaled_upper_triang_masked_softmax_backward", &nvte_scaled_upper_triang_masked_softmax_backward);
+
+    m.def("nvte_create_tensor", &nvte_create_tensor);
+    m.def("nvte_destroy_tensor", &nvte_destroy_tensor);
+    m.def("nvte_tensor_type", &nvte_tensor_type);
+    m.def("nvte_tensor_shape", &nvte_tensor_shape);
+    m.def("nvte_tensor_data", &nvte_tensor_data);
+    m.def("nvte_tensor_amax", &nvte_tensor_amax);
+    m.def("nvte_tensor_scale", &nvte_tensor_scale);
+    m.def("nvte_tensor_scale_inv", &nvte_tensor_scale_inv);
+    m.def("nvte_tensor_pack_create", &nvte_tensor_pack_create);
+    m.def("nvte_tensor_pack_destroy", &nvte_tensor_pack_destroy);
+
+    m.def("nvte_cast_transpose", &nvte_cast_transpose);
+    m.def("nvte_transpose", &nvte_transpose);
+    m.def("nvte_cast_transpose_dbias", &nvte_cast_transpose_dbias);
+    m.def("nvte_fp8_transpose_dbias", &nvte_fp8_transpose_dbias);
+    m.def("nvte_cast_transpose_dbias_dgelu", &nvte_cast_transpose_dbias_dgelu);
+    m.def("nvte_multi_cast_transpose", &nvte_multi_cast_transpose);
+    m.def("nvte_dgeglu_cast_transpose", &nvte_dgeglu_cast_transpose);
 
     py::enum_<NVTEDType>(m, "NVTEDType")
         .value("kNVTEByte", kNVTEByte)
@@ -105,7 +105,7 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
         .value("NVTE_PADDING_MASK", NVTE_PADDING_MASK)
         .value("NVTE_CAUSAL_MASK", NVTE_CAUSAL_MASK);
 
-    py::class_<transformer_engine::FP8TensorMeta>(m, "NVTEShape")
+    py::class_<NVTEShape>(m, "NVTEShape")
         .def(py::init<>())
         .def_readwrite("data", &NVTEShape::data)
         .def_readwrite("ndim", &NVTEShape::ndim)

From bd4a93d2fdf6bc3effd0158aaf38e9a34208f8f0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 15:26:09 +0200
Subject: [PATCH 006/535] fix extension

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py                                      |  37 +++---
 .../sequential/cpp_extensions}/pybind.cpp     | 124 +++++++++++++++---
 2 files changed, 122 insertions(+), 39 deletions(-)
 rename transformer_engine/{common => pytorch/sequential/cpp_extensions}/pybind.cpp (57%)

diff --git a/setup.py b/setup.py
index 66ec079695..6e6b65ed35 100644
--- a/setup.py
+++ b/setup.py
@@ -464,20 +464,23 @@ def setup_common_extension() -> CMakeExtension:
 def _all_files_in_dir(path):
     return list(path.iterdir())
 
-def setup_common_pybind_extension() -> setuptools.Extension:
-    """Setup CUDA extension for common library"""
+def setup_pytorch_extension() -> setuptools.Extension:
+    """Setup CUDA extension for PyTorch support"""
 
     # Source files
-    src_dir = root_path / "transformer_engine" / "common"
+    src_dir = root_path / "transformer_engine" / "pytorch" / "csrc"
+    extensions_dir = src_dir / "extensions"
     sources = [
-        src_dir / "pybind.cpp",
-    ]
+        src_dir / "common.cu",
+        src_dir / "ts_fp8_op.cpp",
+    ] + \
+    _all_files_in_dir(extensions_dir)
 
     # Header files
     include_dirs = [
-        src_dir / "include",
+        root_path / "transformer_engine" / "common" / "include",
+        root_path / "transformer_engine" / "pytorch" / "csrc",
         root_path / "3rdparty" / "cudnn-frontend" / "include",
-        root_path / "transformer_engine"
     ]
 
     # Compiler flags
@@ -523,9 +526,10 @@ def setup_common_pybind_extension() -> setuptools.Extension:
     include_dirs = [str(path) for path in include_dirs]
     from torch.utils.cpp_extension import CUDAExtension
     return CUDAExtension(
-        name="transformer_engine_cuda",
+        name="transformer_engine_extensions",
         sources=sources,
         include_dirs=include_dirs,
+        # libraries=["transformer_engine"], ### TODO (tmoon) Debug linker errors
         extra_compile_args={
             "cxx": cxx_flags,
             "nvcc": nvcc_flags,
@@ -536,18 +540,15 @@ def setup_pytorch_extension() -> setuptools.Extension:
     """Setup CUDA extension for PyTorch support"""
 
     # Source files
-    src_dir = root_path / "transformer_engine" / "pytorch" / "csrc"
-    extensions_dir = src_dir / "extensions"
+    src_dir = root_path / "transformer_engine" / "pytorch" / "sequential" / "cpp_extensions"
     sources = [
-        src_dir / "common.cu",
-        src_dir / "ts_fp8_op.cpp",
-    ] + \
-    _all_files_in_dir(extensions_dir)
+        src_dir / "pybind.cpp"
+    ]
 
     # Header files
     include_dirs = [
         root_path / "transformer_engine" / "common" / "include",
-        root_path / "transformer_engine" / "pytorch" / "csrc",
+        root_path / "transformer_engine",
         root_path / "3rdparty" / "cudnn-frontend" / "include",
     ]
 
@@ -594,10 +595,9 @@ def setup_pytorch_extension() -> setuptools.Extension:
     include_dirs = [str(path) for path in include_dirs]
     from torch.utils.cpp_extension import CUDAExtension
     return CUDAExtension(
-        name="transformer_engine_extensions",
+        name="transformer_engine_cuda",
         sources=sources,
         include_dirs=include_dirs,
-        # libraries=["transformer_engine"], ### TODO (tmoon) Debug linker errors
         extra_compile_args={
             "cxx": cxx_flags,
             "nvcc": nvcc_flags,
@@ -679,9 +679,10 @@ def main():
     setup_requires, install_requires, test_requires = setup_requirements()
 
     # Extensions
-    ext_modules = [setup_common_extension(), setup_common_pybind_extension()]
+    ext_modules = [setup_common_extension()]
     if "pytorch" in frameworks():
         ext_modules.append(setup_pytorch_extension())
+        ext_modules.append(setup_sequential_extension())
 
     if "paddle" in frameworks():
         ext_modules.append(setup_paddle_extension())
diff --git a/transformer_engine/common/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
similarity index 57%
rename from transformer_engine/common/pybind.cpp
rename to transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index b0afa53170..a25360843f 100644
--- a/transformer_engine/common/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -1,9 +1,28 @@
 /*************************************************************************
- * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+ * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights
+ *reserved.
  *
  * See LICENSE for license information.
  ************************************************************************/
 
+#include <ATen/ATen.h>
+#include <ATen/Dispatch.h>
+#include <ATen/cuda/CUDAContext.h>
+#include <ATen/cuda/CUDAGeneratorImpl.h>
+#include <ATen/cuda/CUDAGraphsUtils.cuh>
+#include <ATen/cudnn/Handle.h>
+#include <ATen/native/DispatchStub.h>
+#include <c10/cuda/CUDAStream.h>
+#include <c10/macros/Macros.h>
+#include <cublasLt.h>
+#include <cuda.h>
+#include <cuda_bf16.h>
+#include <cuda_runtime.h>
+#include <exception>
+#include <pybind11/pybind11.h>
+#include <stdexcept>
+#include <torch/extension.h>
+#include <torch/torch.h>
 #include <transformer_engine/activation.h>
 #include <transformer_engine/cast.h>
 #include <transformer_engine/fused_attn.h>
@@ -13,11 +32,78 @@
 #include <transformer_engine/softmax.h>
 #include <transformer_engine/transformer_engine.h>
 #include <transformer_engine/transpose.h>
-
-#include <pybind11/pybind11.h>
+#include <type_traits>
 namespace py = pybind11;
 
-PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+struct Tensor {
+  NVTETensor impl;
+
+  static void *getDataPtr(at::Tensor t) {
+    if (t.numel() > 0) {
+      return t.data_ptr();
+    } else {
+      return nullptr;
+    }
+  }
+
+  Tensor(NVTEDType dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
+         at::Tensor scale_inv) {
+    NVTEShape shape{data.sizes().data(), data.sizes().size()};
+    impl = nvte_create_tensor(getDataPtr(data), shape, dtype, getDataPtr(amax),
+                              getDataPtr(scale), getDataPtr(scale_inv));
+  }
+  ~Tensor() { nvte_destroy_tensor(impl); }
+};
+
+struct TensorPack : NVTETensorPack {
+  TensorPack(const std::vector<Tensor> &tensors_) : tensors{}, size{} {
+    size = tensors_.size();
+    if (size > MAX_SIZE) {
+      throw std::runtime_error("TensorPack size exceeds MAX_SIZE");
+    }
+    for (size_t i = 0; i < size; ++i) {
+      tensors[i] = tensors_[i].impl;
+    }
+    nvte_tensor_pack_create(this);
+  }
+  ~TensorPack() { nvte_tensor_pack_destroy(this); }
+};
+
+template <typename T> struct trait {
+  using type = T;
+};
+
+template <typename T> struct wrapped_arg : trait<T> {};
+struct wrapped_arg<NVTETensor> : trait<Tensor> {};
+struct wrapped_arg<NVTETensorPack> : trait<std::vector<Tensor>> {};
+
+template <typename T> using wrapped_arg_t = typename wrapped_arg<T>::type;
+
+template <typename T> decltype(auto) unwrap_arg(T &&arg) {
+  if constexpr (std::is_same_v < std::decay_t<T>, wrapped_arg_t<NVTETensor>) {
+    return arg.impl;
+  } else if constexpr (std::is_same_v<std::decay_t<T>,
+                                      wrapped_arg_t<NVTETensorPack>>) {
+    return TensorPack(arg);
+  } else {
+    { return arg; }
+  }
+
+  template <typename Ret, typename LastArg, typename... Args>
+  constexpr auto wrap(Ret(func)(Args && ..., LastArg &&)) noexcept {
+    if constexpr (std::is_same_v<std::decay_t<LastArg>, cudaStream_t>) {
+      return [func](wrapped_arg_t<Args>... args) -> Ret {
+        return func(unwrap_arg(args)..., at::cuda::getCurrentCUDAStream());
+      };
+    } else {
+      return [func](wrapped_arg_t<Args>... args,
+                    wrapped_arg_t<LastArg> last_arg) -> Ret {
+        return func(unwrap_arg(args)..., unwrap_arg(last_arg));
+      };
+    }
+  }
+
+  PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
     m.def("nvte_gelu", &nvte_gelu);
     m.def("nvte_dgelu", &nvte_dgelu);
     m.def("nvte_geglu", &nvte_geglu);
@@ -28,33 +114,30 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
     m.def("nvte_dswiglu", &nvte_dswiglu);
     m.def("nvte_reglu", &nvte_reglu);
     m.def("nvte_dreglu", &nvte_dreglu);
-
     m.def("nvte_fp8_quantize", &nvte_fp8_quantize);
     m.def("nvte_fp8_dequantize", &nvte_fp8_dequantize);
-
     m.def("nvte_get_fused_attn_backend", &nvte_get_fused_attn_backend);
     m.def("nvte_fused_attn_fwd_qkvpacked", &nvte_fused_attn_fwd_qkvpacked);
     m.def("nvte_fused_attn_bwd_qkvpacked", &nvte_fused_attn_bwd_qkvpacked);
     m.def("nvte_fused_attn_fwd_kvpacked", &nvte_fused_attn_fwd_kvpacked);
     m.def("nvte_fused_attn_bwd_kvpacked", &nvte_fused_attn_bwd_kvpacked);
-
     m.def("nvte_cublas_gemm", &nvte_cublas_gemm);
-
     m.def("nvte_layernorm_fwd", &nvte_layernorm_fwd);
     m.def("nvte_layernorm1p_fwd", &nvte_layernorm1p_fwd);
     m.def("nvte_layernorm_bwd", &nvte_layernorm_bwd);
     m.def("nvte_layernorm1p_bwd", &nvte_layernorm1p_bwd);
-
     m.def("nvte_rmsnorm_fwd", &nvte_rmsnorm_fwd);
     m.def("nvte_rmsnorm_bwd", &nvte_rmsnorm_bwd);
-
     m.def("nvte_scaled_softmax_forward", &nvte_scaled_softmax_forward);
     m.def("nvte_scaled_softmax_backward", &nvte_scaled_softmax_backward);
-    m.def("nvte_scaled_masked_softmax_forward", &nvte_scaled_masked_softmax_forward);
-    m.def("nvte_scaled_masked_softmax_backward", &nvte_scaled_masked_softmax_backward);
-    m.def("nvte_scaled_upper_triang_masked_softmax_forward", &nvte_scaled_upper_triang_masked_softmax_forward);
-    m.def("nvte_scaled_upper_triang_masked_softmax_backward", &nvte_scaled_upper_triang_masked_softmax_backward);
-
+    m.def("nvte_scaled_masked_softmax_forward",
+          &nvte_scaled_masked_softmax_forward);
+    m.def("nvte_scaled_masked_softmax_backward",
+          &nvte_scaled_masked_softmax_backward);
+    m.def("nvte_scaled_upper_triang_masked_softmax_forward",
+          &nvte_scaled_upper_triang_masked_softmax_forward);
+    m.def("nvte_scaled_upper_triang_masked_softmax_backward",
+          &nvte_scaled_upper_triang_masked_softmax_backward);
     m.def("nvte_create_tensor", &nvte_create_tensor);
     m.def("nvte_destroy_tensor", &nvte_destroy_tensor);
     m.def("nvte_tensor_type", &nvte_tensor_type);
@@ -108,10 +191,9 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
     py::class_<NVTEShape>(m, "NVTEShape")
         .def(py::init<>())
         .def_readwrite("data", &NVTEShape::data)
-        .def_readwrite("ndim", &NVTEShape::ndim)
+        .def_readwrite("ndim", &NVTEShape::ndim);
 
-    py::class_<NVTETensorPack>(m, "NVTETensorPack")
-        .def(py::init<>())
-        .def_readwrite("tensors", &NVTETensorPack::tensors)
-        .def_readwrite("size", &NVTETensorPack::size)
-}
\ No newline at end of file
+    py::class_<Tensor>(m, "NVTETensor")
+        .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
+                      at::Tensor>())
+  }

From 2e5d965fb09350b0e82fc17abdf529fd913e31a0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 15:33:22 +0200
Subject: [PATCH 007/535] fix function name

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/setup.py b/setup.py
index 6e6b65ed35..bd4d6ce645 100644
--- a/setup.py
+++ b/setup.py
@@ -536,9 +536,7 @@ def setup_pytorch_extension() -> setuptools.Extension:
         },
     )
 
-def setup_pytorch_extension() -> setuptools.Extension:
-    """Setup CUDA extension for PyTorch support"""
-
+def setup_sequential_extension() -> setuptools.Extension:
     # Source files
     src_dir = root_path / "transformer_engine" / "pytorch" / "sequential" / "cpp_extensions"
     sources = [

From 832f097c72062e7027d4da717b448578cbd68771 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 15:39:18 +0200
Subject: [PATCH 008/535] fix missing brace

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/pybind.cpp      | 217 +++++++++---------
 1 file changed, 109 insertions(+), 108 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index a25360843f..c7606e3bf3 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -88,112 +88,113 @@ template <typename T> decltype(auto) unwrap_arg(T &&arg) {
   } else {
     { return arg; }
   }
-
-  template <typename Ret, typename LastArg, typename... Args>
-  constexpr auto wrap(Ret(func)(Args && ..., LastArg &&)) noexcept {
-    if constexpr (std::is_same_v<std::decay_t<LastArg>, cudaStream_t>) {
-      return [func](wrapped_arg_t<Args>... args) -> Ret {
-        return func(unwrap_arg(args)..., at::cuda::getCurrentCUDAStream());
-      };
-    } else {
-      return [func](wrapped_arg_t<Args>... args,
-                    wrapped_arg_t<LastArg> last_arg) -> Ret {
-        return func(unwrap_arg(args)..., unwrap_arg(last_arg));
-      };
-    }
-  }
-
-  PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
-    m.def("nvte_gelu", &nvte_gelu);
-    m.def("nvte_dgelu", &nvte_dgelu);
-    m.def("nvte_geglu", &nvte_geglu);
-    m.def("nvte_dgeglu", &nvte_dgeglu);
-    m.def("nvte_relu", &nvte_relu);
-    m.def("nvte_drelu", &nvte_drelu);
-    m.def("nvte_swiglu", &nvte_swiglu);
-    m.def("nvte_dswiglu", &nvte_dswiglu);
-    m.def("nvte_reglu", &nvte_reglu);
-    m.def("nvte_dreglu", &nvte_dreglu);
-    m.def("nvte_fp8_quantize", &nvte_fp8_quantize);
-    m.def("nvte_fp8_dequantize", &nvte_fp8_dequantize);
-    m.def("nvte_get_fused_attn_backend", &nvte_get_fused_attn_backend);
-    m.def("nvte_fused_attn_fwd_qkvpacked", &nvte_fused_attn_fwd_qkvpacked);
-    m.def("nvte_fused_attn_bwd_qkvpacked", &nvte_fused_attn_bwd_qkvpacked);
-    m.def("nvte_fused_attn_fwd_kvpacked", &nvte_fused_attn_fwd_kvpacked);
-    m.def("nvte_fused_attn_bwd_kvpacked", &nvte_fused_attn_bwd_kvpacked);
-    m.def("nvte_cublas_gemm", &nvte_cublas_gemm);
-    m.def("nvte_layernorm_fwd", &nvte_layernorm_fwd);
-    m.def("nvte_layernorm1p_fwd", &nvte_layernorm1p_fwd);
-    m.def("nvte_layernorm_bwd", &nvte_layernorm_bwd);
-    m.def("nvte_layernorm1p_bwd", &nvte_layernorm1p_bwd);
-    m.def("nvte_rmsnorm_fwd", &nvte_rmsnorm_fwd);
-    m.def("nvte_rmsnorm_bwd", &nvte_rmsnorm_bwd);
-    m.def("nvte_scaled_softmax_forward", &nvte_scaled_softmax_forward);
-    m.def("nvte_scaled_softmax_backward", &nvte_scaled_softmax_backward);
-    m.def("nvte_scaled_masked_softmax_forward",
-          &nvte_scaled_masked_softmax_forward);
-    m.def("nvte_scaled_masked_softmax_backward",
-          &nvte_scaled_masked_softmax_backward);
-    m.def("nvte_scaled_upper_triang_masked_softmax_forward",
-          &nvte_scaled_upper_triang_masked_softmax_forward);
-    m.def("nvte_scaled_upper_triang_masked_softmax_backward",
-          &nvte_scaled_upper_triang_masked_softmax_backward);
-    m.def("nvte_create_tensor", &nvte_create_tensor);
-    m.def("nvte_destroy_tensor", &nvte_destroy_tensor);
-    m.def("nvte_tensor_type", &nvte_tensor_type);
-    m.def("nvte_tensor_shape", &nvte_tensor_shape);
-    m.def("nvte_tensor_data", &nvte_tensor_data);
-    m.def("nvte_tensor_amax", &nvte_tensor_amax);
-    m.def("nvte_tensor_scale", &nvte_tensor_scale);
-    m.def("nvte_tensor_scale_inv", &nvte_tensor_scale_inv);
-    m.def("nvte_tensor_pack_create", &nvte_tensor_pack_create);
-    m.def("nvte_tensor_pack_destroy", &nvte_tensor_pack_destroy);
-
-    m.def("nvte_cast_transpose", &nvte_cast_transpose);
-    m.def("nvte_transpose", &nvte_transpose);
-    m.def("nvte_cast_transpose_dbias", &nvte_cast_transpose_dbias);
-    m.def("nvte_fp8_transpose_dbias", &nvte_fp8_transpose_dbias);
-    m.def("nvte_cast_transpose_dbias_dgelu", &nvte_cast_transpose_dbias_dgelu);
-    m.def("nvte_multi_cast_transpose", &nvte_multi_cast_transpose);
-    m.def("nvte_dgeglu_cast_transpose", &nvte_dgeglu_cast_transpose);
-
-    py::enum_<NVTEDType>(m, "NVTEDType")
-        .value("kNVTEByte", kNVTEByte)
-        .value("kNVTEInt32", kNVTEInt32)
-        .value("kNVTEInt64", kNVTEInt64)
-        .value("kNVTEFloat32", kNVTEFloat32)
-        .value("kNVTEFloat16", kNVTEFloat16)
-        .value("kNVTEBFloat16", kNVTEBFloat16)
-        .value("kNVTEFloat8E4M3", kNVTEFloat8E4M3)
-        .value("kNVTEFloat8E5M2", kNVTEFloat8E5M2);
-
-    py::enum_<NVTE_Fused_Attn_Backend>(m, "NVTE_Fused_Attn_Backend")
-        .value("NVTE_No_Backend", NVTE_No_Backend)
-        .value("NVTE_F16_max512_seqlen", NVTE_F16_max512_seqlen)
-        .value("NVTE_F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
-        .value("NVTE_FP8", NVTE_FP8);
-
-    py::enum_<NVTE_QKV_Layout>(m, "NVTE_QKV_Layout")
-        .value("NVTE_NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
-        .value("NVTE_QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
-        .value("NVTE_KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
-
-    py::enum_<NVTE_Bias_Type>(m, "NVTE_Bias_Type")
-        .value("NVTE_NO_BIAS", NVTE_NO_BIAS)
-        .value("NVTE_PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
-        .value("NVTE_POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
-
-    py::enum_<NVTE_Mask_Type>(m, "NVTE_Mask_Type")
-        .value("NVTE_NO_MASK", NVTE_NO_MASK)
-        .value("NVTE_PADDING_MASK", NVTE_PADDING_MASK)
-        .value("NVTE_CAUSAL_MASK", NVTE_CAUSAL_MASK);
-
-    py::class_<NVTEShape>(m, "NVTEShape")
-        .def(py::init<>())
-        .def_readwrite("data", &NVTEShape::data)
-        .def_readwrite("ndim", &NVTEShape::ndim);
-
-    py::class_<Tensor>(m, "NVTETensor")
-        .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
-                      at::Tensor>())
+}
+
+template <typename Ret, typename LastArg, typename... Args>
+constexpr auto wrap(Ret(func)(Args &&..., LastArg &&)) noexcept {
+  if constexpr (std::is_same_v<std::decay_t<LastArg>, cudaStream_t>) {
+    return [func](wrapped_arg_t<Args>... args) -> Ret {
+      return func(unwrap_arg(args)..., at::cuda::getCurrentCUDAStream());
+    };
+  } else {
+    return [func](wrapped_arg_t<Args>... args,
+                  wrapped_arg_t<LastArg> last_arg) -> Ret {
+      return func(unwrap_arg(args)..., unwrap_arg(last_arg));
+    };
   }
+}
+
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+  m.def("nvte_gelu", &nvte_gelu);
+  m.def("nvte_dgelu", &nvte_dgelu);
+  m.def("nvte_geglu", &nvte_geglu);
+  m.def("nvte_dgeglu", &nvte_dgeglu);
+  m.def("nvte_relu", &nvte_relu);
+  m.def("nvte_drelu", &nvte_drelu);
+  m.def("nvte_swiglu", &nvte_swiglu);
+  m.def("nvte_dswiglu", &nvte_dswiglu);
+  m.def("nvte_reglu", &nvte_reglu);
+  m.def("nvte_dreglu", &nvte_dreglu);
+  m.def("nvte_fp8_quantize", &nvte_fp8_quantize);
+  m.def("nvte_fp8_dequantize", &nvte_fp8_dequantize);
+  m.def("nvte_get_fused_attn_backend", &nvte_get_fused_attn_backend);
+  m.def("nvte_fused_attn_fwd_qkvpacked", &nvte_fused_attn_fwd_qkvpacked);
+  m.def("nvte_fused_attn_bwd_qkvpacked", &nvte_fused_attn_bwd_qkvpacked);
+  m.def("nvte_fused_attn_fwd_kvpacked", &nvte_fused_attn_fwd_kvpacked);
+  m.def("nvte_fused_attn_bwd_kvpacked", &nvte_fused_attn_bwd_kvpacked);
+  m.def("nvte_cublas_gemm", &nvte_cublas_gemm);
+  m.def("nvte_layernorm_fwd", &nvte_layernorm_fwd);
+  m.def("nvte_layernorm1p_fwd", &nvte_layernorm1p_fwd);
+  m.def("nvte_layernorm_bwd", &nvte_layernorm_bwd);
+  m.def("nvte_layernorm1p_bwd", &nvte_layernorm1p_bwd);
+  m.def("nvte_rmsnorm_fwd", &nvte_rmsnorm_fwd);
+  m.def("nvte_rmsnorm_bwd", &nvte_rmsnorm_bwd);
+  m.def("nvte_scaled_softmax_forward", &nvte_scaled_softmax_forward);
+  m.def("nvte_scaled_softmax_backward", &nvte_scaled_softmax_backward);
+  m.def("nvte_scaled_masked_softmax_forward",
+        &nvte_scaled_masked_softmax_forward);
+  m.def("nvte_scaled_masked_softmax_backward",
+        &nvte_scaled_masked_softmax_backward);
+  m.def("nvte_scaled_upper_triang_masked_softmax_forward",
+        &nvte_scaled_upper_triang_masked_softmax_forward);
+  m.def("nvte_scaled_upper_triang_masked_softmax_backward",
+        &nvte_scaled_upper_triang_masked_softmax_backward);
+  m.def("nvte_create_tensor", &nvte_create_tensor);
+  m.def("nvte_destroy_tensor", &nvte_destroy_tensor);
+  m.def("nvte_tensor_type", &nvte_tensor_type);
+  m.def("nvte_tensor_shape", &nvte_tensor_shape);
+  m.def("nvte_tensor_data", &nvte_tensor_data);
+  m.def("nvte_tensor_amax", &nvte_tensor_amax);
+  m.def("nvte_tensor_scale", &nvte_tensor_scale);
+  m.def("nvte_tensor_scale_inv", &nvte_tensor_scale_inv);
+  m.def("nvte_tensor_pack_create", &nvte_tensor_pack_create);
+  m.def("nvte_tensor_pack_destroy", &nvte_tensor_pack_destroy);
+
+  m.def("nvte_cast_transpose", &nvte_cast_transpose);
+  m.def("nvte_transpose", &nvte_transpose);
+  m.def("nvte_cast_transpose_dbias", &nvte_cast_transpose_dbias);
+  m.def("nvte_fp8_transpose_dbias", &nvte_fp8_transpose_dbias);
+  m.def("nvte_cast_transpose_dbias_dgelu", &nvte_cast_transpose_dbias_dgelu);
+  m.def("nvte_multi_cast_transpose", &nvte_multi_cast_transpose);
+  m.def("nvte_dgeglu_cast_transpose", &nvte_dgeglu_cast_transpose);
+
+  py::enum_<NVTEDType>(m, "NVTEDType")
+      .value("kNVTEByte", kNVTEByte)
+      .value("kNVTEInt32", kNVTEInt32)
+      .value("kNVTEInt64", kNVTEInt64)
+      .value("kNVTEFloat32", kNVTEFloat32)
+      .value("kNVTEFloat16", kNVTEFloat16)
+      .value("kNVTEBFloat16", kNVTEBFloat16)
+      .value("kNVTEFloat8E4M3", kNVTEFloat8E4M3)
+      .value("kNVTEFloat8E5M2", kNVTEFloat8E5M2);
+
+  py::enum_<NVTE_Fused_Attn_Backend>(m, "NVTE_Fused_Attn_Backend")
+      .value("NVTE_No_Backend", NVTE_No_Backend)
+      .value("NVTE_F16_max512_seqlen", NVTE_F16_max512_seqlen)
+      .value("NVTE_F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
+      .value("NVTE_FP8", NVTE_FP8);
+
+  py::enum_<NVTE_QKV_Layout>(m, "NVTE_QKV_Layout")
+      .value("NVTE_NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
+      .value("NVTE_QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
+      .value("NVTE_KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
+
+  py::enum_<NVTE_Bias_Type>(m, "NVTE_Bias_Type")
+      .value("NVTE_NO_BIAS", NVTE_NO_BIAS)
+      .value("NVTE_PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
+      .value("NVTE_POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
+
+  py::enum_<NVTE_Mask_Type>(m, "NVTE_Mask_Type")
+      .value("NVTE_NO_MASK", NVTE_NO_MASK)
+      .value("NVTE_PADDING_MASK", NVTE_PADDING_MASK)
+      .value("NVTE_CAUSAL_MASK", NVTE_CAUSAL_MASK);
+
+  py::class_<NVTEShape>(m, "NVTEShape")
+      .def(py::init<>())
+      .def_readwrite("data", &NVTEShape::data)
+      .def_readwrite("ndim", &NVTEShape::ndim);
+
+  py::class_<Tensor>(m, "NVTETensor")
+      .def(
+          py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor, at::Tensor>())
+}

From ee2cfa172914ec33e50435f26112d890b3a7c5ed Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 15:45:04 +0200
Subject: [PATCH 009/535] add wrapper

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/pybind.cpp      | 96 +++++++++----------
 1 file changed, 48 insertions(+), 48 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index c7606e3bf3..e910f11f48 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -105,58 +105,58 @@ constexpr auto wrap(Ret(func)(Args &&..., LastArg &&)) noexcept {
 }
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
-  m.def("nvte_gelu", &nvte_gelu);
-  m.def("nvte_dgelu", &nvte_dgelu);
-  m.def("nvte_geglu", &nvte_geglu);
-  m.def("nvte_dgeglu", &nvte_dgeglu);
-  m.def("nvte_relu", &nvte_relu);
-  m.def("nvte_drelu", &nvte_drelu);
-  m.def("nvte_swiglu", &nvte_swiglu);
-  m.def("nvte_dswiglu", &nvte_dswiglu);
-  m.def("nvte_reglu", &nvte_reglu);
-  m.def("nvte_dreglu", &nvte_dreglu);
-  m.def("nvte_fp8_quantize", &nvte_fp8_quantize);
-  m.def("nvte_fp8_dequantize", &nvte_fp8_dequantize);
-  m.def("nvte_get_fused_attn_backend", &nvte_get_fused_attn_backend);
-  m.def("nvte_fused_attn_fwd_qkvpacked", &nvte_fused_attn_fwd_qkvpacked);
-  m.def("nvte_fused_attn_bwd_qkvpacked", &nvte_fused_attn_bwd_qkvpacked);
-  m.def("nvte_fused_attn_fwd_kvpacked", &nvte_fused_attn_fwd_kvpacked);
-  m.def("nvte_fused_attn_bwd_kvpacked", &nvte_fused_attn_bwd_kvpacked);
-  m.def("nvte_cublas_gemm", &nvte_cublas_gemm);
-  m.def("nvte_layernorm_fwd", &nvte_layernorm_fwd);
-  m.def("nvte_layernorm1p_fwd", &nvte_layernorm1p_fwd);
-  m.def("nvte_layernorm_bwd", &nvte_layernorm_bwd);
-  m.def("nvte_layernorm1p_bwd", &nvte_layernorm1p_bwd);
-  m.def("nvte_rmsnorm_fwd", &nvte_rmsnorm_fwd);
-  m.def("nvte_rmsnorm_bwd", &nvte_rmsnorm_bwd);
-  m.def("nvte_scaled_softmax_forward", &nvte_scaled_softmax_forward);
-  m.def("nvte_scaled_softmax_backward", &nvte_scaled_softmax_backward);
+  m.def("nvte_gelu", wrap(nvte_gelu));
+  m.def("nvte_dgelu", wrap(nvte_dgelu));
+  m.def("nvte_geglu", wrap(nvte_geglu));
+  m.def("nvte_dgeglu", wrap(nvte_dgeglu));
+  m.def("nvte_relu", wrap(nvte_relu));
+  m.def("nvte_drelu", wrap(nvte_drelu));
+  m.def("nvte_swiglu", wrap(nvte_swiglu));
+  m.def("nvte_dswiglu", wrap(nvte_dswiglu));
+  m.def("nvte_reglu", wrap(nvte_reglu));
+  m.def("nvte_dreglu", wrap(nvte_dreglu));
+  m.def("nvte_fp8_quantize", wrap(nvte_fp8_quantize));
+  m.def("nvte_fp8_dequantize", wrap(nvte_fp8_dequantize));
+  m.def("nvte_get_fused_attn_backend", wrap(nvte_get_fused_attn_backend));
+  m.def("nvte_fused_attn_fwd_qkvpacked", wrap(nvte_fused_attn_fwd_qkvpacked));
+  m.def("nvte_fused_attn_bwd_qkvpacked", wrap(nvte_fused_attn_bwd_qkvpacked));
+  m.def("nvte_fused_attn_fwd_kvpacked", wrap(nvte_fused_attn_fwd_kvpacked));
+  m.def("nvte_fused_attn_bwd_kvpacked", wrap(nvte_fused_attn_bwd_kvpacked));
+  m.def("nvte_cublas_gemm", wrap(nvte_cublas_gemm));
+  m.def("nvte_layernorm_fwd", wrap(nvte_layernorm_fwd));
+  m.def("nvte_layernorm1p_fwd", wrap(nvte_layernorm1p_fwd));
+  m.def("nvte_layernorm_bwd", wrap(nvte_layernorm_bwd));
+  m.def("nvte_layernorm1p_bwd", wrap(nvte_layernorm1p_bwd));
+  m.def("nvte_rmsnorm_fwd", wrap(nvte_rmsnorm_fwd));
+  m.def("nvte_rmsnorm_bwd", wrap(nvte_rmsnorm_bwd));
+  m.def("nvte_scaled_softmax_forward", wrap(nvte_scaled_softmax_forward));
+  m.def("nvte_scaled_softmax_backward", wrap(nvte_scaled_softmax_backward));
   m.def("nvte_scaled_masked_softmax_forward",
-        &nvte_scaled_masked_softmax_forward);
+        wrap(nvte_scaled_masked_softmax_forward));
   m.def("nvte_scaled_masked_softmax_backward",
-        &nvte_scaled_masked_softmax_backward);
+        wrap(nvte_scaled_masked_softmax_backward));
   m.def("nvte_scaled_upper_triang_masked_softmax_forward",
-        &nvte_scaled_upper_triang_masked_softmax_forward);
+        wrap(nvte_scaled_upper_triang_masked_softmax_forward));
   m.def("nvte_scaled_upper_triang_masked_softmax_backward",
-        &nvte_scaled_upper_triang_masked_softmax_backward);
-  m.def("nvte_create_tensor", &nvte_create_tensor);
-  m.def("nvte_destroy_tensor", &nvte_destroy_tensor);
-  m.def("nvte_tensor_type", &nvte_tensor_type);
-  m.def("nvte_tensor_shape", &nvte_tensor_shape);
-  m.def("nvte_tensor_data", &nvte_tensor_data);
-  m.def("nvte_tensor_amax", &nvte_tensor_amax);
-  m.def("nvte_tensor_scale", &nvte_tensor_scale);
-  m.def("nvte_tensor_scale_inv", &nvte_tensor_scale_inv);
-  m.def("nvte_tensor_pack_create", &nvte_tensor_pack_create);
-  m.def("nvte_tensor_pack_destroy", &nvte_tensor_pack_destroy);
-
-  m.def("nvte_cast_transpose", &nvte_cast_transpose);
-  m.def("nvte_transpose", &nvte_transpose);
-  m.def("nvte_cast_transpose_dbias", &nvte_cast_transpose_dbias);
-  m.def("nvte_fp8_transpose_dbias", &nvte_fp8_transpose_dbias);
-  m.def("nvte_cast_transpose_dbias_dgelu", &nvte_cast_transpose_dbias_dgelu);
-  m.def("nvte_multi_cast_transpose", &nvte_multi_cast_transpose);
-  m.def("nvte_dgeglu_cast_transpose", &nvte_dgeglu_cast_transpose);
+        wrap(nvte_scaled_upper_triang_masked_softmax_backward));
+  m.def("nvte_create_tensor", wrap(nvte_create_tensor));
+  m.def("nvte_destroy_tensor", wrap(nvte_destroy_tensor));
+  m.def("nvte_tensor_type", wrap(nvte_tensor_type));
+  m.def("nvte_tensor_shape", wrap(nvte_tensor_shape));
+  m.def("nvte_tensor_data", wrap(nvte_tensor_data));
+  m.def("nvte_tensor_amax", wrap(nvte_tensor_amax));
+  m.def("nvte_tensor_scale", wrap(nvte_tensor_scale));
+  m.def("nvte_tensor_scale_inv", wrap(nvte_tensor_scale_inv));
+  m.def("nvte_tensor_pack_create", wrap(nvte_tensor_pack_create));
+  m.def("nvte_tensor_pack_destroy", wrap(nvte_tensor_pack_destroy));
+  m.def("nvte_cast_transpose", wrap(nvte_cast_transpose));
+  m.def("nvte_transpose", wrap(nvte_transpose));
+  m.def("nvte_cast_transpose_dbias", wrap(nvte_cast_transpose_dbias));
+  m.def("nvte_fp8_transpose_dbias", wrap(nvte_fp8_transpose_dbias));
+  m.def("nvte_cast_transpose_dbias_dgelu",
+        wrap(nvte_cast_transpose_dbias_dgelu));
+  m.def("nvte_multi_cast_transpose", wrap(nvte_multi_cast_transpose));
+  m.def("nvte_dgeglu_cast_transpose", wrap(nvte_dgeglu_cast_transpose));
 
   py::enum_<NVTEDType>(m, "NVTEDType")
       .value("kNVTEByte", kNVTEByte)

From eedf751f0baa578c8aeedc57d5603a9365c39282 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 15:46:35 +0200
Subject: [PATCH 010/535] add missing conversion

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index e910f11f48..15e2173fc2 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -66,6 +66,7 @@ struct TensorPack : NVTETensorPack {
     }
     nvte_tensor_pack_create(this);
   }
+  operator NVTETensorPack *() { return this; }
   ~TensorPack() { nvte_tensor_pack_destroy(this); }
 };
 

From 3b4bb4f405031c18cf57671719f0c0689d77345d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 17:29:05 +0200
Subject: [PATCH 011/535] fix pybind

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/pybind.cpp      |  47 ++++----
 .../sequential/cpp_extensions/type_list.h     | 102 ++++++++++++++++++
 2 files changed, 131 insertions(+), 18 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/type_list.h

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 15e2173fc2..bebfa01a38 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -5,6 +5,7 @@
  * See LICENSE for license information.
  ************************************************************************/
 
+#include "type_list.h"
 #include <ATen/ATen.h>
 #include <ATen/Dispatch.h>
 #include <ATen/cuda/CUDAContext.h>
@@ -33,14 +34,15 @@
 #include <transformer_engine/transformer_engine.h>
 #include <transformer_engine/transpose.h>
 #include <type_traits>
+
 namespace py = pybind11;
 
 struct Tensor {
   NVTETensor impl;
 
-  static void *getDataPtr(at::Tensor t) {
+  static float *getDataPtr(at::Tensor t) {
     if (t.numel() > 0) {
-      return t.data_ptr();
+      return reinterpret_cast<float *>(t.data_ptr());
     } else {
       return nullptr;
     }
@@ -48,7 +50,7 @@ struct Tensor {
 
   Tensor(NVTEDType dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
          at::Tensor scale_inv) {
-    NVTEShape shape{data.sizes().data(), data.sizes().size()};
+    NVTEShape shape{(static_cast<size_t*>(data.sizes().data()), data.sizes().size()};
     impl = nvte_create_tensor(getDataPtr(data), shape, dtype, getDataPtr(amax),
                               getDataPtr(scale), getDataPtr(scale_inv));
   }
@@ -56,7 +58,7 @@ struct Tensor {
 };
 
 struct TensorPack : NVTETensorPack {
-  TensorPack(const std::vector<Tensor> &tensors_) : tensors{}, size{} {
+  TensorPack(const std::vector<Tensor> &tensors_) : NVTETensorPack{} {
     size = tensors_.size();
     if (size > MAX_SIZE) {
       throw std::runtime_error("TensorPack size exceeds MAX_SIZE");
@@ -75,13 +77,13 @@ template <typename T> struct trait {
 };
 
 template <typename T> struct wrapped_arg : trait<T> {};
-struct wrapped_arg<NVTETensor> : trait<Tensor> {};
-struct wrapped_arg<NVTETensorPack> : trait<std::vector<Tensor>> {};
+template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {};
+template <> struct wrapped_arg<NVTETensorPack> : trait<std::vector<Tensor>> {};
 
 template <typename T> using wrapped_arg_t = typename wrapped_arg<T>::type;
 
 template <typename T> decltype(auto) unwrap_arg(T &&arg) {
-  if constexpr (std::is_same_v < std::decay_t<T>, wrapped_arg_t<NVTETensor>) {
+  if constexpr (std::is_same_v<std::decay_t<T>, wrapped_arg_t<NVTETensor>>) {
     return arg.impl;
   } else if constexpr (std::is_same_v<std::decay_t<T>,
                                       wrapped_arg_t<NVTETensorPack>>) {
@@ -91,16 +93,25 @@ template <typename T> decltype(auto) unwrap_arg(T &&arg) {
   }
 }
 
-template <typename Ret, typename LastArg, typename... Args>
-constexpr auto wrap(Ret(func)(Args &&..., LastArg &&)) noexcept {
-  if constexpr (std::is_same_v<std::decay_t<LastArg>, cudaStream_t>) {
-    return [func](wrapped_arg_t<Args>... args) -> Ret {
-      return func(unwrap_arg(args)..., at::cuda::getCurrentCUDAStream());
-    };
+template <typename LastGetterT, typename Ret, typename... Args,
+          typename... ArgsStripped>
+constexpr auto _wrap_no_last(Ret(func)(Args...), type_list<ArgsStripped...>,
+                             LastGetterT last_func) noexcept {
+  return [func, last_func](wrapped_arg_t<ArgsStripped>... args) -> Ret {
+    return func(unwrap_arg(args)..., last_func());
+  };
+}
+
+template <typename Ret, typename... Args>
+constexpr auto wrap(Ret(func)(Args...)) noexcept {
+  using LastArg = typename type_list<Args...>::back_t;
+  if constexpr (std::is_same_v<LastArg, cudaStream_t>) {
+    using stripped = typename type_list<Args...>::template pop_back<>;
+    return _wrap_no_last<>(func, stripped(),
+                           []() { return at::cuda::getCurrentCUDAStream(); });
   } else {
-    return [func](wrapped_arg_t<Args>... args,
-                  wrapped_arg_t<LastArg> last_arg) -> Ret {
-      return func(unwrap_arg(args)..., unwrap_arg(last_arg));
+    return [func](wrapped_arg_t<Args>... args) -> Ret {
+      return func(unwrap_arg(args)...);
     };
   }
 }
@@ -196,6 +207,6 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
       .def_readwrite("ndim", &NVTEShape::ndim);
 
   py::class_<Tensor>(m, "NVTETensor")
-      .def(
-          py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor, at::Tensor>())
+      .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
+                    at::Tensor>());
 }
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/type_list.h b/transformer_engine/pytorch/sequential/cpp_extensions/type_list.h
new file mode 100644
index 0000000000..5023f1dae4
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/type_list.h
@@ -0,0 +1,102 @@
+#include <cstddef>
+#include <type_traits>
+
+template <typename... Ts> struct type_list;
+
+template <typename TL> struct type_list_front;
+template <typename TL> struct type_list_back;
+template <typename TL> struct type_list_reverse_list;
+template <typename TL, size_t I> struct type_list_index;
+template <typename TL1, typename TL2> struct type_list_cat_list;
+template <typename TL, size_t N = 1> struct type_list_pop_front_list;
+template <typename TL, size_t N = 1> struct type_list_pop_back_list;
+
+template <typename First, typename... Ts>
+struct type_list_front<type_list<First, Ts...>> {
+  using type = First;
+};
+
+template <typename First, typename... Ts>
+struct type_list_pop_front_list<type_list<First, Ts...>, 0> {
+  using type = type_list<First, Ts...>;
+};
+
+template <typename First, typename... Ts, size_t N>
+struct type_list_pop_front_list<type_list<First, Ts...>, N> {
+  using type = typename type_list_pop_front_list<type_list<Ts...>, N - 1>::type;
+};
+
+template <typename... Ts, size_t I>
+struct type_list_index<type_list<Ts...>, I> {
+private:
+  using stripped = typename type_list_pop_front_list<type_list<Ts...>, I>::type;
+
+public:
+  using type = typename type_list_front<stripped>::type;
+};
+
+template <typename... Ts1, typename... Ts2>
+struct type_list_cat_list<type_list<Ts1...>, type_list<Ts2...>> {
+  using type = type_list<Ts1..., Ts2...>;
+};
+
+template <typename First, typename... Ts>
+struct type_list_reverse_list<type_list<First, Ts...>> {
+private:
+  using ts_reversed = typename type_list_reverse_list<type_list<Ts...>>::type;
+  using back_list = type_list<First>;
+
+public:
+  using type = typename type_list_cat_list<ts_reversed, back_list>::type;
+};
+template <> struct type_list_reverse_list<type_list<>> {
+  using type = type_list<>;
+};
+
+template <typename... Ts> struct type_list_back<type_list<Ts...>> {
+private:
+  using reversed = typename type_list_reverse_list<type_list<Ts...>>::type;
+
+public:
+  using type = typename type_list_front<reversed>::type;
+};
+
+template <typename... Ts, size_t N>
+struct type_list_pop_back_list<type_list<Ts...>, N> {
+private:
+  using reversed = typename type_list_reverse_list<type_list<Ts...>>::type;
+  using stripped = typename type_list_pop_front_list<reversed, N>::type;
+
+public:
+  using type = typename type_list_reverse_list<stripped>::type;
+};
+
+template <typename TL>
+using type_list_front_t = typename type_list_front<TL>::type;
+template <typename TL>
+using type_list_back_t = typename type_list_back<TL>::type;
+template <typename TL>
+using type_list_reverse_list_t = typename type_list_reverse_list<TL>::type;
+template <typename TL, size_t I>
+using type_list_index_t = typename type_list_index<TL, I>::type;
+template <typename TL1, typename TL2>
+using type_list_cat_list_t = typename type_list_cat_list<TL1, TL2>::type;
+template <typename TL, size_t N = 1>
+using type_list_pop_front_list_t =
+    typename type_list_pop_front_list<TL, N>::type;
+template <typename TL, size_t N = 1>
+using type_list_pop_back_list_t = typename type_list_pop_back_list<TL, N>::type;
+
+template <typename... Ts> struct type_list {
+  using front = type_list<type_list_front_t<type_list>>;
+  using front_t = type_list_index_t<front, 0>;
+
+  using back = type_list<type_list_back_t<type_list>>;
+  using back_t = type_list_index_t<back, 0>;
+
+  template <size_t N = 1>
+  using pop_front = type_list_pop_front_list_t<type_list, N>;
+
+  template <size_t N = 1>
+  using pop_back = type_list_pop_back_list_t<type_list, N>;
+};

From 49b3e1394225e8658e3a369c502ef8b785a3946b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 17:39:07 +0200
Subject: [PATCH 012/535] fix missing brace

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp            | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index bebfa01a38..469cec755b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -5,7 +5,6 @@
  * See LICENSE for license information.
  ************************************************************************/
 
-#include "type_list.h"
 #include <ATen/ATen.h>
 #include <ATen/Dispatch.h>
 #include <ATen/cuda/CUDAContext.h>
@@ -35,6 +34,8 @@
 #include <transformer_engine/transpose.h>
 #include <type_traits>
 
+#include "type_list.h"
+
 namespace py = pybind11;
 
 struct Tensor {
@@ -50,7 +51,8 @@ struct Tensor {
 
   Tensor(NVTEDType dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
          at::Tensor scale_inv) {
-    NVTEShape shape{(static_cast<size_t*>(data.sizes().data()), data.sizes().size()};
+    NVTEShape shape{static_cast<size_t *>(data.sizes().data()),
+                    data.sizes().size()};
     impl = nvte_create_tensor(getDataPtr(data), shape, dtype, getDataPtr(amax),
                               getDataPtr(scale), getDataPtr(scale_inv));
   }

From 11464306fb8db525e5539bfc2990c364385efd98 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 19:45:33 +0200
Subject: [PATCH 013/535] fix templates

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/pybind.cpp      | 31 +++----
 .../sequential/cpp_extensions/type_list.h     | 80 ++++++++++++++++++-
 2 files changed, 96 insertions(+), 15 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 469cec755b..743ab75571 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -51,8 +51,7 @@ struct Tensor {
 
   Tensor(NVTEDType dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
          at::Tensor scale_inv) {
-    NVTEShape shape{static_cast<size_t *>(data.sizes().data()),
-                    data.sizes().size()};
+    NVTEShape shape{(size_t *)(data.sizes().data()), data.sizes().size()};
     impl = nvte_create_tensor(getDataPtr(data), shape, dtype, getDataPtr(amax),
                               getDataPtr(scale), getDataPtr(scale_inv));
   }
@@ -95,22 +94,26 @@ template <typename T> decltype(auto) unwrap_arg(T &&arg) {
   }
 }
 
-template <typename LastGetterT, typename Ret, typename... Args,
-          typename... ArgsStripped>
-constexpr auto _wrap_no_last(Ret(func)(Args...), type_list<ArgsStripped...>,
-                             LastGetterT last_func) noexcept {
-  return [func, last_func](wrapped_arg_t<ArgsStripped>... args) -> Ret {
-    return func(unwrap_arg(args)..., last_func());
+template <typename Ret, typename... PrefixArgs, typename... SuffixArgs,
+          typename... Args>
+constexpr auto
+remove_cuda_stream_arg_helper(Ret(func)(Args...), type_list<PrefixArgs...>,
+                              type_list<SuffixArgs...>) noexcept {
+  return [func](wrapped_arg_t<PrefixArgs>... prefixArgs,
+                wrapped_arg_t<SuffixArgs>... suffixArgs) -> Ret {
+    return func(unwrap_arg(prefixArgs)..., at::cuda::getCurrentCUDAStream(),
+                unwrap_arg(suffixArgs)...);
   };
 }
 
 template <typename Ret, typename... Args>
 constexpr auto wrap(Ret(func)(Args...)) noexcept {
-  using LastArg = typename type_list<Args...>::back_t;
-  if constexpr (std::is_same_v<LastArg, cudaStream_t>) {
-    using stripped = typename type_list<Args...>::template pop_back<>;
-    return _wrap_no_last<>(func, stripped(),
-                           []() { return at::cuda::getCurrentCUDAStream(); });
+  using tl = type_list<Args...>;
+  if constexpr (tl::template contains<cudaStream_t>) {
+    constexpr size_t stream_arg_idx = tl::template find<cudaStream_t>;
+    using prefix = tl::template pop_back<tl::size - stream_arg_idx>;
+    using suffix = tl::template pop_front<stream_arg_idx + 1>;
+    return remove_cuda_stream_arg_helper(func, prefix(), suffix());
   } else {
     return [func](wrapped_arg_t<Args>... args) -> Ret {
       return func(unwrap_arg(args)...);
@@ -138,7 +141,7 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("nvte_fused_attn_bwd_kvpacked", wrap(nvte_fused_attn_bwd_kvpacked));
   m.def("nvte_cublas_gemm", wrap(nvte_cublas_gemm));
   m.def("nvte_layernorm_fwd", wrap(nvte_layernorm_fwd));
-  m.def("nvte_layernorm1p_fwd", wrap(nvte_layernorm1p_fwd));
+  m.def("nvte_layernorm1p_fwd", wrap());
   m.def("nvte_layernorm_bwd", wrap(nvte_layernorm_bwd));
   m.def("nvte_layernorm1p_bwd", wrap(nvte_layernorm1p_bwd));
   m.def("nvte_rmsnorm_fwd", wrap(nvte_rmsnorm_fwd));
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/type_list.h b/transformer_engine/pytorch/sequential/cpp_extensions/type_list.h
index 5023f1dae4..7b5459761d 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/type_list.h
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/type_list.h
@@ -1,4 +1,5 @@
 #include <cstddef>
+#include <initializer_list>
 #include <type_traits>
 
 template <typename... Ts> struct type_list;
@@ -10,6 +11,11 @@ template <typename TL, size_t I> struct type_list_index;
 template <typename TL1, typename TL2> struct type_list_cat_list;
 template <typename TL, size_t N = 1> struct type_list_pop_front_list;
 template <typename TL, size_t N = 1> struct type_list_pop_back_list;
+template <typename TL, typename T> struct type_list_contains;
+template <typename TL, template <typename> typename Pred> struct type_list_any;
+template <typename TL, typename T> struct type_list_find;
+template <typename TL, template <typename> typename Pred>
+struct type_list_first;
 
 template <typename First, typename... Ts>
 struct type_list_front<type_list<First, Ts...>> {
@@ -20,7 +26,9 @@ template <typename First, typename... Ts>
 struct type_list_pop_front_list<type_list<First, Ts...>, 0> {
   using type = type_list<First, Ts...>;
 };
-
+template <> struct type_list_pop_front_list<type_list<>, 0> {
+  using type = type_list<>;
+};
 template <typename First, typename... Ts, size_t N>
 struct type_list_pop_front_list<type_list<First, Ts...>, N> {
   using type = typename type_list_pop_front_list<type_list<Ts...>, N - 1>::type;
@@ -71,6 +79,49 @@ struct type_list_pop_back_list<type_list<Ts...>, N> {
   using type = typename type_list_reverse_list<stripped>::type;
 };
 
+template <typename... Ts, template <typename> typename Pred>
+struct type_list_any<type_list<Ts...>, Pred> {
+  static constexpr bool value = (Pred<Ts>::value || ...);
+};
+
+template <typename... Ts, template <typename> typename Pred>
+struct type_list_first<type_list<Ts...>, Pred> {
+private:
+  static constexpr bool values[] = {Pred<Ts>::value...};
+
+public:
+  static constexpr size_t value = []() {
+    for (size_t i = 0; i < sizeof(values) / sizeof(bool); ++i) {
+      if (values[i]) {
+        return i;
+      }
+    }
+    return sizeof(values) / sizeof(bool);
+  }();
+};
+
+template <typename... Ts, typename T>
+struct type_list_contains<type_list<Ts...>, T> {
+private:
+  template <typename U> struct pred {
+    static constexpr bool value = std::is_same_v<T, U>;
+  };
+
+public:
+  static constexpr bool value = type_list_any<type_list<Ts...>, pred>::value;
+};
+
+template <typename... Ts, typename T>
+struct type_list_find<type_list<Ts...>, T> {
+  template <typename U> struct pred {
+    static constexpr bool value = std::is_same_v<T, U>;
+  };
+
+public:
+  static constexpr size_t value =
+      type_list_first<type_list<Ts...>, pred>::value;
+};
+
 template <typename TL>
 using type_list_front_t = typename type_list_front<TL>::type;
 template <typename TL>
@@ -86,6 +137,14 @@ using type_list_pop_front_list_t =
     typename type_list_pop_front_list<TL, N>::type;
 template <typename TL, size_t N = 1>
 using type_list_pop_back_list_t = typename type_list_pop_back_list<TL, N>::type;
+template <typename TL, typename T>
+constexpr bool type_list_contains_v = type_list_contains<TL, T>::value;
+template <typename TL, template <typename> typename Pred>
+constexpr bool type_list_any_v = type_list_any<TL, Pred>::value;
+template <typename TL, typename T>
+constexpr size_t type_list_find_v = type_list_find<TL, T>::value;
+template <typename TL, template <typename> typename Pred>
+constexpr size_t type_list_first_v = type_list_first<TL, Pred>::value;
 
 template <typename... Ts> struct type_list {
   using front = type_list<type_list_front_t<type_list>>;
@@ -94,9 +153,28 @@ template <typename... Ts> struct type_list {
   using back = type_list<type_list_back_t<type_list>>;
   using back_t = type_list_index_t<back, 0>;
 
+  using reverse = type_list_reverse_list_t<type_list>;
+
+  template <size_t I> using get = type_list_index_t<type_list, I>;
+
   template <size_t N = 1>
   using pop_front = type_list_pop_front_list_t<type_list, N>;
 
   template <size_t N = 1>
   using pop_back = type_list_pop_back_list_t<type_list, N>;
+
+  template <typename T>
+  static constexpr bool contains = type_list_contains_v<type_list, T>;
+
+  template <template <typename> typename Pred>
+  static constexpr bool any = type_list_any_v<type_list, Pred>;
+
+  template <typename T>
+  static constexpr size_t find = type_list_find_v<type_list, T>;
+
+  template <typename T, template <typename> typename Pred>
+  static constexpr size_t first = type_list_first_v<type_list, Pred>;
+
+  static constexpr size_t size = sizeof...(Ts);
 };
+template <> struct type_list<> {};

From e01500209fafe7825e7ad6a5c478138b12cbc96e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 20:01:18 +0200
Subject: [PATCH 014/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp            | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 743ab75571..15027cf07f 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -111,8 +111,8 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
   using tl = type_list<Args...>;
   if constexpr (tl::template contains<cudaStream_t>) {
     constexpr size_t stream_arg_idx = tl::template find<cudaStream_t>;
-    using prefix = tl::template pop_back<tl::size - stream_arg_idx>;
-    using suffix = tl::template pop_front<stream_arg_idx + 1>;
+    using prefix = typename tl::template pop_back<tl::size - stream_arg_idx>;
+    using suffix = typename tl::template pop_front<stream_arg_idx + 1>;
     return remove_cuda_stream_arg_helper(func, prefix(), suffix());
   } else {
     return [func](wrapped_arg_t<Args>... args) -> Ret {
@@ -141,7 +141,7 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("nvte_fused_attn_bwd_kvpacked", wrap(nvte_fused_attn_bwd_kvpacked));
   m.def("nvte_cublas_gemm", wrap(nvte_cublas_gemm));
   m.def("nvte_layernorm_fwd", wrap(nvte_layernorm_fwd));
-  m.def("nvte_layernorm1p_fwd", wrap());
+  m.def("nvte_layernorm1p_fwd", wrap(nvte_layernorm1p_fwd));
   m.def("nvte_layernorm_bwd", wrap(nvte_layernorm_bwd));
   m.def("nvte_layernorm1p_bwd", wrap(nvte_layernorm1p_bwd));
   m.def("nvte_rmsnorm_fwd", wrap(nvte_rmsnorm_fwd));

From ed89d0b577abdcb5dbd0e8f6e979a178aebc84ca Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 20:12:44 +0200
Subject: [PATCH 015/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp | 1 -
 1 file changed, 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 15027cf07f..c4bd3ea3ff 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -172,7 +172,6 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("nvte_fp8_transpose_dbias", wrap(nvte_fp8_transpose_dbias));
   m.def("nvte_cast_transpose_dbias_dgelu",
         wrap(nvte_cast_transpose_dbias_dgelu));
-  m.def("nvte_multi_cast_transpose", wrap(nvte_multi_cast_transpose));
   m.def("nvte_dgeglu_cast_transpose", wrap(nvte_dgeglu_cast_transpose));
 
   py::enum_<NVTEDType>(m, "NVTEDType")

From 7459d418ad89dcae5ef7c46b29935163dddf9127 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 20:25:54 +0200
Subject: [PATCH 016/535] fix name clashing

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py                                      |   2 +-
 .../sequential/cpp_extensions/nvte.pyi        |  73 ++++++++
 .../sequential/cpp_extensions/pybind.cpp      | 161 +++++++++---------
 3 files changed, 154 insertions(+), 82 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/nvte.pyi

diff --git a/setup.py b/setup.py
index bd4d6ce645..3724a870fd 100644
--- a/setup.py
+++ b/setup.py
@@ -593,7 +593,7 @@ def setup_sequential_extension() -> setuptools.Extension:
     include_dirs = [str(path) for path in include_dirs]
     from torch.utils.cpp_extension import CUDAExtension
     return CUDAExtension(
-        name="transformer_engine_cuda",
+        name="nvte",
         sources=sources,
         include_dirs=include_dirs,
         extra_compile_args={
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/nvte.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/nvte.pyi
new file mode 100644
index 0000000000..08ebeed73b
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/nvte.pyi
@@ -0,0 +1,73 @@
+import torch
+from enum import Enum
+
+class QKV_Layout(Enum):
+    NVTE_NOT_INTERLEAVED = 0
+    NVTE_QKV_INTERLEAVED = 1
+    NVTE_KV_INTERLEAVED = 2
+
+class Bias_Type(Enum):
+    NVTE_NO_BIAS = 0
+    NVTE_PRE_SCALE_BIAS = 1
+    NVTE_POST_SCALE_BIAS = 2
+
+class Mask_Type(Enum):
+    NVTE_NO_MASK = 0
+    NVTE_PADDING_MASK = 1
+    NVTE_CAUSAL_MASK = 2
+
+class Fused_Attn_Backend(Enum):
+    NVTE_No_Backend = -1
+    NVTE_F16_max512_seqlen = 0
+    NVTE_F16_arbitrary_seqlen = 1
+    NVTE_FP8 = 2
+
+class DType(Enum):
+    kNVTEByte = 0
+    kNVTEInt32 = 1
+    kNVTEInt64 = 2
+    kNVTEFloat32 = 3
+    kNVTEFloat16 = 4
+    kNVTEBFloat16 = 5
+    kNVTEFloat8E4M3 = 6
+    kNVTEFloat8E5M2 = 7
+
+class Tensor:
+    def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
+
+def gelu(input: Tensor, output: Tensor) -> None: ...
+def dgelu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
+def geglu(input: Tensor, output: Tensor) -> None: ...
+def dgeglu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
+def relu(input: Tensor, output: Tensor) -> None: ...
+def drelu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
+def swiglu(input: Tensor, output: Tensor) -> None: ...
+def dswiglu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
+def reglu(input: Tensor, output: Tensor) -> None: ...
+def dreglu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
+def fp8_quantize(input: Tensor, output: Tensor) -> None: ...
+def fp8_dequantize(input: Tensor, output: Tensor) -> None: ...
+def get_fused_attn_backend(q_dtype: DType, kv_dtype: DType, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, dropout: float, max_seqlen_q: int, max_seqlen_kv: int, head_dim: int) -> Fused_Attn_Backend: ...
+def fused_attn_fwd_qkvpacked(QKV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: list[Tensor], cu_seqlens: Tensor, rng_state: Tensor, max_seqlen: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, workspace: Tensor) -> None: ...
+def fused_attn_bwd_qkvpacked(QKV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: list[Tensor], dQKV: Tensor, dBias: Tensor, cu_seqlens: Tensor, max_seqlen: int, attn_scale: float, dropout: float, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, workspace: Tensor) -> None: ...
+def fused_attn_fwd_kvpacked(Q: Tensor, KV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: list[Tensor], cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, rng_state: Tensor, max_seqlen_q: int, max_seqlen_kv: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, workspace: Tensor) -> None: ...
+def fused_attn_bwd_kvpacked(Q: Tensor, KV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: list[Tensor], dQ: Tensor, dKV: Tensor, dBias: Tensor, cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, max_seqlen_q: int, max_seqlen_kv: int, attn_scale: float, dropout: float, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, workspace: Tensor) -> None: ...
+def cublas_gemm(A: Tensor, B: Tensor, D: Tensor, bias: Tensor, pre_gelu_out: Tensor, transa: bool, transb: bool, grad: bool, workspace: Tensor, accumulate: bool, use_split_accumulator: bool, math_sm_count: int) -> None: ...
+def layernorm_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def layernorm1p_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def layernorm_bwd(dz: Tensor, x: Tensor, mu: Tensor, rsigma: Tensor, gamma: Tensor, dx: Tensor, dgamma: Tensor, dbeta: Tensor, dgamma_part: Tensor, dbeta_part: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def layernorm1p_bwd(dz: Tensor, x: Tensor, mu: Tensor, rsigma: Tensor, gamma: Tensor, dx: Tensor, dgamma: Tensor, dbeta: Tensor, dgamma_part: Tensor, dbeta_part: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def rmsnorm_fwd(x: Tensor, gamma: Tensor, epsilon: float, z: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def rmsnorm_bwd(dz: Tensor, x: Tensor, rsigma: Tensor, gamma: Tensor, dx: Tensor, dgamma: Tensor, dgamma_part: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def scaled_softmax_forward(input: Tensor, softmax_results: Tensor, scale_factor: float) -> None: ...
+def scaled_softmax_backward(incoming_grads: Tensor, softmax_results: Tensor, output_grads: Tensor, scale_factor: float) -> None: ...
+def scaled_masked_softmax_forward(input: Tensor, mask: Tensor, softmax_results: Tensor, scale_factor: float) -> None: ...
+def scaled_masked_softmax_backward(incoming_grads: Tensor, softmax_results: Tensor, output_grads: Tensor, scale_factor: float) -> None: ...
+def scaled_upper_triang_masked_softmax_forward(input: Tensor, softmax_results: Tensor, scale_factor: float) -> None: ...
+def scaled_upper_triang_masked_softmax_backward(incoming_grads: Tensor, softmax_results: Tensor, output_grads: Tensor, scale_factor: float) -> None: ...
+def cast_transpose(input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
+def transpose(input: Tensor, transposed_output: Tensor) -> None: ...
+def cast_transpose_dbias(input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
+def fp8_transpose_dbias(input: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
+def cast_transpose_dbias_dgelu(input: Tensor, gelu_input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: 2, workspace: Tensor) -> None: ...
+def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
\ No newline at end of file
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index c4bd3ea3ff..db9b8bd376 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -122,95 +122,94 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
 }
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
-  m.def("nvte_gelu", wrap(nvte_gelu));
-  m.def("nvte_dgelu", wrap(nvte_dgelu));
-  m.def("nvte_geglu", wrap(nvte_geglu));
-  m.def("nvte_dgeglu", wrap(nvte_dgeglu));
-  m.def("nvte_relu", wrap(nvte_relu));
-  m.def("nvte_drelu", wrap(nvte_drelu));
-  m.def("nvte_swiglu", wrap(nvte_swiglu));
-  m.def("nvte_dswiglu", wrap(nvte_dswiglu));
-  m.def("nvte_reglu", wrap(nvte_reglu));
-  m.def("nvte_dreglu", wrap(nvte_dreglu));
-  m.def("nvte_fp8_quantize", wrap(nvte_fp8_quantize));
-  m.def("nvte_fp8_dequantize", wrap(nvte_fp8_dequantize));
-  m.def("nvte_get_fused_attn_backend", wrap(nvte_get_fused_attn_backend));
-  m.def("nvte_fused_attn_fwd_qkvpacked", wrap(nvte_fused_attn_fwd_qkvpacked));
-  m.def("nvte_fused_attn_bwd_qkvpacked", wrap(nvte_fused_attn_bwd_qkvpacked));
-  m.def("nvte_fused_attn_fwd_kvpacked", wrap(nvte_fused_attn_fwd_kvpacked));
-  m.def("nvte_fused_attn_bwd_kvpacked", wrap(nvte_fused_attn_bwd_kvpacked));
-  m.def("nvte_cublas_gemm", wrap(nvte_cublas_gemm));
-  m.def("nvte_layernorm_fwd", wrap(nvte_layernorm_fwd));
-  m.def("nvte_layernorm1p_fwd", wrap(nvte_layernorm1p_fwd));
-  m.def("nvte_layernorm_bwd", wrap(nvte_layernorm_bwd));
-  m.def("nvte_layernorm1p_bwd", wrap(nvte_layernorm1p_bwd));
-  m.def("nvte_rmsnorm_fwd", wrap(nvte_rmsnorm_fwd));
-  m.def("nvte_rmsnorm_bwd", wrap(nvte_rmsnorm_bwd));
-  m.def("nvte_scaled_softmax_forward", wrap(nvte_scaled_softmax_forward));
-  m.def("nvte_scaled_softmax_backward", wrap(nvte_scaled_softmax_backward));
-  m.def("nvte_scaled_masked_softmax_forward",
+  m.def("gelu", wrap(nvte_gelu));
+  m.def("dgelu", wrap(nvte_dgelu));
+  m.def("geglu", wrap(nvte_geglu));
+  m.def("dgeglu", wrap(nvte_dgeglu));
+  m.def("relu", wrap(nvte_relu));
+  m.def("drelu", wrap(nvte_drelu));
+  m.def("swiglu", wrap(nvte_swiglu));
+  m.def("dswiglu", wrap(nvte_dswiglu));
+  m.def("reglu", wrap(nvte_reglu));
+  m.def("dreglu", wrap(nvte_dreglu));
+  m.def("fp8_quantize", wrap(nvte_fp8_quantize));
+  m.def("fp8_dequantize", wrap(nvte_fp8_dequantize));
+  m.def("get_fused_attn_backend", wrap(nvte_get_fused_attn_backend));
+  m.def("fused_attn_fwd_qkvpacked", wrap(nvte_fused_attn_fwd_qkvpacked));
+  m.def("fused_attn_bwd_qkvpacked", wrap(nvte_fused_attn_bwd_qkvpacked));
+  m.def("fused_attn_fwd_kvpacked", wrap(nvte_fused_attn_fwd_kvpacked));
+  m.def("fused_attn_bwd_kvpacked", wrap(nvte_fused_attn_bwd_kvpacked));
+  m.def("cublas_gemm", wrap(nvte_cublas_gemm));
+  m.def("layernorm_fwd", wrap(nvte_layernorm_fwd));
+  m.def("layernorm1p_fwd", wrap(nvte_layernorm1p_fwd));
+  m.def("layernorm_bwd", wrap(nvte_layernorm_bwd));
+  m.def("layernorm1p_bwd", wrap(nvte_layernorm1p_bwd));
+  m.def("rmsnorm_fwd", wrap(nvte_rmsnorm_fwd));
+  m.def("rmsnorm_bwd", wrap(nvte_rmsnorm_bwd));
+  m.def("scaled_softmax_forward", wrap(nvte_scaled_softmax_forward));
+  m.def("scaled_softmax_backward", wrap(nvte_scaled_softmax_backward));
+  m.def("scaled_masked_softmax_forward",
         wrap(nvte_scaled_masked_softmax_forward));
-  m.def("nvte_scaled_masked_softmax_backward",
+  m.def("scaled_masked_softmax_backward",
         wrap(nvte_scaled_masked_softmax_backward));
-  m.def("nvte_scaled_upper_triang_masked_softmax_forward",
+  m.def("scaled_upper_triang_masked_softmax_forward",
         wrap(nvte_scaled_upper_triang_masked_softmax_forward));
-  m.def("nvte_scaled_upper_triang_masked_softmax_backward",
+  m.def("scaled_upper_triang_masked_softmax_backward",
         wrap(nvte_scaled_upper_triang_masked_softmax_backward));
-  m.def("nvte_create_tensor", wrap(nvte_create_tensor));
-  m.def("nvte_destroy_tensor", wrap(nvte_destroy_tensor));
-  m.def("nvte_tensor_type", wrap(nvte_tensor_type));
-  m.def("nvte_tensor_shape", wrap(nvte_tensor_shape));
-  m.def("nvte_tensor_data", wrap(nvte_tensor_data));
-  m.def("nvte_tensor_amax", wrap(nvte_tensor_amax));
-  m.def("nvte_tensor_scale", wrap(nvte_tensor_scale));
-  m.def("nvte_tensor_scale_inv", wrap(nvte_tensor_scale_inv));
-  m.def("nvte_tensor_pack_create", wrap(nvte_tensor_pack_create));
-  m.def("nvte_tensor_pack_destroy", wrap(nvte_tensor_pack_destroy));
-  m.def("nvte_cast_transpose", wrap(nvte_cast_transpose));
-  m.def("nvte_transpose", wrap(nvte_transpose));
-  m.def("nvte_cast_transpose_dbias", wrap(nvte_cast_transpose_dbias));
-  m.def("nvte_fp8_transpose_dbias", wrap(nvte_fp8_transpose_dbias));
-  m.def("nvte_cast_transpose_dbias_dgelu",
-        wrap(nvte_cast_transpose_dbias_dgelu));
-  m.def("nvte_dgeglu_cast_transpose", wrap(nvte_dgeglu_cast_transpose));
-
-  py::enum_<NVTEDType>(m, "NVTEDType")
-      .value("kNVTEByte", kNVTEByte)
-      .value("kNVTEInt32", kNVTEInt32)
-      .value("kNVTEInt64", kNVTEInt64)
-      .value("kNVTEFloat32", kNVTEFloat32)
-      .value("kNVTEFloat16", kNVTEFloat16)
-      .value("kNVTEBFloat16", kNVTEBFloat16)
-      .value("kNVTEFloat8E4M3", kNVTEFloat8E4M3)
-      .value("kNVTEFloat8E5M2", kNVTEFloat8E5M2);
-
-  py::enum_<NVTE_Fused_Attn_Backend>(m, "NVTE_Fused_Attn_Backend")
-      .value("NVTE_No_Backend", NVTE_No_Backend)
-      .value("NVTE_F16_max512_seqlen", NVTE_F16_max512_seqlen)
-      .value("NVTE_F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
-      .value("NVTE_FP8", NVTE_FP8);
-
-  py::enum_<NVTE_QKV_Layout>(m, "NVTE_QKV_Layout")
-      .value("NVTE_NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
-      .value("NVTE_QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
-      .value("NVTE_KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
-
-  py::enum_<NVTE_Bias_Type>(m, "NVTE_Bias_Type")
-      .value("NVTE_NO_BIAS", NVTE_NO_BIAS)
-      .value("NVTE_PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
-      .value("NVTE_POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
-
-  py::enum_<NVTE_Mask_Type>(m, "NVTE_Mask_Type")
-      .value("NVTE_NO_MASK", NVTE_NO_MASK)
-      .value("NVTE_PADDING_MASK", NVTE_PADDING_MASK)
-      .value("NVTE_CAUSAL_MASK", NVTE_CAUSAL_MASK);
-
-  py::class_<NVTEShape>(m, "NVTEShape")
+  m.def("create_tensor", wrap(nvte_create_tensor));
+  m.def("destroy_tensor", wrap(nvte_destroy_tensor));
+  m.def("tensor_type", wrap(nvte_tensor_type));
+  m.def("tensor_shape", wrap(nvte_tensor_shape));
+  m.def("tensor_data", wrap(nvte_tensor_data));
+  m.def("tensor_amax", wrap(nvte_tensor_amax));
+  m.def("tensor_scale", wrap(nvte_tensor_scale));
+  m.def("tensor_scale_inv", wrap(nvte_tensor_scale_inv));
+  m.def("tensor_pack_create", wrap(nvte_tensor_pack_create));
+  m.def("tensor_pack_destroy", wrap(nvte_tensor_pack_destroy));
+  m.def("cast_transpose", wrap(nvte_cast_transpose));
+  m.def("transpose", wrap(nvte_transpose));
+  m.def("cast_transpose_dbias", wrap(nvte_cast_transpose_dbias));
+  m.def("fp8_transpose_dbias", wrap(nvte_fp8_transpose_dbias));
+  m.def("cast_transpose_dbias_dgelu", wrap(nvte_cast_transpose_dbias_dgelu));
+  m.def("dgeglu_cast_transpose", wrap(nvte_dgeglu_cast_transpose));
+
+  py::enum_<NVTEDType>(m, "DType")
+      .value("Byte", kNVTEByte)
+      .value("Int32", kNVTEInt32)
+      .value("Int64", kNVTEInt64)
+      .value("Float32", kNVTEFloat32)
+      .value("Float16", kNVTEFloat16)
+      .value("BFloat16", kNVTEBFloat16)
+      .value("Float8E4M3", kNVTEFloat8E4M3)
+      .value("Float8E5M2", kNVTEFloat8E5M2);
+
+  py::enum_<NVTE_Fused_Attn_Backend>(m, "Fused_Attn_Backend")
+      .value("No_Backend", NVTE_No_Backend)
+      .value("F16_max512_seqlen", NVTE_F16_max512_seqlen)
+      .value("F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
+      .value("FP8", NVTE_FP8);
+
+  py::enum_<NVTE_QKV_Layout>(m, "QKV_Layout")
+      .value("NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
+      .value("QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
+      .value("KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
+
+  py::enum_<NVTE_Bias_Type>(m, "Bias_Type")
+      .value("NO_BIAS", NVTE_NO_BIAS)
+      .value("PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
+      .value("POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
+
+  py::enum_<NVTE_Mask_Type>(m, "Mask_Type")
+      .value("NO_MASK", NVTE_NO_MASK)
+      .value("PADDING_MASK", NVTE_PADDING_MASK)
+      .value("CAUSAL_MASK", NVTE_CAUSAL_MASK);
+
+  py::class_<NVTEShape>(m, "Shape")
       .def(py::init<>())
       .def_readwrite("data", &NVTEShape::data)
       .def_readwrite("ndim", &NVTEShape::ndim);
 
-  py::class_<Tensor>(m, "NVTETensor")
+  py::class_<Tensor>(m, "Tensor")
       .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
                     at::Tensor>());
 }

From 7049bc33551e0fa5a77a21d4aa0a904e7675e2f7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 20:42:40 +0200
Subject: [PATCH 017/535] add stubs

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py                                                  | 1 +
 .../sequential/cpp_extensions/{nvte.pyi => __init__.pyi}  | 8 ++++----
 .../pytorch/sequential/cpp_extensions/pybind.cpp          | 8 ++++----
 3 files changed, 9 insertions(+), 8 deletions(-)
 rename transformer_engine/pytorch/sequential/cpp_extensions/{nvte.pyi => __init__.pyi} (98%)

diff --git a/setup.py b/setup.py
index 3724a870fd..a0b8f5f8f0 100644
--- a/setup.py
+++ b/setup.py
@@ -600,6 +600,7 @@ def setup_sequential_extension() -> setuptools.Extension:
             "cxx": cxx_flags,
             "nvcc": nvcc_flags,
         },
+        package_data={"nvte": ["py.typed", src_dir / "__init__.pyi"]}
     )
 
 
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/nvte.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
similarity index 98%
rename from transformer_engine/pytorch/sequential/cpp_extensions/nvte.pyi
rename to transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 08ebeed73b..1ce3ed79d3 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/nvte.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -1,22 +1,22 @@
 import torch
 from enum import Enum
 
-class QKV_Layout(Enum):
+class QKVLayout(Enum):
     NVTE_NOT_INTERLEAVED = 0
     NVTE_QKV_INTERLEAVED = 1
     NVTE_KV_INTERLEAVED = 2
 
-class Bias_Type(Enum):
+class BiasType(Enum):
     NVTE_NO_BIAS = 0
     NVTE_PRE_SCALE_BIAS = 1
     NVTE_POST_SCALE_BIAS = 2
 
-class Mask_Type(Enum):
+class MaskType(Enum):
     NVTE_NO_MASK = 0
     NVTE_PADDING_MASK = 1
     NVTE_CAUSAL_MASK = 2
 
-class Fused_Attn_Backend(Enum):
+class FusedAttnBackend(Enum):
     NVTE_No_Backend = -1
     NVTE_F16_max512_seqlen = 0
     NVTE_F16_arbitrary_seqlen = 1
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index db9b8bd376..3a7ec2637c 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -183,23 +183,23 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
       .value("Float8E4M3", kNVTEFloat8E4M3)
       .value("Float8E5M2", kNVTEFloat8E5M2);
 
-  py::enum_<NVTE_Fused_Attn_Backend>(m, "Fused_Attn_Backend")
+  py::enum_<NVTE_Fused_Attn_Backend>(m, "FusedAttnBackend")
       .value("No_Backend", NVTE_No_Backend)
       .value("F16_max512_seqlen", NVTE_F16_max512_seqlen)
       .value("F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
       .value("FP8", NVTE_FP8);
 
-  py::enum_<NVTE_QKV_Layout>(m, "QKV_Layout")
+  py::enum_<NVTE_QKV_Layout>(m, "QKVLayout")
       .value("NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
       .value("QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
       .value("KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
 
-  py::enum_<NVTE_Bias_Type>(m, "Bias_Type")
+  py::enum_<NVTE_Bias_Type>(m, "BiasType")
       .value("NO_BIAS", NVTE_NO_BIAS)
       .value("PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
       .value("POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
 
-  py::enum_<NVTE_Mask_Type>(m, "Mask_Type")
+  py::enum_<NVTE_Mask_Type>(m, "MaskType")
       .value("NO_MASK", NVTE_NO_MASK)
       .value("PADDING_MASK", NVTE_PADDING_MASK)
       .value("CAUSAL_MASK", NVTE_CAUSAL_MASK);

From d028cbafa9b703e2f4039524115e2e3fd9391b0e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 20:44:05 +0200
Subject: [PATCH 018/535] fix underscores

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.pyi     | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 1ce3ed79d3..08e3f8287a 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -47,11 +47,11 @@ def reglu(input: Tensor, output: Tensor) -> None: ...
 def dreglu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
 def fp8_quantize(input: Tensor, output: Tensor) -> None: ...
 def fp8_dequantize(input: Tensor, output: Tensor) -> None: ...
-def get_fused_attn_backend(q_dtype: DType, kv_dtype: DType, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, dropout: float, max_seqlen_q: int, max_seqlen_kv: int, head_dim: int) -> Fused_Attn_Backend: ...
-def fused_attn_fwd_qkvpacked(QKV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: list[Tensor], cu_seqlens: Tensor, rng_state: Tensor, max_seqlen: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, workspace: Tensor) -> None: ...
-def fused_attn_bwd_qkvpacked(QKV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: list[Tensor], dQKV: Tensor, dBias: Tensor, cu_seqlens: Tensor, max_seqlen: int, attn_scale: float, dropout: float, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, workspace: Tensor) -> None: ...
-def fused_attn_fwd_kvpacked(Q: Tensor, KV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: list[Tensor], cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, rng_state: Tensor, max_seqlen_q: int, max_seqlen_kv: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, workspace: Tensor) -> None: ...
-def fused_attn_bwd_kvpacked(Q: Tensor, KV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: list[Tensor], dQ: Tensor, dKV: Tensor, dBias: Tensor, cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, max_seqlen_q: int, max_seqlen_kv: int, attn_scale: float, dropout: float, qkv_layout: QKV_Layout, bias_type: Bias_Type, attn_mask_type: Mask_Type, workspace: Tensor) -> None: ...
+def get_fused_attn_backend(q_dtype: DType, kv_dtype: DType, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, dropout: float, max_seqlen_q: int, max_seqlen_kv: int, head_dim: int) -> FusedAttnBackend: ...
+def fused_attn_fwd_qkvpacked(QKV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: list[Tensor], cu_seqlens: Tensor, rng_state: Tensor, max_seqlen: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_bwd_qkvpacked(QKV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: list[Tensor], dQKV: Tensor, dBias: Tensor, cu_seqlens: Tensor, max_seqlen: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_fwd_kvpacked(Q: Tensor, KV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: list[Tensor], cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, rng_state: Tensor, max_seqlen_q: int, max_seqlen_kv: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_bwd_kvpacked(Q: Tensor, KV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: list[Tensor], dQ: Tensor, dKV: Tensor, dBias: Tensor, cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, max_seqlen_q: int, max_seqlen_kv: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
 def cublas_gemm(A: Tensor, B: Tensor, D: Tensor, bias: Tensor, pre_gelu_out: Tensor, transa: bool, transb: bool, grad: bool, workspace: Tensor, accumulate: bool, use_split_accumulator: bool, math_sm_count: int) -> None: ...
 def layernorm_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
 def layernorm1p_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...

From eeff36d2489a887fc7ff9dd85bca012d3a9299de Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 20:58:32 +0200
Subject: [PATCH 019/535] just get rid of enums

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/pybind.cpp      | 31 -------------------
 1 file changed, 31 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 3a7ec2637c..27bbc7f0ae 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -173,37 +173,6 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("cast_transpose_dbias_dgelu", wrap(nvte_cast_transpose_dbias_dgelu));
   m.def("dgeglu_cast_transpose", wrap(nvte_dgeglu_cast_transpose));
 
-  py::enum_<NVTEDType>(m, "DType")
-      .value("Byte", kNVTEByte)
-      .value("Int32", kNVTEInt32)
-      .value("Int64", kNVTEInt64)
-      .value("Float32", kNVTEFloat32)
-      .value("Float16", kNVTEFloat16)
-      .value("BFloat16", kNVTEBFloat16)
-      .value("Float8E4M3", kNVTEFloat8E4M3)
-      .value("Float8E5M2", kNVTEFloat8E5M2);
-
-  py::enum_<NVTE_Fused_Attn_Backend>(m, "FusedAttnBackend")
-      .value("No_Backend", NVTE_No_Backend)
-      .value("F16_max512_seqlen", NVTE_F16_max512_seqlen)
-      .value("F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
-      .value("FP8", NVTE_FP8);
-
-  py::enum_<NVTE_QKV_Layout>(m, "QKVLayout")
-      .value("NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
-      .value("QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
-      .value("KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
-
-  py::enum_<NVTE_Bias_Type>(m, "BiasType")
-      .value("NO_BIAS", NVTE_NO_BIAS)
-      .value("PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
-      .value("POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
-
-  py::enum_<NVTE_Mask_Type>(m, "MaskType")
-      .value("NO_MASK", NVTE_NO_MASK)
-      .value("PADDING_MASK", NVTE_PADDING_MASK)
-      .value("CAUSAL_MASK", NVTE_CAUSAL_MASK);
-
   py::class_<NVTEShape>(m, "Shape")
       .def(py::init<>())
       .def_readwrite("data", &NVTEShape::data)

From 3da5639e9a414d16634eaf8f7049dc5eb4191cde Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 21:05:42 +0200
Subject: [PATCH 020/535] try fix stubs

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index a0b8f5f8f0..6d1c1b321b 100644
--- a/setup.py
+++ b/setup.py
@@ -600,7 +600,7 @@ def setup_sequential_extension() -> setuptools.Extension:
             "cxx": cxx_flags,
             "nvcc": nvcc_flags,
         },
-        package_data={"nvte": ["py.typed", src_dir / "__init__.pyi"]}
+        package_data={"nvte": ["py.typed", "transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi"]}
     )
 
 

From 02bc1b9e9cdfb2f0c9b530234bb6ec84fab8d4db Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 7 Aug 2023 21:20:45 +0200
Subject: [PATCH 021/535] f

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/setup.py b/setup.py
index 6d1c1b321b..52d59b1aaf 100644
--- a/setup.py
+++ b/setup.py
@@ -600,7 +600,7 @@ def setup_sequential_extension() -> setuptools.Extension:
             "cxx": cxx_flags,
             "nvcc": nvcc_flags,
         },
-        package_data={"nvte": ["py.typed", "transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi"]}
+        package_data={"nvte": ["py.typed", "*.pyi"]}
     )
 
 

From feeba7096372dc8bf00091feca297ea07d517244 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 12:16:23 +0200
Subject: [PATCH 022/535] fix error in type stubs

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.pyi              | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 08e3f8287a..cc89b3313a 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -69,5 +69,5 @@ def cast_transpose(input: Tensor, cast_output: Tensor, transposed_output: Tensor
 def transpose(input: Tensor, transposed_output: Tensor) -> None: ...
 def cast_transpose_dbias(input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
 def fp8_transpose_dbias(input: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
-def cast_transpose_dbias_dgelu(input: Tensor, gelu_input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: 2, workspace: Tensor) -> None: ...
+def cast_transpose_dbias_dgelu(input: Tensor, gelu_input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
 def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
\ No newline at end of file

From 216d63a8aebb28d1f7ad97c77cc0894044d3cf28 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 12:17:33 +0200
Subject: [PATCH 023/535] change extension name

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/setup.py b/setup.py
index 52d59b1aaf..2fb6d9c77f 100644
--- a/setup.py
+++ b/setup.py
@@ -593,14 +593,14 @@ def setup_sequential_extension() -> setuptools.Extension:
     include_dirs = [str(path) for path in include_dirs]
     from torch.utils.cpp_extension import CUDAExtension
     return CUDAExtension(
-        name="nvte",
+        name="transformer_engine_cuda",
         sources=sources,
         include_dirs=include_dirs,
         extra_compile_args={
             "cxx": cxx_flags,
             "nvcc": nvcc_flags,
         },
-        package_data={"nvte": ["py.typed", "*.pyi"]}
+        package_data={"transformer_engine_cuda": ["py.typed", "*.pyi"]}
     )
 
 

From 4b102cf8ce773b17ebfdd526c3c7e50a6bec24ce Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 12:33:23 +0200
Subject: [PATCH 024/535] don't expose shape

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp             | 5 -----
 1 file changed, 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 27bbc7f0ae..e3427fef62 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -173,11 +173,6 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("cast_transpose_dbias_dgelu", wrap(nvte_cast_transpose_dbias_dgelu));
   m.def("dgeglu_cast_transpose", wrap(nvte_dgeglu_cast_transpose));
 
-  py::class_<NVTEShape>(m, "Shape")
-      .def(py::init<>())
-      .def_readwrite("data", &NVTEShape::data)
-      .def_readwrite("ndim", &NVTEShape::ndim);
-
   py::class_<Tensor>(m, "Tensor")
       .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
                     at::Tensor>());

From 2166a8bdc615a5fdb055be5493765eab8046677a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 13:33:54 +0200
Subject: [PATCH 025/535] Fix pybind

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/pybind.cpp      | 49 +++++++++++++------
 1 file changed, 35 insertions(+), 14 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index e3427fef62..2e0c31486b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -122,6 +122,41 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
 }
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+  py::enum_<NVTEDType>(m, "DType", py::module_local())
+      .value("Byte", kNVTEByte)
+      .value("Int32", kNVTEInt32)
+      .value("Int64", kNVTEInt64)
+      .value("Float32", kNVTEFloat32)
+      .value("Float16", kNVTEFloat16)
+      .value("BFloat16", kNVTEBFloat16)
+      .value("Float8E4M3", kNVTEFloat8E4M3)
+      .value("Float8E5M2", kNVTEFloat8E5M2);
+
+  py::enum_<NVTE_Fused_Attn_Backend>(m, "FusedAttnBackend", py::module_local())
+      .value("No_Backend", NVTE_No_Backend)
+      .value("F16_max512_seqlen", NVTE_F16_max512_seqlen)
+      .value("F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
+      .value("FP8", NVTE_FP8);
+
+  py::enum_<NVTE_QKV_Layout>(m, "QKVLayout", py::module_local())
+      .value("NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
+      .value("QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
+      .value("KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
+
+  py::enum_<NVTE_Bias_Type>(m, "BiasType", py::module_local())
+      .value("NO_BIAS", NVTE_NO_BIAS)
+      .value("PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
+      .value("POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
+
+  py::enum_<NVTE_Mask_Type>(m, "MaskType", py::module_local())
+      .value("NO_MASK", NVTE_NO_MASK)
+      .value("PADDING_MASK", NVTE_PADDING_MASK)
+      .value("CAUSAL_MASK", NVTE_CAUSAL_MASK);
+
+  py::class_<Tensor>(m, "Tensor", py::module_local())
+      .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
+                    at::Tensor>());
+
   m.def("gelu", wrap(nvte_gelu));
   m.def("dgelu", wrap(nvte_dgelu));
   m.def("geglu", wrap(nvte_geglu));
@@ -156,24 +191,10 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
         wrap(nvte_scaled_upper_triang_masked_softmax_forward));
   m.def("scaled_upper_triang_masked_softmax_backward",
         wrap(nvte_scaled_upper_triang_masked_softmax_backward));
-  m.def("create_tensor", wrap(nvte_create_tensor));
-  m.def("destroy_tensor", wrap(nvte_destroy_tensor));
-  m.def("tensor_type", wrap(nvte_tensor_type));
-  m.def("tensor_shape", wrap(nvte_tensor_shape));
-  m.def("tensor_data", wrap(nvte_tensor_data));
-  m.def("tensor_amax", wrap(nvte_tensor_amax));
-  m.def("tensor_scale", wrap(nvte_tensor_scale));
-  m.def("tensor_scale_inv", wrap(nvte_tensor_scale_inv));
-  m.def("tensor_pack_create", wrap(nvte_tensor_pack_create));
-  m.def("tensor_pack_destroy", wrap(nvte_tensor_pack_destroy));
   m.def("cast_transpose", wrap(nvte_cast_transpose));
   m.def("transpose", wrap(nvte_transpose));
   m.def("cast_transpose_dbias", wrap(nvte_cast_transpose_dbias));
   m.def("fp8_transpose_dbias", wrap(nvte_fp8_transpose_dbias));
   m.def("cast_transpose_dbias_dgelu", wrap(nvte_cast_transpose_dbias_dgelu));
   m.def("dgeglu_cast_transpose", wrap(nvte_dgeglu_cast_transpose));
-
-  py::class_<Tensor>(m, "Tensor")
-      .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
-                    at::Tensor>());
 }

From ef2f411c8569defb6bd47367c85d31a4b8bfb609 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 15:03:17 +0200
Subject: [PATCH 026/535] add tensor refcount

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/pybind.cpp      | 23 +++++++++++++------
 1 file changed, 16 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 2e0c31486b..f811265d61 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -33,13 +33,17 @@
 #include <transformer_engine/transformer_engine.h>
 #include <transformer_engine/transpose.h>
 #include <type_traits>
+#include <memory>
 
 #include "type_list.h"
 
 namespace py = pybind11;
 
 struct Tensor {
-  NVTETensor impl;
+  static_assert(std::is_same_v<NVTETensor, void *>);
+  using deleter = void (*)(NVTETensor *);
+
+  std::shared_ptr<void, deleter> pimpl;
 
   static float *getDataPtr(at::Tensor t) {
     if (t.numel() > 0) {
@@ -50,12 +54,17 @@ struct Tensor {
   }
 
   Tensor(NVTEDType dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
-         at::Tensor scale_inv) {
-    NVTEShape shape{(size_t *)(data.sizes().data()), data.sizes().size()};
-    impl = nvte_create_tensor(getDataPtr(data), shape, dtype, getDataPtr(amax),
-                              getDataPtr(scale), getDataPtr(scale_inv));
+         at::Tensor scale_inv) : pimpl{
+          nvte_create_tensor(
+            getDataPtr(data),
+            NVTEShape{(size_t *)(data.sizes().data()), data.sizes().size()}, dtype, getDataPtr(amax),
+            getDataPtr(scale),
+            getDataPtr(scale_inv)
+          ),
+          [](NVTETensor *impl) { nvte_destroy_tensor(impl); }
+        }
+  {
   }
-  ~Tensor() { nvte_destroy_tensor(impl); }
 };
 
 struct TensorPack : NVTETensorPack {
@@ -85,7 +94,7 @@ template <typename T> using wrapped_arg_t = typename wrapped_arg<T>::type;
 
 template <typename T> decltype(auto) unwrap_arg(T &&arg) {
   if constexpr (std::is_same_v<std::decay_t<T>, wrapped_arg_t<NVTETensor>>) {
-    return arg.impl;
+    return (NVTETensor)arg.pimpl;
   } else if constexpr (std::is_same_v<std::decay_t<T>,
                                       wrapped_arg_t<NVTETensorPack>>) {
     return TensorPack(arg);

From 9e7ed5c8dc83969c21afd44872915fc81a07cf10 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 15:09:24 +0200
Subject: [PATCH 027/535] fix typing

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp             | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index f811265d61..b862c3ab8f 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -41,9 +41,8 @@ namespace py = pybind11;
 
 struct Tensor {
   static_assert(std::is_same_v<NVTETensor, void *>);
-  using deleter = void (*)(NVTETensor *);
 
-  std::shared_ptr<void, deleter> pimpl;
+  std::shared_ptr<void> pimpl;
 
   static float *getDataPtr(at::Tensor t) {
     if (t.numel() > 0) {
@@ -74,7 +73,7 @@ struct TensorPack : NVTETensorPack {
       throw std::runtime_error("TensorPack size exceeds MAX_SIZE");
     }
     for (size_t i = 0; i < size; ++i) {
-      tensors[i] = tensors_[i].impl;
+      tensors[i] = *tensors_[i].pimpl;
     }
     nvte_tensor_pack_create(this);
   }

From 06e20772105c6c78a1202f5d4d87d32aa7f09e46 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 15:13:39 +0200
Subject: [PATCH 028/535] fix type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index b862c3ab8f..c8b13438b0 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -60,7 +60,7 @@ struct Tensor {
             getDataPtr(scale),
             getDataPtr(scale_inv)
           ),
-          [](NVTETensor *impl) { nvte_destroy_tensor(impl); }
+          [](NVTETensor impl) { nvte_destroy_tensor(impl); }
         }
   {
   }

From 8d1f13d1fe7b278a55c2ac9076d1d6975d361b6a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 15:18:03 +0200
Subject: [PATCH 029/535] add missing cast

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index c8b13438b0..c78b7a5cad 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -93,7 +93,7 @@ template <typename T> using wrapped_arg_t = typename wrapped_arg<T>::type;
 
 template <typename T> decltype(auto) unwrap_arg(T &&arg) {
   if constexpr (std::is_same_v<std::decay_t<T>, wrapped_arg_t<NVTETensor>>) {
-    return (NVTETensor)arg.pimpl;
+    return (NVTETensor)arg.pimpl.get();
   } else if constexpr (std::is_same_v<std::decay_t<T>,
                                       wrapped_arg_t<NVTETensorPack>>) {
     return TensorPack(arg);

From a7f5742786adf80187ae896b5305436feeac1c1a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 15:23:40 +0200
Subject: [PATCH 030/535] fix missing get

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index c78b7a5cad..77d95c859b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -73,7 +73,7 @@ struct TensorPack : NVTETensorPack {
       throw std::runtime_error("TensorPack size exceeds MAX_SIZE");
     }
     for (size_t i = 0; i < size; ++i) {
-      tensors[i] = *tensors_[i].pimpl;
+      tensors[i] = (NVTETensor)tensors_[i].pimpl.get();
     }
     nvte_tensor_pack_create(this);
   }

From ebf3e330f023aec57cce32c3a5d480a8a485b955 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 15:40:47 +0200
Subject: [PATCH 031/535] keep torch tensors alive in nvtetensor

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp | 16 ++++++++++++++--
 1 file changed, 14 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 77d95c859b..814e0a7a00 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -43,6 +43,10 @@ struct Tensor {
   static_assert(std::is_same_v<NVTETensor, void *>);
 
   std::shared_ptr<void> pimpl;
+  at::Tensor data;
+  at::Tensor amax;
+  at::Tensor scale;
+  at::Tensor scale_inv;
 
   static float *getDataPtr(at::Tensor t) {
     if (t.numel() > 0) {
@@ -61,7 +65,11 @@ struct Tensor {
             getDataPtr(scale_inv)
           ),
           [](NVTETensor impl) { nvte_destroy_tensor(impl); }
-        }
+        },
+        data{data},
+        amax{amax},
+        scale{scale},
+        scale_inv{scale_inv}
   {
   }
 };
@@ -163,7 +171,11 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
 
   py::class_<Tensor>(m, "Tensor", py::module_local())
       .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
-                    at::Tensor>());
+                    at::Tensor>())
+      .def_readonly("data", &Tensor::data)
+      .def_readonly("amax", &Tensor::amax)
+      .def_readonly("scale", &Tensor::scale)
+      .def_readonly("scale_inv", &Tensor::scale_inv);
 
   m.def("gelu", wrap(nvte_gelu));
   m.def("dgelu", wrap(nvte_dgelu));

From 6c1c852349a48db01cd6cf2c14ed195fe76e4a0f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 16:25:12 +0200
Subject: [PATCH 032/535] andd dtype and shape to nvtetensor

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp         | 9 ++++++++-
 1 file changed, 8 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 814e0a7a00..520cf30068 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -42,6 +42,8 @@ namespace py = pybind11;
 struct Tensor {
   static_assert(std::is_same_v<NVTETensor, void *>);
 
+  NVTEDType dtype;
+  std::vector<int> shape;
   std::shared_ptr<void> pimpl;
   at::Tensor data;
   at::Tensor amax;
@@ -57,7 +59,10 @@ struct Tensor {
   }
 
   Tensor(NVTEDType dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
-         at::Tensor scale_inv) : pimpl{
+         at::Tensor scale_inv) :
+         dtype{dtype},
+         shape{data.sizes().begin(), data.sizes().end()},
+         pimpl{
           nvte_create_tensor(
             getDataPtr(data),
             NVTEShape{(size_t *)(data.sizes().data()), data.sizes().size()}, dtype, getDataPtr(amax),
@@ -172,6 +177,8 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   py::class_<Tensor>(m, "Tensor", py::module_local())
       .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
                     at::Tensor>())
+      .def_readonly("dtype", &Tensor::dtype)
+      .def_readonly("shape", &Tensor::shape)
       .def_readonly("data", &Tensor::data)
       .def_readonly("amax", &Tensor::amax)
       .def_readonly("scale", &Tensor::scale)

From baf385a4e9224c029cc9e9db852e554904eb84a4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 16:49:59 +0200
Subject: [PATCH 033/535] query shape, dtype from nvte

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp    | 13 ++++++++-----
 1 file changed, 8 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 520cf30068..81866bc40f 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -42,8 +42,12 @@ namespace py = pybind11;
 struct Tensor {
   static_assert(std::is_same_v<NVTETensor, void *>);
 
-  NVTEDType dtype;
-  std::vector<int> shape;
+  NVTEDType dtype() const { return nvte_tensor_type((NVTETensor)pimpl.get()); }
+  std::vector<size_t> shape() const {
+    NVTEShape s = nvte_tensor_shape((NVTETensor)pimpl.get());
+    return std::vector<size_t>(s.data, s.data + s.ndim);
+  }
+
   std::shared_ptr<void> pimpl;
   at::Tensor data;
   at::Tensor amax;
@@ -60,8 +64,6 @@ struct Tensor {
 
   Tensor(NVTEDType dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
          at::Tensor scale_inv) :
-         dtype{dtype},
-         shape{data.sizes().begin(), data.sizes().end()},
          pimpl{
           nvte_create_tensor(
             getDataPtr(data),
@@ -177,7 +179,8 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   py::class_<Tensor>(m, "Tensor", py::module_local())
       .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
                     at::Tensor>())
-      .def_readonly("dtype", &Tensor::dtype)
+      .def_property_readonly("dtype", &Tensor::dtype)
+      .def_property_readonly("shape", &Tensor::shape)
       .def_readonly("shape", &Tensor::shape)
       .def_readonly("data", &Tensor::data)
       .def_readonly("amax", &Tensor::amax)

From ce4bd90ed012b2effefe877781c3b9310fe01b78 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 16:50:50 +0200
Subject: [PATCH 034/535] remove old line

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp | 1 -
 1 file changed, 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 81866bc40f..609e076241 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -181,7 +181,6 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
                     at::Tensor>())
       .def_property_readonly("dtype", &Tensor::dtype)
       .def_property_readonly("shape", &Tensor::shape)
-      .def_readonly("shape", &Tensor::shape)
       .def_readonly("data", &Tensor::data)
       .def_readonly("amax", &Tensor::amax)
       .def_readonly("scale", &Tensor::scale)

From f3861b7bcbfbd2bcfe3c09cf1fa565050f4dd744 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 8 Aug 2023 17:01:36 +0200
Subject: [PATCH 035/535] Remove comment about workspace, for function that
 doesn't use one.

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../common/include/transformer_engine/transpose.h              | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/transformer_engine/common/include/transformer_engine/transpose.h b/transformer_engine/common/include/transformer_engine/transpose.h
index b12e3f8096..6eb653a359 100644
--- a/transformer_engine/common/include/transformer_engine/transpose.h
+++ b/transformer_engine/common/include/transformer_engine/transpose.h
@@ -146,9 +146,6 @@ void nvte_multi_cast_transpose(size_t num_tensors,
  *  - `cast_output` is the result of the cast
  *  - `transposed_output` is the transposed result of the cast.
  *
- *  Calling this function with workspace being an empty tensor will not perform the operation,
- *  but instead set the shape and type of the workspace tensor to the required values.
- *
  *  \param[in]     input               Input tensor of shape [N, H].
  *  \param[in]     geglu_input         Tensor used as input to the forward of GeGLU operation.
  *                                     Shape [N, H * 2].

From 8e7e34559053dca4e7d2dcecf50bfd3237891b59 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 10 Aug 2023 19:52:47 +0200
Subject: [PATCH 036/535] implement new sequential (almost)

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/__init__.py | 3 +++
 1 file changed, 3 insertions(+)
 create mode 100644 transformer_engine/pytorch/sequential/__init__.py

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
new file mode 100644
index 0000000000..e61129ba3f
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -0,0 +1,3 @@
+import torch
+
+torch.cuda.current_stream().cuda_stream

From 62aa4ad280a4abf84a15ccbd5684d84154c8a888 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 10 Aug 2023 22:56:12 +0200
Subject: [PATCH 037/535] implementation of pipeline function

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/__init__.py            |   3 -
 .../pytorch/sequential/compute_pipeline.py    | 193 +++++++++
 .../sequential/compute_pipeline_function.py   | 102 +++++
 .../sequential/cpp_extensions/pybind.cpp      |   6 +
 .../pytorch/sequential/environment.py         |   7 +
 .../pytorch/sequential/identity.py            |  25 ++
 .../pytorch/sequential/module/__init__.py     |   0
 .../pytorch/sequential/module/base.py         |  31 ++
 .../pytorch/sequential/module/linear.py       |  45 ++
 .../pytorch/sequential/nvte_utils.py          | 400 ++++++++++++++++++
 transformer_engine/pytorch/sequential/ops.py  | 236 +++++++++++
 ...init__.pyi => transformer_engine_cuda.pyi} |  60 +--
 12 files changed, 1079 insertions(+), 29 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/compute_pipeline.py
 create mode 100644 transformer_engine/pytorch/sequential/compute_pipeline_function.py
 create mode 100644 transformer_engine/pytorch/sequential/environment.py
 create mode 100644 transformer_engine/pytorch/sequential/identity.py
 create mode 100644 transformer_engine/pytorch/sequential/module/__init__.py
 create mode 100644 transformer_engine/pytorch/sequential/module/base.py
 create mode 100644 transformer_engine/pytorch/sequential/module/linear.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte_utils.py
 create mode 100644 transformer_engine/pytorch/sequential/ops.py
 rename transformer_engine/pytorch/sequential/{cpp_extensions/__init__.pyi => transformer_engine_cuda.pyi} (71%)

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index e61129ba3f..e69de29bb2 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -1,3 +0,0 @@
-import torch
-
-torch.cuda.current_stream().cuda_stream
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
new file mode 100644
index 0000000000..0769641e7f
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -0,0 +1,193 @@
+from copy import deepcopy
+from functools import partial, reduce
+import operator
+from typing import Callable, Literal, overload
+from typing_extensions import Unpack
+import transformer_engine_cuda as nvte
+from .nvte_utils import is_fp8
+from .ops import Grads, Op, FUSIONS_INF, FUSIONS_FWD, FUSIONS_BWD, Context
+from .environment import Environment
+
+Forward = Callable[[nvte.Tensor], tuple[nvte.Tensor, Context]]
+Backward = Callable[[Context, nvte.Tensor], tuple[nvte.Tensor, Grads]]
+Inference = Callable[[nvte.Tensor], nvte.Tensor]
+
+
+class FusedOp(Op):
+    def __init__(
+        self,
+        ops: list[Op],
+        forward: Callable[
+            [nvte.Tensor], tuple[nvte.Tensor, Unpack[tuple[Context, ...]]]
+        ]
+        | None = None,
+        backward: Callable[
+            [Unpack[tuple[Context, ...]], nvte.Tensor],
+            tuple[nvte.Tensor, Unpack[tuple[Grads, ...]]],
+        ]
+        | None = None,
+        inference: Inference | None = None,
+    ):
+        self.forward_ = forward
+        self.backward_ = backward
+        self.inference_ = inference
+        self.ops = ops
+
+    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
+        assert self.inference_ is not None
+        return self.inference_(x)
+
+    def forward(self, x: nvte.Tensor):
+        assert self.forward_ is not None
+        result = self.forward_(x)
+        y: nvte.Tensor = result[0]  # type: ignore
+        full_ctx = Context()
+        for op, ctx in zip(self.ops, result[1:]):  # type: ignore
+            op_name = getattr(op, "name")
+            ctx: Context = {op_name + name: tensor for name, tensor in ctx.items()}
+            full_ctx |= ctx
+        return y, full_ctx
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        assert self.backward_ is not None
+        ctxs = [
+            {name[len(getattr(op, "name")) :]: tensor for name, tensor in ctx.items()}
+            for op in self.ops
+        ]
+        result = self.backward_(*ctxs, dy)
+        dx: nvte.Tensor = result[0]  # type: ignore
+        grads: tuple[Grads] = result[1:]  # type: ignore
+        return (dx, *grads)
+
+    def args(self):
+        return list(sum((op.args() for op in self.ops), list[nvte.Tensor]()))
+
+
+class SelfContainedOp(Op):
+    def __init__(self, fwds: list[Op], bwds: list[Op]) -> None:
+        self.fwds = fwds
+        self.bwds = bwds
+
+    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
+        raise AssertionError("Not used for inference")
+
+    def forward(self, x: nvte.Tensor):
+        full_ctx = Context()
+        for op in self.fwds:
+            x, ctx = op.forward(x)
+            if not isinstance(x, FusedOp):
+                op_name = getattr(op, "name")
+                ctx = {op_name + name: tensor for name, tensor in ctx.items()}
+            full_ctx |= ctx
+        return x, full_ctx
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        ctxs = [
+            {name[len(getattr(op, "name")) :]: tensor for name, tensor in ctx.items()}
+            for op in self.bwds
+        ]
+        full_grads = Grads()
+        for op, ctx in list(zip(self.bwds, ctxs))[::-1]:
+            dy, grads = op.backward(ctx, dy)
+            full_grads += grads
+        return dy, full_grads
+
+    def args(self):
+        return list(sum((op.args() for op in self.fwds), list[nvte.Tensor]()))
+
+
+def force_use_bf16(ops: list[Op]):
+    for op in ops:
+        attributes = dir(op)
+        dtype_attributes = [attr for attr in attributes if attr.endswith("_dtype")]
+        for dtype_attribute in dtype_attributes:
+            attr_val = getattr(op, dtype_attribute)
+            if isinstance(attr_val, nvte.DType) and is_fp8(attr_val):
+                setattr(op, dtype_attribute, nvte.DType.BFloat16)
+
+
+def model_parallel_transform(ops: list[Op]):
+    raise NotImplementedError()
+
+
+def get_list(ops: list[Op], fuse_by: Literal["forward", "backward", "inference"]):
+    ops = ops.copy()
+    if fuse_by == "forward":
+        fusion_dict = FUSIONS_FWD
+    elif fuse_by == "backward":
+        fusion_dict = FUSIONS_BWD
+    else:  # pass_ == "inference":
+        fusion_dict = FUSIONS_INF
+    fusions = [(len(arg_types), arg_types, f) for arg_types, f in fusion_dict.items()]
+    fusions.sort(key=lambda x: x[0], reverse=True)  # largest first
+    for _, arg_types, f in fusions:
+        for startPos in range(len(ops) - len(arg_types) + 1):
+            if all(
+                isinstance(ops[i], arg_types[i - startPos])
+                for i in range(len(arg_types))
+            ):
+                fused_ops = ops[startPos : startPos + len(arg_types)]
+                func = partial(f, *fused_ops)
+                fused_op = FusedOp(fused_ops, **{fuse_by: func})
+                ops[startPos : startPos + len(arg_types)] = [fused_op]
+    return ops
+
+
+def name_ops(ops: list[Op]):
+    for i, op in enumerate(ops):
+        setattr(op, "name", f"{i}({op.__class__.__name__})")
+
+
+def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
+    functions = list[SelfContainedOp]()
+    while fwds or bwds:
+        fwd = fwds.pop(0)
+        unmatched_fwd_ops: set[Op] = {
+            *reduce(operator.iadd, [fwd.ops if isinstance(fwd, FusedOp) else [fwd]], [])
+        }
+        used_forwards = [fwd]
+        used_backwards = list[Op]()
+        unmatched_bwd_ops: set[Op] = set()
+        while unmatched_fwd_ops or unmatched_bwd_ops:
+            while unmatched_fwd_ops:
+                bwd = bwds.pop(0)
+                used_backwards.append(bwd)
+                ops = bwd.ops if isinstance(bwd, FusedOp) else [bwd]
+                for op in ops:
+                    if op in unmatched_fwd_ops:
+                        unmatched_fwd_ops.remove(op)
+                    else:
+                        unmatched_bwd_ops.add(op)
+            while unmatched_bwd_ops:
+                fwd = fwds.pop(0)
+                used_forwards.append(fwd)
+                ops = fwd.ops if isinstance(fwd, FusedOp) else [fwd]
+                for op in ops:
+                    if op in unmatched_bwd_ops:
+                        unmatched_bwd_ops.remove(op)
+                    else:
+                        unmatched_fwd_ops.add(op)
+        functions.append(SelfContainedOp(used_forwards, used_backwards))
+    return functions
+
+
+class ComputePipeline:
+    def __init__(self, ops: list[Op], env: Environment):
+        ops = deepcopy(ops)
+
+        name_ops(ops)
+        if not env.fp8_enabled:
+            force_use_bf16(ops)
+        if env.world_size > 1:
+            model_parallel_transform(ops)
+
+        self._fwd = get_list(ops, "forward")
+        self._bwd = get_list(ops, "backward")
+        self._inf = get_list(ops, "inference")
+
+        self.functions = split_into_self_contained(self._fwd, self._bwd)
+
+    def run_inference(self, x: nvte.Tensor) -> nvte.Tensor:
+        for op in self._inf:
+            x = op.inference(x)
+        return x
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
new file mode 100644
index 0000000000..0de3cb474f
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -0,0 +1,102 @@
+import torch
+from torch import autograd
+from torch.autograd.function import FunctionCtx
+from torch import nn
+import transformer_engine_cuda as nvte
+
+from .ops import Context, Op
+
+from .nvte_utils import is_fp8, make_nvte_tensor
+
+from .compute_pipeline import ComputePipeline
+
+
+class ComputePipelineFunction(autograd.Function):
+    @staticmethod
+    def forward(
+        ctx: FunctionCtx,
+        exposed_x: torch.Tensor,
+        *exposed_tensors: torch.Tensor,
+        op: Op,
+        nvte_x: nvte.Tensor
+    ):
+        """
+        exposed_x is used only to let autograd construct the computation graph
+        real input and output is nvte_x
+        exposed_tensors are exposed for the optimizer to later apply gradients
+        """
+        del exposed_tensors
+
+        y, to_save = op.forward(nvte_x)
+
+        # Expose backward context for tracing
+        bwd_ctx = list[torch.Tensor]()
+        for _, tensor in to_save.items():
+            bwd_ctx.append(tensor.data)
+            if tensor.amax.numel():
+                bwd_ctx.append(tensor.amax)
+            if tensor.scale.numel():
+                bwd_ctx.append(tensor.scale)
+            if tensor.scale_inv.numel():
+                bwd_ctx.append(tensor.scale_inv)
+        ctx.save_for_backward(*bwd_ctx)
+
+        # Save real context
+        setattr(ctx, "nvte_ctx", to_save)
+        setattr(ctx, "nvte_op", op)
+
+        # Actually store the result
+        nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv = (
+            y.data,
+            y.amax,
+            y.scale,
+            y.scale_inv,
+        )
+
+        # Preserve computation graph
+        exposed_x.data = y.data
+
+        return exposed_x
+
+    @staticmethod
+    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):
+        # The context needs to think that the tensors were read
+        _ = ctx.saved_tensors()  # type: ignore
+
+        # Get real context
+        saved: Context = getattr(ctx, "nvte_ctx")
+        op: Op = getattr(ctx, "nvte_op")
+
+        data_grad, param_grads = op.backward(saved, make_nvte_tensor(grad_output))
+
+        # Check that gradients are not fp8 and can be processed by the optimizer
+        # TODO: change this when fp8 optimizer comes along
+        assert not is_fp8(data_grad)
+        assert all(g is None or not is_fp8(g) for g in param_grads)
+
+        torch_grads = [data_grad.data] + [
+            g.data if g is not None else None for g in param_grads
+        ]
+
+        return (*torch_grads, None, None)
+
+
+def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
+    nvte_x = make_nvte_tensor(x)
+    if not training:
+        y = pipeline.run_inference(nvte_x)
+        assert not is_fp8(y)
+        return y.data
+    else:
+        for contained_op in pipeline.functions:
+            nvte_tensors = contained_op.args()
+            exposed_tensors = list[torch.Tensor]()
+            for nvte_tensor in nvte_tensors:
+                assert not is_fp8(
+                    nvte_tensor
+                )  # TODO: change when fp8 optimizer comes along
+                exposed_tensors.append(nvte_tensor.data)
+            x = ComputePipelineFunction.apply(  # type: ignore
+                x, *exposed_tensors, op=contained_op, nvte_x=nvte_x
+            )
+        return x
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 609e076241..1711b03517 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -144,6 +144,11 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
   }
 }
 
+// Manual wrapper around nvte_multi_cast_transpose
+void multi_cast_transpose(const std::vector<Tensor>& inputs, const std::vector<Tensor>& cast_outs, const std::vector<Tensor>& transposed_outs) {
+  nvte_multi_cast_transpose(inputs.size(), inputs.data(), cast_outs.data(), transposed_outs.data(), at::cuda::getCurrentCUDAStream());
+}
+
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   py::enum_<NVTEDType>(m, "DType", py::module_local())
       .value("Byte", kNVTEByte)
@@ -226,4 +231,5 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   m.def("fp8_transpose_dbias", wrap(nvte_fp8_transpose_dbias));
   m.def("cast_transpose_dbias_dgelu", wrap(nvte_cast_transpose_dbias_dgelu));
   m.def("dgeglu_cast_transpose", wrap(nvte_dgeglu_cast_transpose));
+  m.def("multi_cast_transpose", &multi_cast_transpose);
 }
diff --git a/transformer_engine/pytorch/sequential/environment.py b/transformer_engine/pytorch/sequential/environment.py
new file mode 100644
index 0000000000..fe92cd67b6
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/environment.py
@@ -0,0 +1,7 @@
+from dataclasses import dataclass
+
+
+@dataclass
+class Environment:
+    fp8_enabled: bool
+    world_size: int
diff --git a/transformer_engine/pytorch/sequential/identity.py b/transformer_engine/pytorch/sequential/identity.py
new file mode 100644
index 0000000000..0a83d093e8
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/identity.py
@@ -0,0 +1,25 @@
+from typing import Generic, TypeVar
+import inspect
+
+
+def identity():
+    return hash(tuple((info.filename, info.positions) for info in inspect.stack()))
+
+
+T = TypeVar("T")
+
+
+class Persistent(Generic[T]):
+    identity: int
+    value: T
+
+    def __init__(self, value: T):
+        self.identity = identity()
+        self.value = value
+
+
+for i in range(10):
+    if i % 2 == 0:
+        print(Persistent[int](i).identity)
+    else:
+        print(Persistent[int](i).identity)
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
new file mode 100644
index 0000000000..e69de29bb2
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
new file mode 100644
index 0000000000..b39e4056d9
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -0,0 +1,31 @@
+import torch
+from torch import nn
+from ...distributed import get_distributed_world_size
+from ...fp8 import is_fp8_enabled
+from ..ops import Op
+from ..environment import Environment
+from ..compute_pipeline import ComputePipeline
+from ..compute_pipeline_function import apply
+
+
+class BaseModule(nn.Module):
+    ops: list[Op]
+    pipeline: ComputePipeline | None
+    compile_env: Environment | None
+
+    def __init__(self, *ops: Op | None):
+        super().__init__()  # type: ignore
+        ops_clean = [op for op in ops if op is not None]
+        self.ops = ops_clean
+        self.pipeline = None
+        self.compile_env = None
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        env = self._current_env()
+        if self.pipeline is None or env != self.compile_env:
+            self.pipeline = ComputePipeline(self.ops, env)
+            self.compile_env = env
+        return apply(x, self.pipeline, self.training)
+
+    def _current_env(self) -> Environment:
+        return Environment(is_fp8_enabled(), get_distributed_world_size())
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
new file mode 100644
index 0000000000..4516085734
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -0,0 +1,45 @@
+from typing import Callable
+from math import sqrt
+import torch
+from torch import nn
+from .base import BaseModule
+from ..ops import MMT, Add
+from ..nvte_utils import make_nvte_tensor
+
+
+def _default_weight_init_method(weight: torch.Tensor):
+    in_features = weight.shape[0]
+    k = 1 / sqrt(in_features)
+    torch.nn.init.uniform_(weight, -k, k)
+
+
+def _default_bias_init_method(bias: torch.Tensor):
+    out_features = bias.shape[0]
+    k = 1 / sqrt(out_features)
+    torch.nn.init.uniform_(bias, -k, k)
+
+
+class Linear(BaseModule):
+    def __init__(
+        self,
+        in_features: int,
+        out_features: int,
+        bias: bool = True,
+        param_dtype: torch.dtype = torch.get_default_dtype(),
+        weight_init_method: Callable[
+            [torch.Tensor], None
+        ] = _default_weight_init_method,
+        bias_init_method: Callable[[torch.Tensor], None] = _default_bias_init_method,
+    ):
+        self.weight = nn.Parameter(
+            torch.empty(out_features, in_features, dtype=param_dtype)
+        )
+        weight_init_method(self.weight)
+        if bias:
+            self.bias = nn.Parameter(torch.empty(out_features, dtype=param_dtype))
+            bias_init_method(self.bias)
+
+        super().__init__(
+            MMT(make_nvte_tensor(self.weight)),
+            Add(make_nvte_tensor(self.bias)) if bias else None,
+        )
diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
new file mode 100644
index 0000000000..b0972236e4
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -0,0 +1,400 @@
+from functools import cache
+import subprocess
+from typing import Sequence
+import torch
+import transformer_engine_cuda as nvte
+
+
+@cache
+def _is_hopper():
+    gpu_name = (
+        subprocess.check_output(
+            "nvidia-smi --query-gpu=name --format=csv,noheader", shell=True
+        )
+        .decode("utf-8")
+        .strip()
+    )
+    return "H100" in gpu_name
+
+
+@cache
+def _cublas_workspace():
+    workspace_size = 33_554_432 if _is_hopper() else 4_194_304
+    data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
+    return nvte.Tensor(
+        nvte.DType.Byte, data, torch.empty(), torch.empty(), torch.empty()
+    )
+
+
+def _to_cublas_args(A: nvte.Tensor, B: nvte.Tensor, transA: bool, transB: bool):
+    return B, A, not transA, not transB
+
+
+def _is_during_backward() -> bool:
+    raise NotImplementedError()  # TODO
+
+
+def make_nvte_tensor(t: torch.Tensor):
+    return nvte.Tensor(
+        torch_to_te_dtype(t.dtype),
+        t.data,
+        torch.empty(),
+        torch.empty(),
+        torch.empty(),
+    )
+
+
+# Wrappers around functions needing workspace
+def _cast_transpose_dbias(
+    input: nvte.Tensor,
+    cast_output: nvte.Tensor,
+    transposed_output: nvte.Tensor,
+    dbias: nvte.Tensor,
+):
+    workspace_query = empty()
+    nvte.cast_transpose_dbias(
+        input, cast_output, transposed_output, dbias, workspace_query
+    )
+    workspace = empty_like(workspace_query)
+    nvte.cast_transpose_dbias(input, cast_output, transposed_output, dbias, workspace)
+
+
+# DTYPES
+def te_to_torch_dtype(dtype: nvte.DType):
+    match dtype:
+        case nvte.DType.Byte:
+            return torch.int8
+        case nvte.DType.Int32:
+            return torch.int32
+        case nvte.DType.Int64:
+            return torch.int64
+        case nvte.DType.Float32:
+            return torch.float32
+        case nvte.DType.Float16:
+            return torch.float16
+        case nvte.DType.BFloat16:
+            return torch.bfloat16
+        case nvte.DType.Float8E4M3:
+            return torch.int8
+        case nvte.DType.Float8E5M2:
+            return torch.int8
+
+
+def torch_to_te_dtype(dtype: torch.dtype):
+    match dtype:
+        case torch.int:
+            return nvte.DType.Int32
+        case torch.int32:
+            return nvte.DType.Int32
+        case torch.int64:
+            return nvte.DType.Int64
+        case torch.float:
+            return nvte.DType.Float32
+        case torch.float32:
+            return nvte.DType.Float32
+        case torch.half:
+            return nvte.DType.Float16
+        case torch.float16:
+            return nvte.DType.Float16
+        case torch.bfloat16:
+            return nvte.DType.BFloat16
+        case _:
+            raise ValueError(f"Unsupported dtype: {dtype}")
+
+
+def bit_width(dtype: nvte.DType):
+    match dtype:
+        case nvte.DType.Byte:
+            return 8
+        case nvte.DType.Int32:
+            return 32
+        case nvte.DType.Int64:
+            return 64
+        case nvte.DType.Float32:
+            return 32
+        case nvte.DType.Float16:
+            return 16
+        case nvte.DType.BFloat16:
+            return 16
+        case nvte.DType.Float8E4M3:
+            return 8
+        case nvte.DType.Float8E5M2:
+            return 8
+
+
+def is_fp8(t: nvte.Tensor | nvte.DType):
+    if isinstance(t, nvte.Tensor):
+        dtype = t.dtype
+    else:
+        dtype = t
+    return dtype == nvte.DType.Float8E4M3 or dtype == nvte.DType.Float8E5M2
+
+
+# ADD
+def add(A: nvte.Tensor, B: nvte.Tensor, out_dtype: nvte.DType):
+    if is_fp8(A) or is_fp8(B):
+        raise NotImplementedError()
+    else:
+        output = torch.empty(A.shape, dtype=te_to_torch_dtype(out_dtype), device="cuda")
+        torch.add(A.data, B.data, out=output)
+        return make_nvte_tensor(output)
+
+
+def dbias(t: nvte.Tensor, out_dtype: nvte.DType):
+    if is_fp8(t):
+        raise NotImplementedError()
+    else:
+        output = torch.sum(t.data, dtype=te_to_torch_dtype(out_dtype), dim=0)
+        return make_nvte_tensor(output)
+
+
+# CREATE
+_AMAX_HISTORY_LEN = 512
+
+
+def empty(shape: Sequence[int] = (), dtype: nvte.DType = nvte.DType.Float32):
+    if is_fp8(dtype):
+        return nvte.Tensor(
+            dtype,
+            torch.empty(
+                _AMAX_HISTORY_LEN, dtype=te_to_torch_dtype(dtype), device="cuda"
+            ),
+            torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda"),
+            torch.empty(1, dtype=torch.float32, device="cuda"),
+            torch.empty(1, dtype=torch.float32, device="cuda"),
+        )
+    else:
+        return nvte.Tensor(
+            dtype,
+            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
+            torch.empty(),
+            torch.empty(),
+            torch.empty(),
+        )
+
+
+def empty_like(t: nvte.Tensor):
+    return empty(t.shape, t.dtype)
+
+
+def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], nvte.DType]):
+    amax = torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda")
+    scale = torch.empty(1, dtype=torch.float32, device="cuda")
+    scale_inv = torch.empty(1, dtype=torch.float32, device="cuda")
+
+    return tuple(
+        nvte.Tensor(
+            dtype,
+            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
+            amax,
+            scale,
+            scale_inv,
+        )
+        if is_fp8(dtype)
+        else nvte.Tensor(
+            dtype,
+            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
+            torch.empty(),
+            torch.empty(),
+            torch.empty(),
+        )
+        for shape, dtype in shapes_dtypes
+    )
+
+
+# CAST + TRANPOSE
+def cast(t: nvte.Tensor, dtype: nvte.DType):
+    assert t.dtype != dtype
+    assert is_fp8(t) != is_fp8(dtype)
+
+    output = empty(t.shape, dtype)
+    if is_fp8(dtype):
+        nvte.fp8_quantize(t, output)
+    elif is_fp8(t):
+        nvte.fp8_dequantize(t, output)
+    else:
+        output.data.copy_(t.data)
+
+    return output
+
+
+def cast_checked(t: nvte.Tensor, dtype: nvte.DType | None):
+    if dtype is None or t.dtype == dtype:
+        return t
+    else:
+        return cast(t, dtype)
+
+
+def transpose(t: nvte.Tensor):
+    output = empty(t.shape[::-1], t.dtype)
+    nvte.transpose(t, output)
+    return output
+
+
+def cast_transpose(t: nvte.Tensor, dtype: nvte.DType):
+    assert t.dtype != dtype
+    assert is_fp8(t) != is_fp8(dtype)
+
+    out_cast, out_transpose = multi_empty_share_metadata(
+        (t.shape, dtype), (t.shape[::-1], dtype)
+    )
+
+    nvte.cast_transpose(t, out_cast, out_transpose)
+    return out_cast, out_transpose
+
+
+def cast_transpose_checked(t: nvte.Tensor, dtype: nvte.DType | None):
+    if dtype is None or t.dtype == dtype:
+        return t, transpose(t)
+    else:
+        return cast_transpose(t, dtype)
+
+
+def multi_cast_transpose(*desc: tuple[nvte.Tensor, nvte.DType]):
+    outs = [
+        multi_empty_share_metadata((t.shape, dtype), (t.shape[::-1], dtype))
+        for t, dtype in desc
+    ]
+    out_cast_list, out_transpose_list = zip(*outs)
+    input_list, _ = zip(*desc)
+    nvte.multi_cast_transpose(input_list, out_cast_list, out_transpose_list)  # type: ignore
+    return outs
+
+
+def multi_cast_transpose_checked(*desc: tuple[nvte.Tensor, nvte.DType | None]):
+    transpose_results = list[tuple[nvte.Tensor, nvte.Tensor] | None]()
+    to_cast_transpose = list[tuple[nvte.Tensor, nvte.DType]]()
+    for t, dtype in desc:
+        if dtype is None or t.dtype == dtype:
+            transpose_results.append((t, transpose(t)))
+        else:
+            to_cast_transpose.append((t, dtype))
+    cast_transpose_results = multi_cast_transpose(*to_cast_transpose)
+    results = list[tuple[nvte.Tensor, nvte.Tensor]]()
+    i = 0
+    for result in transpose_results:
+        if result is None:
+            results.append(cast_transpose_results[i])
+            i += 1
+        else:
+            results.append(result)
+    return results
+
+
+def cast_transpose_dbias_checked(
+    t: nvte.Tensor, cast_dtype: nvte.DType | None, dbias_dtype: nvte.DType
+):
+    if dbias_dtype == t.dtype and cast_dtype is not None and cast_dtype != t.dtype:
+        out_cast, out_transpose = multi_empty_share_metadata(
+            (t.shape, cast_dtype), (t.shape[::-1], cast_dtype)
+        )
+        out_dbias = empty((t.shape[1],), dbias_dtype)
+        _cast_transpose_dbias(t, out_cast, out_transpose, out_dbias)
+        return out_cast, out_transpose, out_dbias
+    else:
+        out_cast, out_transpose = cast_transpose_checked(t, cast_dtype)
+        out_dbias = dbias(t, dbias_dtype)
+        return out_cast, out_transpose, out_dbias
+
+
+# MATMUL TRANSPOSE
+def matmul_transpose(mat: nvte.Tensor, mul: nvte.Tensor, out_dtype: nvte.DType):
+    "returns mat @ mul^T"
+    return matmul_transpose_add(mat, mul, empty(), out_dtype)
+
+
+def matmul_transpose_gelu(mat: nvte.Tensor, mul: nvte.Tensor, out_dtype: nvte.DType):
+    "returns mat @ mul^T, GELU(mat @ mul^T)"
+    return matmul_transpose_add_gelu(mat, mul, empty(), out_dtype)
+
+
+def matmul_transpose_add(
+    mat: nvte.Tensor, mul: nvte.Tensor, add: nvte.Tensor, out_dtype: nvte.DType
+):
+    "returns mat @ mul^T + add"
+    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
+    out = empty((b.shape[0], a.shape[0]), out_dtype)
+    nvte.cublas_gemm(
+        a,
+        b,
+        out,
+        add,
+        empty(),
+        trans_a,
+        trans_b,
+        _is_during_backward(),
+        _cublas_workspace(),
+        False,
+        _is_during_backward(),
+        0,
+    )
+    return out
+
+
+def matmul_transpose_add_gelu(
+    mat: nvte.Tensor, mul: nvte.Tensor, add: nvte.Tensor, out_dtype: nvte.DType
+):
+    "returns mat @ mul^T + add, GELU(mat @ mul^T + add)"
+    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
+    out = empty((b.shape[0], a.shape[0]), out_dtype)
+    pre_gelu = empty(out.shape, add.dtype)
+    nvte.cublas_gemm(
+        a,
+        b,
+        out,
+        add,
+        pre_gelu,
+        trans_a,
+        trans_b,
+        _is_during_backward(),
+        _cublas_workspace(),
+        False,
+        _is_during_backward(),
+        0,
+    )
+    return pre_gelu, out
+
+
+def matmul_transpose_add_add(
+    mat: nvte.Tensor, mul: nvte.Tensor, add1: nvte.Tensor, add2: nvte.Tensor
+):
+    "returns mat @ mul^T + add1 + add2"
+    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
+    nvte.cublas_gemm(
+        a,
+        b,
+        add2,
+        add1,
+        empty(),
+        trans_a,
+        trans_b,
+        _is_during_backward(),
+        _cublas_workspace(),
+        True,
+        _is_during_backward(),
+        0,
+    )
+    return add2
+
+
+def matmul_transpose_add_gelu_add(
+    mat: nvte.Tensor, mul: nvte.Tensor, add1: nvte.Tensor, add2: nvte.Tensor
+):
+    "returns mat @ mul^T + add1, GELU(mat @ mul^T + add1) + add2"
+    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
+    pre_gelu = empty(add2.shape, add1.dtype)
+    nvte.cublas_gemm(
+        a,
+        b,
+        add2,
+        add1,
+        pre_gelu,
+        trans_a,
+        trans_b,
+        _is_during_backward(),
+        _cublas_workspace(),
+        True,
+        _is_during_backward(),
+        0,
+    )
+    return pre_gelu, add2
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
new file mode 100644
index 0000000000..1cdc22d430
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -0,0 +1,236 @@
+from __future__ import annotations
+from abc import ABC, abstractmethod
+import ast
+import typing
+from typing import Any, Callable
+from typing_extensions import Unpack, TypeVarTuple
+import transformer_engine_cuda as nvte
+from . import nvte_utils
+
+TensorProvider = Callable[[], nvte.Tensor]
+TensorRecipient = Callable[[nvte.Tensor], None]
+Context = dict[str, nvte.Tensor]
+Grads = tuple[nvte.Tensor | None, ...]
+
+FUSIONS_INF: dict[tuple[type, ...], Callable[..., Any]] = {}
+FUSIONS_FWD: dict[tuple[type, ...], Callable[..., Any]] = {}
+FUSIONS_BWD: dict[tuple[type, ...], Callable[..., Any]] = {}
+
+
+def get_parameters(*param: nvte.Tensor | TensorProvider):
+    return tuple(p if isinstance(p, nvte.Tensor) else p() for p in param)
+
+
+def return_grads(*grad: tuple[nvte.Tensor, TensorRecipient | None]):
+    return tuple(t if rec is None else rec(t) for t, rec in grad)
+
+
+Ops = TypeVarTuple("Ops")
+OpsAndCtxs = TypeVarTuple("OpsAndCtxs")
+
+
+def _get_arg_types(f: Callable[..., Any]):
+    annotations = typing.get_type_hints(f)
+    annotations.pop("return", None)
+    arg_type_names: tuple[str] = tuple(annotations.values())
+    assert all(
+        isinstance(val, str) for val in arg_type_names
+    )  # True due to __future__.annotations
+    arg_types: tuple[type] = tuple(ast.literal_eval(val) for val in arg_type_names)
+    return arg_types
+
+
+def register_fusion_inference(f: Callable[[Unpack[Ops], nvte.Tensor], nvte.Tensor]):
+    fused_modules = _get_arg_types(f)[:-1]
+    FUSIONS_INF[fused_modules] = f
+    return f
+
+
+def register_fusion_forward(
+    f: Callable[
+        [Unpack[Ops], nvte.Tensor],
+        tuple[nvte.Tensor, Unpack[tuple[Context, ...]]],
+    ]
+):
+    fused_modules = _get_arg_types(f)[:-1]
+    FUSIONS_FWD[fused_modules] = f
+    return f
+
+
+def register_fusion_backward(
+    f: Callable[
+        [Unpack[OpsAndCtxs], nvte.Tensor],
+        tuple[nvte.Tensor, Unpack[tuple[Grads, ...]]],
+    ]
+):
+    arg_types = _get_arg_types(f)
+    module_count = (len(arg_types) - 1) / 2
+    fused_modules = arg_types[:module_count]
+    FUSIONS_BWD[fused_modules] = f
+    return f
+
+
+class Op(ABC):
+    @abstractmethod
+    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
+        ...
+
+    @abstractmethod
+    def forward(self, x: nvte.Tensor) -> tuple[nvte.Tensor, Context]:
+        ...
+
+    @abstractmethod
+    def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
+        ...
+
+    @abstractmethod
+    def args(self) -> list[nvte.Tensor]:
+        ...
+
+
+class MMT(Op):
+    def __init__(
+        self,
+        weight: nvte.Tensor | TensorProvider,
+        dweight_r: TensorRecipient | None = None,
+        x_dtype: nvte.DType | None = None,
+        weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
+    ):
+        self.weight = weight
+        self.dweight_r = dweight_r
+        self.x_dtype = x_dtype
+        self.weight_dtype = weight_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+        self.dweight_dtype = dweight_dtype
+
+    def inference(self, x: nvte.Tensor):
+        (weight,) = get_parameters(self.weight)
+        x = nvte_utils.cast_checked(x, self.x_dtype)
+        weight = nvte_utils.cast_checked(weight, self.weight_dtype)
+
+        y = nvte_utils.matmul_transpose(x, weight, self.y_dtype)
+
+        return y
+
+    def forward(self, x: nvte.Tensor):
+        (weight,) = get_parameters(self.weight)
+        (x, x_t), (weight, weight_t) = nvte_utils.multi_cast_transpose_checked(
+            (x, self.x_dtype), (weight, self.weight_dtype)
+        )
+
+        y = nvte_utils.matmul_transpose(x, weight, self.y_dtype)
+
+        return y, {"x_t": x_t, "weight_t": weight_t}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        x_t, weight_t = ctx["x_t"], ctx["weight_t"]
+        dy, dy_t = nvte_utils.cast_transpose_checked(dy, self.dy_dtype)
+
+        dx = nvte_utils.matmul_transpose(dy, weight_t, self.dx_dtype)
+        dweight = nvte_utils.matmul_transpose(x_t, dy_t, self.dweight_dtype)
+
+        return dx, return_grads((dweight, self.dweight_r))
+
+    def args(self):
+        return [*get_parameters(self.weight)]
+
+
+class Add(Op):
+    def __init__(
+        self,
+        bias: nvte.Tensor | TensorProvider,
+        dbias_r: TensorRecipient | None = None,
+        x_dtype: nvte.DType | None = None,
+        bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+        dbias_dtype: nvte.DType = nvte.DType.BFloat16,
+    ):
+        self.bias = bias
+        self.dbias_r = dbias_r
+        self.x_dtype = x_dtype
+        self.bias_dtype = bias_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+        self.dbias_dtype = dbias_dtype
+
+    def inference(self, x: nvte.Tensor):
+        return self.forward(x)[0]
+
+    def forward(self, x: nvte.Tensor):
+        (bias,) = get_parameters(self.bias)
+        x = nvte_utils.cast_checked(x, self.x_dtype)
+        bias = nvte_utils.cast_checked(bias, self.bias_dtype)
+
+        y = nvte_utils.add(x, bias, self.y_dtype)
+
+        return y, Context()
+
+    def backward(self, ctx: dict[str, nvte.Tensor], dy: nvte.Tensor):
+        del ctx
+        dy = nvte_utils.cast_checked(dy, self.dy_dtype)
+
+        dx = nvte_utils.cast_checked(dy, self.dx_dtype)
+        dbias = nvte_utils.dbias(dy, self.dbias_dtype)
+
+        return dx, return_grads((dbias, self.dbias_r))
+
+    def args(self):
+        return [*get_parameters(self.bias)]
+
+
+@register_fusion_inference
+def _(mmt: MMT, add: Add, x: nvte.Tensor):
+    (weight, bias) = get_parameters(mmt.weight, add.bias)
+    x = nvte_utils.cast_checked(x, mmt.x_dtype)
+    weight = nvte_utils.cast_checked(weight, mmt.weight_dtype)
+    bias = nvte_utils.cast_checked(bias, add.bias_dtype)
+
+    y = nvte_utils.matmul_transpose_add(x, weight, bias, add.y_dtype)
+
+    return y
+
+
+@register_fusion_forward
+def _(mmt: MMT, add: Add, x: nvte.Tensor):
+    (weight, bias) = get_parameters(mmt.weight, add.bias)
+    (x, x_t), (weight, weight_t) = nvte_utils.multi_cast_transpose_checked(
+        (x, mmt.x_dtype), (weight, mmt.weight_dtype)
+    )
+    bias = nvte_utils.cast_checked(bias, add.bias_dtype)
+
+    y = nvte_utils.matmul_transpose_add(x, weight, bias, add.y_dtype)
+
+    return y, {"x_t": x_t, "weight_t": weight_t}, Context()
+
+
+@register_fusion_backward
+def _(
+    mmt: MMT,
+    add: Add,
+    mmt_ctx: dict[str, nvte.Tensor],
+    add_ctx: dict[str, nvte.Tensor],
+    dy: nvte.Tensor,
+):
+    del add_ctx
+    x_t, weight_t = mmt_ctx["x_t"], mmt_ctx["weight_t"]
+    dy, dy_t, dbias = nvte_utils.cast_transpose_dbias_checked(
+        dy, mmt.dy_dtype, add.dbias_dtype
+    )
+
+    dx = nvte_utils.matmul_transpose(dy, weight_t, mmt.dx_dtype)
+    dweight = nvte_utils.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
+
+    return (
+        dx,
+        return_grads((dweight, mmt.dweight_r)),
+        return_grads((dbias, add.dbias_r)),
+    )
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
similarity index 71%
rename from transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
rename to transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
index cc89b3313a..16f3a8c00f 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
@@ -1,38 +1,45 @@
 import torch
 from enum import Enum
+from typing import Sequence
 
 class QKVLayout(Enum):
-    NVTE_NOT_INTERLEAVED = 0
-    NVTE_QKV_INTERLEAVED = 1
-    NVTE_KV_INTERLEAVED = 2
+    NOT_INTERLEAVED = 0
+    QKV_INTERLEAVED = 1
+    KV_INTERLEAVED = 2
 
 class BiasType(Enum):
-    NVTE_NO_BIAS = 0
-    NVTE_PRE_SCALE_BIAS = 1
-    NVTE_POST_SCALE_BIAS = 2
+    NO_BIAS = 0
+    PRE_SCALE_BIAS = 1
+    POST_SCALE_BIAS = 2
 
 class MaskType(Enum):
-    NVTE_NO_MASK = 0
-    NVTE_PADDING_MASK = 1
-    NVTE_CAUSAL_MASK = 2
+    NO_MASK = 0
+    PADDING_MASK = 1
+    CAUSAL_MASK = 2
 
 class FusedAttnBackend(Enum):
-    NVTE_No_Backend = -1
-    NVTE_F16_max512_seqlen = 0
-    NVTE_F16_arbitrary_seqlen = 1
-    NVTE_FP8 = 2
+    No_Backend = -1
+    F16_max512_seqlen = 0
+    F16_arbitrary_seqlen = 1
+    FP8 = 2
 
 class DType(Enum):
-    kNVTEByte = 0
-    kNVTEInt32 = 1
-    kNVTEInt64 = 2
-    kNVTEFloat32 = 3
-    kNVTEFloat16 = 4
-    kNVTEBFloat16 = 5
-    kNVTEFloat8E4M3 = 6
-    kNVTEFloat8E5M2 = 7
+    Byte = 0
+    Int32 = 1
+    Int64 = 2
+    Float32 = 3
+    Float16 = 4
+    BFloat16 = 5
+    Float8E4M3 = 6
+    Float8E5M2 = 7
 
 class Tensor:
+    dtype: DType
+    shape: Sequence[int]
+    data: torch.Tensor
+    amax: torch.Tensor
+    scale: torch.Tensor
+    scale_inv: torch.Tensor
     def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
 
 def gelu(input: Tensor, output: Tensor) -> None: ...
@@ -48,10 +55,10 @@ def dreglu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
 def fp8_quantize(input: Tensor, output: Tensor) -> None: ...
 def fp8_dequantize(input: Tensor, output: Tensor) -> None: ...
 def get_fused_attn_backend(q_dtype: DType, kv_dtype: DType, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, dropout: float, max_seqlen_q: int, max_seqlen_kv: int, head_dim: int) -> FusedAttnBackend: ...
-def fused_attn_fwd_qkvpacked(QKV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: list[Tensor], cu_seqlens: Tensor, rng_state: Tensor, max_seqlen: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
-def fused_attn_bwd_qkvpacked(QKV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: list[Tensor], dQKV: Tensor, dBias: Tensor, cu_seqlens: Tensor, max_seqlen: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
-def fused_attn_fwd_kvpacked(Q: Tensor, KV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: list[Tensor], cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, rng_state: Tensor, max_seqlen_q: int, max_seqlen_kv: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
-def fused_attn_bwd_kvpacked(Q: Tensor, KV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: list[Tensor], dQ: Tensor, dKV: Tensor, dBias: Tensor, cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, max_seqlen_q: int, max_seqlen_kv: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_fwd_qkvpacked(QKV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: Sequence[Tensor], cu_seqlens: Tensor, rng_state: Tensor, max_seqlen: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_bwd_qkvpacked(QKV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: Sequence[Tensor], dQKV: Tensor, dBias: Tensor, cu_seqlens: Tensor, max_seqlen: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_fwd_kvpacked(Q: Tensor, KV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: Sequence[Tensor], cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, rng_state: Tensor, max_seqlen_q: int, max_seqlen_kv: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_bwd_kvpacked(Q: Tensor, KV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: Sequence[Tensor], dQ: Tensor, dKV: Tensor, dBias: Tensor, cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, max_seqlen_q: int, max_seqlen_kv: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
 def cublas_gemm(A: Tensor, B: Tensor, D: Tensor, bias: Tensor, pre_gelu_out: Tensor, transa: bool, transb: bool, grad: bool, workspace: Tensor, accumulate: bool, use_split_accumulator: bool, math_sm_count: int) -> None: ...
 def layernorm_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
 def layernorm1p_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
@@ -70,4 +77,5 @@ def transpose(input: Tensor, transposed_output: Tensor) -> None: ...
 def cast_transpose_dbias(input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
 def fp8_transpose_dbias(input: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
 def cast_transpose_dbias_dgelu(input: Tensor, gelu_input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
-def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
\ No newline at end of file
+def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
+def multi_cast_transpose(input_list: Sequence[Tensor], cast_output_list: Sequence[Tensor], transposed_output_list: Sequence[Tensor]) -> None: ...
\ No newline at end of file

From e06e2c5b5aa6fdf923bca29d7f42950930e68c8e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 09:59:17 +0200
Subject: [PATCH 038/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    |  2 +-
 .../sequential/cpp_extensions/pybind.cpp      | 50 +++++++++++--------
 2 files changed, 30 insertions(+), 22 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 0769641e7f..d45f9f47d3 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -1,7 +1,7 @@
 from copy import deepcopy
 from functools import partial, reduce
 import operator
-from typing import Callable, Literal, overload
+from typing import Callable, Literal
 from typing_extensions import Unpack
 import transformer_engine_cuda as nvte
 from .nvte_utils import is_fp8
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 1711b03517..8191242baa 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -19,6 +19,7 @@
 #include <cuda_bf16.h>
 #include <cuda_runtime.h>
 #include <exception>
+#include <memory>
 #include <pybind11/pybind11.h>
 #include <stdexcept>
 #include <torch/extension.h>
@@ -33,7 +34,7 @@
 #include <transformer_engine/transformer_engine.h>
 #include <transformer_engine/transpose.h>
 #include <type_traits>
-#include <memory>
+
 
 #include "type_list.h"
 
@@ -63,22 +64,14 @@ struct Tensor {
   }
 
   Tensor(NVTEDType dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
-         at::Tensor scale_inv) :
-         pimpl{
-          nvte_create_tensor(
-            getDataPtr(data),
-            NVTEShape{(size_t *)(data.sizes().data()), data.sizes().size()}, dtype, getDataPtr(amax),
-            getDataPtr(scale),
-            getDataPtr(scale_inv)
-          ),
-          [](NVTETensor impl) { nvte_destroy_tensor(impl); }
-        },
-        data{data},
-        amax{amax},
-        scale{scale},
-        scale_inv{scale_inv}
-  {
-  }
+         at::Tensor scale_inv)
+      : pimpl{nvte_create_tensor(getDataPtr(data),
+                                 NVTEShape{(size_t *)(data.sizes().data()),
+                                           data.sizes().size()},
+                                 dtype, getDataPtr(amax), getDataPtr(scale),
+                                 getDataPtr(scale_inv)),
+              [](NVTETensor impl) { nvte_destroy_tensor(impl); }},
+        data{data}, amax{amax}, scale{scale}, scale_inv{scale_inv} {}
 };
 
 struct TensorPack : NVTETensorPack {
@@ -145,8 +138,23 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
 }
 
 // Manual wrapper around nvte_multi_cast_transpose
-void multi_cast_transpose(const std::vector<Tensor>& inputs, const std::vector<Tensor>& cast_outs, const std::vector<Tensor>& transposed_outs) {
-  nvte_multi_cast_transpose(inputs.size(), inputs.data(), cast_outs.data(), transposed_outs.data(), at::cuda::getCurrentCUDAStream());
+void multi_cast_transpose(const std::vector<Tensor> &inputs,
+                          const std::vector<Tensor> &cast_outs,
+                          const std::vector<Tensor> &transposed_outs) {
+  count = inputs.size();
+  std::vector<NVTETensor> inputs_(count);
+  std::vector<NVTETensor> cast_outs_(count);
+  std::vector<NVTETensor> transposed_outs_(count);
+
+  for (int i = 0; i < inputs.size(); ++i) {
+    inputs_[i] = (NVTETensor)inputs[i].pimpl.get();
+    cast_outs_[i] = (NVTETensor)cast_outs[i].pimpl.get();
+    transposed_outs_[i] = (NVTETensor)transposed_outs[i].pimpl.get();
+  }
+
+  nvte_multi_cast_transpose(count, inputs_.data(), cast_outs_.data(),
+                            transposed_outs_.data(),
+                            at::cuda::getCurrentCUDAStream());
 }
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
@@ -182,8 +190,8 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
       .value("CAUSAL_MASK", NVTE_CAUSAL_MASK);
 
   py::class_<Tensor>(m, "Tensor", py::module_local())
-      .def(py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor,
-                    at::Tensor>())
+      .def(
+          py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor, at::Tensor>())
       .def_property_readonly("dtype", &Tensor::dtype)
       .def_property_readonly("shape", &Tensor::shape)
       .def_readonly("data", &Tensor::data)

From 19ed18a76a53fad768bd550c0b53ae9aa81c573c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 10:04:21 +0200
Subject: [PATCH 039/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp               | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 8191242baa..f4d8dbd2cc 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -35,7 +35,6 @@
 #include <transformer_engine/transpose.h>
 #include <type_traits>
 
-
 #include "type_list.h"
 
 namespace py = pybind11;
@@ -141,7 +140,7 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
 void multi_cast_transpose(const std::vector<Tensor> &inputs,
                           const std::vector<Tensor> &cast_outs,
                           const std::vector<Tensor> &transposed_outs) {
-  count = inputs.size();
+  auto count = inputs.size();
   std::vector<NVTETensor> inputs_(count);
   std::vector<NVTETensor> cast_outs_(count);
   std::vector<NVTETensor> transposed_outs_(count);

From bb0b63d017af625dd55dbe261f34aa9c6c4f054d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 10:18:07 +0200
Subject: [PATCH 040/535] export names

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/__init__.py            |  3 +
 .../pytorch/sequential/module/__init__.py     |  7 ++
 .../pytorch/sequential/module/sequential.py   | 71 +++++++++++++++++++
 3 files changed, 81 insertions(+)
 create mode 100644 transformer_engine/pytorch/sequential/module/sequential.py

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index e69de29bb2..a97a17716a 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -0,0 +1,3 @@
+from .module import Linear, Sequential
+
+__all__ = ["Linear", "Sequential"]
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
index e69de29bb2..67253946cf 100644
--- a/transformer_engine/pytorch/sequential/module/__init__.py
+++ b/transformer_engine/pytorch/sequential/module/__init__.py
@@ -0,0 +1,7 @@
+from .linear import Linear
+from .sequential import Sequential
+
+__all__ = [
+    "Linear",
+    "Sequential",
+]
diff --git a/transformer_engine/pytorch/sequential/module/sequential.py b/transformer_engine/pytorch/sequential/module/sequential.py
new file mode 100644
index 0000000000..23ccc68ae3
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/sequential.py
@@ -0,0 +1,71 @@
+from __future__ import annotations
+from typing import OrderedDict, overload
+import torch
+from torch import nn
+
+from transformer_engine.pytorch.sequential.ops import Op
+from .base import BaseModule
+
+
+class Sequential(BaseModule):
+    _modules: dict[str, BaseModule]  # type: ignore[assignment]
+
+    @overload
+    def __init__(
+        self,
+        *modules: BaseModule,
+    ) -> None:
+        ...
+
+    @overload
+    def __init__(
+        self,
+        module_dict: OrderedDict[str, BaseModule],
+        /,
+    ) -> None:
+        ...
+
+    def __init__(
+        self,
+        *args: BaseModule | OrderedDict[str, BaseModule],
+    ):
+        modules: list[tuple[str, BaseModule]]
+        if len(args) == 1 and isinstance(args[0], OrderedDict):
+            modules = list(args[0].items())
+        else:
+            args1: tuple[BaseModule, ...] = args  # type: ignore
+            modules = list(map(lambda p: (f"{p[0]}", p[1]), enumerate(args1)))
+
+        for name, module in modules:
+            submodules: list[tuple[str, BaseModule]]
+            if isinstance(module, Sequential):
+                submodules = [(k, v) for k, v in Sequential._modules.items()]
+                for i, (submodule_name, submodule) in enumerate(submodules):
+                    submodules[i] = (f"{name}[{submodule_name}]", submodule)
+            else:
+                submodules = [(name, module)]
+
+            for submodule_name, submodule in submodules:
+                self.add_module(submodule_name, submodule)
+
+        super().__init__(*[op for _, module in modules for op in module.ops])
+
+    def __len__(self):
+        return len(self._modules)
+
+    def __add__(self, other: Sequential) -> Sequential:
+        return Sequential(
+            self,
+            other,
+        )
+
+    def __mul__(self, other: int):
+        if other <= 0:
+            raise ValueError("Repetition factor must be >= 1")
+        else:
+            return Sequential(
+                *(self for _ in range(other)),
+            )
+
+    def __rmul__(self, other: int):
+        return self * other

From 6ad0e061af01da5c8f6096ae7e171d6b61288554 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 10:32:47 +0200
Subject: [PATCH 041/535] fix type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/ops.py | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index 1cdc22d430..72ea41022b 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -32,11 +32,12 @@ def return_grads(*grad: tuple[nvte.Tensor, TensorRecipient | None]):
 def _get_arg_types(f: Callable[..., Any]):
     annotations = typing.get_type_hints(f)
     annotations.pop("return", None)
-    arg_type_names: tuple[str] = tuple(annotations.values())
-    assert all(
-        isinstance(val, str) for val in arg_type_names
-    )  # True due to __future__.annotations
-    arg_types: tuple[type] = tuple(ast.literal_eval(val) for val in arg_type_names)
+    arg_type_annotations: tuple[str | type] = tuple(annotations.values())
+    assert all(isinstance(val, (str, type)) for val in arg_type_annotations)
+    arg_types: tuple[type] = tuple(
+        ast.literal_eval(val) if isinstance(val, str) else val
+        for val in arg_type_annotations
+    )
     return arg_types
 
 

From f0469d558dd00f4c99645782ed867970c32bef57 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 10:33:36 +0200
Subject: [PATCH 042/535] fix type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/ops.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index 72ea41022b..81d9ecc975 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -65,7 +65,7 @@ def register_fusion_backward(
     ]
 ):
     arg_types = _get_arg_types(f)
-    module_count = (len(arg_types) - 1) / 2
+    module_count = (len(arg_types) - 1) // 2
     fused_modules = arg_types[:module_count]
     FUSIONS_BWD[fused_modules] = f
     return f

From 1457b6bec735670498fd3ed31adf163d39884dfa Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 10:54:15 +0200
Subject: [PATCH 043/535] fix init order

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/module/base.py   | 9 ++++++++-
 transformer_engine/pytorch/sequential/module/linear.py | 2 ++
 2 files changed, 10 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index b39e4056d9..a161cbebee 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -14,12 +14,19 @@ class BaseModule(nn.Module):
     compile_env: Environment | None
 
     def __init__(self, *ops: Op | None):
-        super().__init__()  # type: ignore
+        if not self.is_nn_module_initialized():
+            raise AttributeError(
+                f"nn.Module not initialized - call super({BaseModule.__name__}).__init__() before super().__init__()"
+            )
+
         ops_clean = [op for op in ops if op is not None]
         self.ops = ops_clean
         self.pipeline = None
         self.compile_env = None
 
+    def is_nn_module_initialized(self):
+        return hasattr(self, "_parameters")
+
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         env = self._current_env()
         if self.pipeline is None or env != self.compile_env:
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 4516085734..6c11f7b679 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -31,6 +31,8 @@ def __init__(
         ] = _default_weight_init_method,
         bias_init_method: Callable[[torch.Tensor], None] = _default_bias_init_method,
     ):
+        super(BaseModule).__init__()  # type: ignore
+
         self.weight = nn.Parameter(
             torch.empty(out_features, in_features, dtype=param_dtype)
         )

From fd2ed8872f36ed1d8619eab25a24efb69004bad8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 11:20:20 +0200
Subject: [PATCH 044/535] fix nn module init

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/module/base.py   | 9 +--------
 transformer_engine/pytorch/sequential/module/linear.py | 2 +-
 2 files changed, 2 insertions(+), 9 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index a161cbebee..ec69382a13 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -14,19 +14,12 @@ class BaseModule(nn.Module):
     compile_env: Environment | None
 
     def __init__(self, *ops: Op | None):
-        if not self.is_nn_module_initialized():
-            raise AttributeError(
-                f"nn.Module not initialized - call super({BaseModule.__name__}).__init__() before super().__init__()"
-            )
-
+        "Note: nn.Module.__init__ must be called by the derived class"
         ops_clean = [op for op in ops if op is not None]
         self.ops = ops_clean
         self.pipeline = None
         self.compile_env = None
 
-    def is_nn_module_initialized(self):
-        return hasattr(self, "_parameters")
-
     def forward(self, x: torch.Tensor) -> torch.Tensor:
         env = self._current_env()
         if self.pipeline is None or env != self.compile_env:
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 6c11f7b679..2d432250a7 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -31,7 +31,7 @@ def __init__(
         ] = _default_weight_init_method,
         bias_init_method: Callable[[torch.Tensor], None] = _default_bias_init_method,
     ):
-        super(BaseModule).__init__()  # type: ignore
+        nn.Module.__init__(self)  # type: ignore
 
         self.weight = nn.Parameter(
             torch.empty(out_features, in_features, dtype=param_dtype)

From 5594187723a3a6a9e03b441be0abfa1dc242faec Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 11:23:50 +0200
Subject: [PATCH 045/535] fix torch empty usage

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte_utils.py          | 20 +++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index b0972236e4..d09d08e3f0 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -22,7 +22,7 @@ def _cublas_workspace():
     workspace_size = 33_554_432 if _is_hopper() else 4_194_304
     data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
     return nvte.Tensor(
-        nvte.DType.Byte, data, torch.empty(), torch.empty(), torch.empty()
+        nvte.DType.Byte, data, torch.empty(()), torch.empty(()), torch.empty(())
     )
 
 
@@ -38,9 +38,9 @@ def make_nvte_tensor(t: torch.Tensor):
     return nvte.Tensor(
         torch_to_te_dtype(t.dtype),
         t.data,
-        torch.empty(),
-        torch.empty(),
-        torch.empty(),
+        torch.empty(()),
+        torch.empty(()),
+        torch.empty(()),
     )
 
 
@@ -167,9 +167,9 @@ def empty(shape: Sequence[int] = (), dtype: nvte.DType = nvte.DType.Float32):
         return nvte.Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.empty(),
-            torch.empty(),
-            torch.empty(),
+            torch.empty(()),
+            torch.empty(()),
+            torch.empty(()),
         )
 
 
@@ -194,9 +194,9 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], nvte.DType])
         else nvte.Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.empty(),
-            torch.empty(),
-            torch.empty(),
+            torch.empty(()),
+            torch.empty(()),
+            torch.empty(()),
         )
         for shape, dtype in shapes_dtypes
     )

From 323eaef9f2022da97d5aefd97fb0225e652ccb8f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 12:42:28 +0200
Subject: [PATCH 046/535] fix copying op list

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py     | 10 +++++++++-
 transformer_engine/pytorch/sequential/utils.py | 18 ++++++++++++++++++
 2 files changed, 27 insertions(+), 1 deletion(-)
 create mode 100644 transformer_engine/pytorch/sequential/utils.py

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index d45f9f47d3..77425a0d3a 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -1,8 +1,10 @@
+import copy
 from copy import deepcopy
 from functools import partial, reduce
 import operator
 from typing import Callable, Literal
 from typing_extensions import Unpack
+from .utils import set_attribute
 import transformer_engine_cuda as nvte
 from .nvte_utils import is_fp8
 from .ops import Grads, Op, FUSIONS_INF, FUSIONS_FWD, FUSIONS_BWD, Context
@@ -171,9 +173,15 @@ def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
     return functions
 
 
+def copy_op_list(ops: list[Op]):
+    "Deep copy ops, except for tensors"
+    with set_attribute(nvte.Tensor, "__deepcopy__", lambda self, memo: self):
+        return copy.deepcopy(ops)
+
+
 class ComputePipeline:
     def __init__(self, ops: list[Op], env: Environment):
-        ops = deepcopy(ops)
+        ops = copy_op_list(ops)
 
         name_ops(ops)
         if not env.fp8_enabled:
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
new file mode 100644
index 0000000000..de5fb2f07a
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -0,0 +1,18 @@
+from contextlib import contextmanager
+from typing import Any
+
+
+@contextmanager
+def set_attribute(obj: object, attr: str, value: Any):
+    """Set an attribute on an object, and reset it to its original value when the context manager exits."""
+    had_value = hasattr(obj, attr)
+    if had_value:
+        old_value = getattr(obj, attr)
+    setattr(obj, attr, value)
+    try:
+        yield
+    finally:
+        if had_value:
+            setattr(obj, attr, old_value)
+        else:
+            delattr(obj, attr)

From cc30ed096d77f555116aae9ceb6dea7d220928f1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 12:45:45 +0200
Subject: [PATCH 047/535] fix use of kwargs

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 0de3cb474f..52cd531400 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -97,6 +97,6 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
             x = ComputePipelineFunction.apply(  # type: ignore
-                x, *exposed_tensors, op=contained_op, nvte_x=nvte_x
+                x, *exposed_tensors, contained_op, nvte_x
             )
         return x

From 8194c157c586946f0f3de1b85ef8f4c2d9d7ec40 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 12:50:56 +0200
Subject: [PATCH 048/535] fix use of kwargs

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py       | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 52cd531400..ef57cf55f4 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -16,17 +16,19 @@ class ComputePipelineFunction(autograd.Function):
     def forward(
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *exposed_tensors: torch.Tensor,
-        op: Op,
-        nvte_x: nvte.Tensor
+        *args: torch.Tensor | Op | nvte.Tensor
     ):
         """
         exposed_x is used only to let autograd construct the computation graph
         real input and output is nvte_x
         exposed_tensors are exposed for the optimizer to later apply gradients
         """
+        exposed_tensors, op, nvte_x = args[:-2], args[-2], args[-1]
         del exposed_tensors
 
+        assert isinstance(op, Op)
+        assert isinstance(nvte_x, nvte.Tensor)
+
         y, to_save = op.forward(nvte_x)
 
         # Expose backward context for tracing

From 73788dba9518fdaf7a3be3dc2b07c5beb1052fd2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 13:38:26 +0200
Subject: [PATCH 049/535] fix empty tensor creation

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte_utils.py          | 20 +++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index d09d08e3f0..5c5ac6742f 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -22,7 +22,7 @@ def _cublas_workspace():
     workspace_size = 33_554_432 if _is_hopper() else 4_194_304
     data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
     return nvte.Tensor(
-        nvte.DType.Byte, data, torch.empty(()), torch.empty(()), torch.empty(())
+        nvte.DType.Byte, data, torch.Tensor(), torch.Tensor(), torch.Tensor()
     )
 
 
@@ -38,9 +38,9 @@ def make_nvte_tensor(t: torch.Tensor):
     return nvte.Tensor(
         torch_to_te_dtype(t.dtype),
         t.data,
-        torch.empty(()),
-        torch.empty(()),
-        torch.empty(()),
+        torch.Tensor(),
+        torch.Tensor(),
+        torch.Tensor(),
     )
 
 
@@ -167,9 +167,9 @@ def empty(shape: Sequence[int] = (), dtype: nvte.DType = nvte.DType.Float32):
         return nvte.Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.empty(()),
-            torch.empty(()),
-            torch.empty(()),
+            torch.Tensor(),
+            torch.Tensor(),
+            torch.Tensor(),
         )
 
 
@@ -194,9 +194,9 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], nvte.DType])
         else nvte.Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.empty(()),
-            torch.empty(()),
-            torch.empty(()),
+            torch.Tensor(),
+            torch.Tensor(),
+            torch.Tensor(),
         )
         for shape, dtype in shapes_dtypes
     )

From 80d539a3c7e09c8faf425a465146b3623214edf6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 13:44:57 +0200
Subject: [PATCH 050/535] fix iteration bug

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte_utils.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index 5c5ac6742f..5bc472e796 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -269,6 +269,7 @@ def multi_cast_transpose_checked(*desc: tuple[nvte.Tensor, nvte.DType | None]):
             transpose_results.append((t, transpose(t)))
         else:
             to_cast_transpose.append((t, dtype))
+            transpose_results.append(None)
     cast_transpose_results = multi_cast_transpose(*to_cast_transpose)
     results = list[tuple[nvte.Tensor, nvte.Tensor]]()
     i = 0

From c9e0497339b2bbd89d595aa720735950fdefb50c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 13:48:07 +0200
Subject: [PATCH 051/535] fix assert

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte_utils.py | 3 ++-
 transformer_engine/pytorch/sequential/ops.py        | 6 +++---
 2 files changed, 5 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index 5bc472e796..7c0e56a60d 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -205,7 +205,8 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], nvte.DType])
 # CAST + TRANPOSE
 def cast(t: nvte.Tensor, dtype: nvte.DType):
     assert t.dtype != dtype
-    assert is_fp8(t) != is_fp8(dtype)
+    if is_fp8(t):
+        assert not is_fp8(dtype)
 
     output = empty(t.shape, dtype)
     if is_fp8(dtype):
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index 81d9ecc975..f501435e4c 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -189,7 +189,7 @@ def args(self):
 
 
 @register_fusion_inference
-def _(mmt: MMT, add: Add, x: nvte.Tensor):
+def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     (weight, bias) = get_parameters(mmt.weight, add.bias)
     x = nvte_utils.cast_checked(x, mmt.x_dtype)
     weight = nvte_utils.cast_checked(weight, mmt.weight_dtype)
@@ -201,7 +201,7 @@ def _(mmt: MMT, add: Add, x: nvte.Tensor):
 
 
 @register_fusion_forward
-def _(mmt: MMT, add: Add, x: nvte.Tensor):
+def mmt_add_fwd_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     (weight, bias) = get_parameters(mmt.weight, add.bias)
     (x, x_t), (weight, weight_t) = nvte_utils.multi_cast_transpose_checked(
         (x, mmt.x_dtype), (weight, mmt.weight_dtype)
@@ -214,7 +214,7 @@ def _(mmt: MMT, add: Add, x: nvte.Tensor):
 
 
 @register_fusion_backward
-def _(
+def mmt_add_bwd_fused(
     mmt: MMT,
     add: Add,
     mmt_ctx: dict[str, nvte.Tensor],

From 9f68b61f7ccab84b115358bb69de22ae6c6c72ba Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 15:24:34 +0200
Subject: [PATCH 052/535] add cuda error check

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/pybind.cpp      | 27 ++++++++++++++++++-
 1 file changed, 26 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index f4d8dbd2cc..2844bbec5a 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -14,6 +14,7 @@
 #include <ATen/native/DispatchStub.h>
 #include <c10/cuda/CUDAStream.h>
 #include <c10/macros/Macros.h>
+#include <cstdlib>
 #include <cublasLt.h>
 #include <cuda.h>
 #include <cuda_bf16.h>
@@ -37,6 +38,26 @@
 
 #include "type_list.h"
 
+void cuda_check() {
+  static const bool perform_check = []() {
+    const char *var = std::getenv("CUDA_LAUNCH_BLOCKING");
+    if (var && var[0] == '1') {
+      return true;
+    }
+    return false;
+  }();
+
+  if (perform_check) {
+    cudaDeviceSynchronize();
+    auto err = cudaGetLastError();
+    if (err != cudaSuccess) {
+      throw std::runtime_error(
+          "TE kernel error: " + std::string(cudaGetErrorName(err)) + ": " +
+          cudaGetErrorString(err))
+    }
+  }
+}
+
 namespace py = pybind11;
 
 struct Tensor {
@@ -131,7 +152,9 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
     return remove_cuda_stream_arg_helper(func, prefix(), suffix());
   } else {
     return [func](wrapped_arg_t<Args>... args) -> Ret {
-      return func(unwrap_arg(args)...);
+      auto result = func(unwrap_arg(args)...);
+      cuda_check();
+      return result;
     };
   }
 }
@@ -154,6 +177,8 @@ void multi_cast_transpose(const std::vector<Tensor> &inputs,
   nvte_multi_cast_transpose(count, inputs_.data(), cast_outs_.data(),
                             transposed_outs_.data(),
                             at::cuda::getCurrentCUDAStream());
+
+  cuda_check();
 }
 
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {

From 66ca2b3bd15b9d9e4240590675dfc968863d3dc3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 15:29:21 +0200
Subject: [PATCH 053/535] colon

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 2844bbec5a..cda7624425 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -53,7 +53,7 @@ void cuda_check() {
     if (err != cudaSuccess) {
       throw std::runtime_error(
           "TE kernel error: " + std::string(cudaGetErrorName(err)) + ": " +
-          cudaGetErrorString(err))
+          cudaGetErrorString(err));
     }
   }
 }

From cfe6d6b3a2dcac3a64148f3a8930ba3e26250c14 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 15:49:03 +0200
Subject: [PATCH 054/535] make sure tensors are cuda

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp            | 4 ++++
 transformer_engine/pytorch/sequential/module/linear.py      | 6 ++++--
 2 files changed, 8 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index cda7624425..98989edb04 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -77,6 +77,10 @@ struct Tensor {
 
   static float *getDataPtr(at::Tensor t) {
     if (t.numel() > 0) {
+      if (!t.is_cuda()) {
+        throw std::runtime_error(
+            "Cannot create NVTE Tensor: !tensor.is_cuda()");
+      }
       return reinterpret_cast<float *>(t.data_ptr());
     } else {
       return nullptr;
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 2d432250a7..736953c51d 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -34,11 +34,13 @@ def __init__(
         nn.Module.__init__(self)  # type: ignore
 
         self.weight = nn.Parameter(
-            torch.empty(out_features, in_features, dtype=param_dtype)
+            torch.empty(out_features, in_features, dtype=param_dtype, device="cuda")
         )
         weight_init_method(self.weight)
         if bias:
-            self.bias = nn.Parameter(torch.empty(out_features, dtype=param_dtype))
+            self.bias = nn.Parameter(
+                torch.empty(out_features, dtype=param_dtype, device="cuda")
+            )
             bias_init_method(self.bias)
 
         super().__init__(

From 8a273f97585c7a41cd0857953168c476b8a49fd5 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 15:59:11 +0200
Subject: [PATCH 055/535] fix param initialization order

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/linear.py       | 20 +++++++++++--------
 1 file changed, 12 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 736953c51d..34ca22beb1 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -10,13 +10,13 @@
 def _default_weight_init_method(weight: torch.Tensor):
     in_features = weight.shape[0]
     k = 1 / sqrt(in_features)
-    torch.nn.init.uniform_(weight, -k, k)
+    return nn.init.uniform_(weight, -k, k)
 
 
 def _default_bias_init_method(bias: torch.Tensor):
     out_features = bias.shape[0]
     k = 1 / sqrt(out_features)
-    torch.nn.init.uniform_(bias, -k, k)
+    return nn.init.uniform_(bias, -k, k)
 
 
 class Linear(BaseModule):
@@ -27,21 +27,25 @@ def __init__(
         bias: bool = True,
         param_dtype: torch.dtype = torch.get_default_dtype(),
         weight_init_method: Callable[
-            [torch.Tensor], None
+            [torch.Tensor], torch.Tensor
         ] = _default_weight_init_method,
-        bias_init_method: Callable[[torch.Tensor], None] = _default_bias_init_method,
+        bias_init_method: Callable[
+            [torch.Tensor], torch.Tensor
+        ] = _default_bias_init_method,
     ):
         nn.Module.__init__(self)  # type: ignore
 
         self.weight = nn.Parameter(
-            torch.empty(out_features, in_features, dtype=param_dtype, device="cuda")
+            weight_init_method(
+                torch.empty(out_features, in_features, dtype=param_dtype, device="cuda")
+            )
         )
-        weight_init_method(self.weight)
         if bias:
             self.bias = nn.Parameter(
-                torch.empty(out_features, dtype=param_dtype, device="cuda")
+                bias_init_method(
+                    torch.empty(out_features, dtype=param_dtype, device="cuda")
+                )
             )
-            bias_init_method(self.bias)
 
         super().__init__(
             MMT(make_nvte_tensor(self.weight)),

From 6f5c07933de3892fd5e9c4234ad8ffc836494642 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 16:04:10 +0200
Subject: [PATCH 056/535] set if it is backward

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py        | 5 +++--
 transformer_engine/pytorch/sequential/nvte_utils.py        | 7 ++++++-
 2 files changed, 9 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index ef57cf55f4..74eec390d5 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,12 +1,11 @@
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-from torch import nn
 import transformer_engine_cuda as nvte
 
 from .ops import Context, Op
 
-from .nvte_utils import is_fp8, make_nvte_tensor
+from .nvte_utils import is_fp8, make_nvte_tensor, set_is_backward
 
 from .compute_pipeline import ComputePipeline
 
@@ -29,6 +28,7 @@ def forward(
         assert isinstance(op, Op)
         assert isinstance(nvte_x, nvte.Tensor)
 
+        set_is_backward(False)
         y, to_save = op.forward(nvte_x)
 
         # Expose backward context for tracing
@@ -69,6 +69,7 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):
         saved: Context = getattr(ctx, "nvte_ctx")
         op: Op = getattr(ctx, "nvte_op")
 
+        set_is_backward(True)
         data_grad, param_grads = op.backward(saved, make_nvte_tensor(grad_output))
 
         # Check that gradients are not fp8 and can be processed by the optimizer
diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index 7c0e56a60d..8eb0fcb302 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -30,8 +30,13 @@ def _to_cublas_args(A: nvte.Tensor, B: nvte.Tensor, transA: bool, transB: bool):
     return B, A, not transA, not transB
 
 
+def set_is_backward(is_backward: bool):
+    global _is_backward
+    _is_backward = is_backward
+
+
 def _is_during_backward() -> bool:
-    raise NotImplementedError()  # TODO
+    return _is_backward
 
 
 def make_nvte_tensor(t: torch.Tensor):

From 466f178b7eec3f2c581681bad64bfc3512379301 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 16:13:01 +0200
Subject: [PATCH 057/535] make logging report real location of error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../include/transformer_engine/logging.h      | 103 +++++++++---------
 1 file changed, 49 insertions(+), 54 deletions(-)

diff --git a/transformer_engine/common/include/transformer_engine/logging.h b/transformer_engine/common/include/transformer_engine/logging.h
index 9ac0bbbde2..789c7303c0 100644
--- a/transformer_engine/common/include/transformer_engine/logging.h
+++ b/transformer_engine/common/include/transformer_engine/logging.h
@@ -7,68 +7,63 @@
 #ifndef TRANSFORMER_ENGINE_LOGGING_H_
 #define TRANSFORMER_ENGINE_LOGGING_H_
 
-#include <cuda_runtime_api.h>
 #include <cublas_v2.h>
+#include <cuda_runtime_api.h>
 #include <cudnn.h>
 #include <nvrtc.h>
-#include <string>
 #include <stdexcept>
+#include <string>
 
-#define NVTE_ERROR(x) \
-    do { \
-        throw std::runtime_error(std::string(__FILE__ ":") + std::to_string(__LINE__) +            \
-                                 " in function " + __func__ + ": " + x);                           \
-    } while (false)
-
-#define NVTE_CHECK(x, ...)                                                                         \
-    do {                                                                                           \
-        if (!(x)) {                                                                                \
-            NVTE_ERROR(std::string("Assertion failed: "  #x ". ") + std::string(__VA_ARGS__));     \
-        }                                                                                          \
-    } while (false)
-
-namespace {
-
-inline void check_cuda_(cudaError_t status) {
-    if ( status != cudaSuccess ) {
-        NVTE_ERROR("CUDA Error: " + std::string(cudaGetErrorString(status)));
-    }
-}
-
-inline void check_cublas_(cublasStatus_t status) {
-    if ( status != CUBLAS_STATUS_SUCCESS ) {
-        NVTE_ERROR("CUBLAS Error: " + std::string(cublasGetStatusString(status)));
-    }
-}
-
-inline void check_cudnn_(cudnnStatus_t status) {
-    if ( status != CUDNN_STATUS_SUCCESS ) {
-        std::string message;
-        message.reserve(1024);
-        message += "CUDNN Error: ";
-        message += cudnnGetErrorString(status);
-        message += (". "
-                    "For more information, enable cuDNN error logging "
-                    "by setting CUDNN_LOGERR_DBG=1 and "
-                    "CUDNN_LOGDEST_DBG=stderr in the environment.");
-        NVTE_ERROR(message);
-    }
-}
-
-inline void check_nvrtc_(nvrtcResult status) {
-    if ( status != NVRTC_SUCCESS ) {
-        NVTE_ERROR("NVRTC Error: " + std::string(nvrtcGetErrorString(status)));
-    }
-}
+#define NVTE_ERROR(x)                                                          \
+  do {                                                                         \
+    throw std::runtime_error(std::string(__FILE__ ":") +                       \
+                             std::to_string(__LINE__) + " in function " +      \
+                             __func__ + ": " + x);                             \
+  } while (false)
 
-}  // namespace
+#define NVTE_CHECK(x, ...)                                                     \
+  do {                                                                         \
+    if (!(x)) {                                                                \
+      NVTE_ERROR(std::string("Assertion failed: " #x ". ") +                   \
+                 std::string(__VA_ARGS__));                                    \
+    }                                                                          \
+  } while (false)
 
-#define NVTE_CHECK_CUDA(ans) { check_cuda_(ans); }
+#define NVTE_CHECK_CUDA(status)                                                \
+  do {                                                                         \
+    if (status != cudaSuccess) {                                               \
+      NVTE_ERROR("CUDA Error: " + std::string(cudaGetErrorString(status)));    \
+    }                                                                          \
+  } while (false)
 
-#define NVTE_CHECK_CUBLAS(ans) { check_cublas_(ans); }
+#define NVTE_CHECK_CUBLAS(status)                                              \
+  do {                                                                         \
+    if (status != CUBLAS_STATUS_SUCCESS) {                                     \
+      NVTE_ERROR("CUBLAS Error: " +                                            \
+                 std::string(cublasGetStatusString(status)));                  \
+    }                                                                          \
+  } while (false)
 
-#define NVTE_CHECK_CUDNN(ans) { check_cudnn_(ans); }
+#define NVTE_CHECK_CUDNN(status)                                               \
+  do {                                                                         \
+    if (status != CUDNN_STATUS_SUCCESS) {                                      \
+      std::string message;                                                     \
+      message.reserve(1024);                                                   \
+      message += "CUDNN Error: ";                                              \
+      message += cudnnGetErrorString(status);                                  \
+      message += (". "                                                         \
+                  "For more information, enable cuDNN error logging "          \
+                  "by setting CUDNN_LOGERR_DBG=1 and "                         \
+                  "CUDNN_LOGDEST_DBG=stderr in the environment.");             \
+      NVTE_ERROR(message);                                                     \
+    }                                                                          \
+  } while (false)
 
-#define NVTE_CHECK_NVRTC(ans) { check_nvrtc_(ans); }
+#define NVTE_CHECK_NVRTC(status)                                               \
+  do {                                                                         \
+    if (status != NVRTC_SUCCESS) {                                             \
+      NVTE_ERROR("NVRTC Error: " + std::string(nvrtcGetErrorString(status)));  \
+    }                                                                          \
+  } while (false)
 
-#endif  // TRANSFORMER_ENGINE_LOGGING_H_
+#endif // TRANSFORMER_ENGINE_LOGGING_H_

From f9293e43ddb5349abcbd48d83bf92ee63cb2b33d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 16:26:24 +0200
Subject: [PATCH 058/535] add message about cublaslt log level

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../common/include/transformer_engine/logging.h       | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/common/include/transformer_engine/logging.h b/transformer_engine/common/include/transformer_engine/logging.h
index 789c7303c0..bec58f9f88 100644
--- a/transformer_engine/common/include/transformer_engine/logging.h
+++ b/transformer_engine/common/include/transformer_engine/logging.h
@@ -39,8 +39,15 @@
 #define NVTE_CHECK_CUBLAS(status)                                              \
   do {                                                                         \
     if (status != CUBLAS_STATUS_SUCCESS) {                                     \
-      NVTE_ERROR("CUBLAS Error: " +                                            \
-                 std::string(cublasGetStatusString(status)));                  \
+      std::string message;                                                     \
+      message.reserve(1024);                                                   \
+      message += "CUBLAS Error: ";                                             \
+      message += cublasGetStatusString(status);                                \
+      message += (". "                                                         \
+                  "For more information, increase CUBLASLT_LOG_LEVEL, "        \
+                  "by setting CUBLASLT_LOG_LEVEL=N [0-5] "                     \
+                  "in the environment.");                                      \
+      NVTE_ERROR(message);                                                     \
     }                                                                          \
   } while (false)
 

From 3fe84aca3e140af27550f47f75a32b1636d4622b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 16:35:44 +0200
Subject: [PATCH 059/535] fix type mismatch in cublas gemm

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte_utils.py | 7 +++++++
 transformer_engine/pytorch/sequential/ops.py        | 2 +-
 2 files changed, 8 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index 8eb0fcb302..9427bd68c2 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -307,11 +307,14 @@ def cast_transpose_dbias_checked(
 # MATMUL TRANSPOSE
 def matmul_transpose(mat: nvte.Tensor, mul: nvte.Tensor, out_dtype: nvte.DType):
     "returns mat @ mul^T"
+    # TODO: this should be allowed, though cublaslt_gemm cannot be used in this case
+    assert mat.dtype == mul.dtype
     return matmul_transpose_add(mat, mul, empty(), out_dtype)
 
 
 def matmul_transpose_gelu(mat: nvte.Tensor, mul: nvte.Tensor, out_dtype: nvte.DType):
     "returns mat @ mul^T, GELU(mat @ mul^T)"
+    assert mat.dtype == mul.dtype
     return matmul_transpose_add_gelu(mat, mul, empty(), out_dtype)
 
 
@@ -319,6 +322,7 @@ def matmul_transpose_add(
     mat: nvte.Tensor, mul: nvte.Tensor, add: nvte.Tensor, out_dtype: nvte.DType
 ):
     "returns mat @ mul^T + add"
+    assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
     nvte.cublas_gemm(
@@ -342,6 +346,7 @@ def matmul_transpose_add_gelu(
     mat: nvte.Tensor, mul: nvte.Tensor, add: nvte.Tensor, out_dtype: nvte.DType
 ):
     "returns mat @ mul^T + add, GELU(mat @ mul^T + add)"
+    assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
     pre_gelu = empty(out.shape, add.dtype)
@@ -366,6 +371,7 @@ def matmul_transpose_add_add(
     mat: nvte.Tensor, mul: nvte.Tensor, add1: nvte.Tensor, add2: nvte.Tensor
 ):
     "returns mat @ mul^T + add1 + add2"
+    assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     nvte.cublas_gemm(
         a,
@@ -388,6 +394,7 @@ def matmul_transpose_add_gelu_add(
     mat: nvte.Tensor, mul: nvte.Tensor, add1: nvte.Tensor, add2: nvte.Tensor
 ):
     "returns mat @ mul^T + add1, GELU(mat @ mul^T + add1) + add2"
+    assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     pre_gelu = empty(add2.shape, add1.dtype)
     nvte.cublas_gemm(
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index f501435e4c..6de83e5b7b 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -94,7 +94,7 @@ def __init__(
         self,
         weight: nvte.Tensor | TensorProvider,
         dweight_r: TensorRecipient | None = None,
-        x_dtype: nvte.DType | None = None,
+        x_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
         y_dtype: nvte.DType = nvte.DType.Float8E4M3,

From 248a5ae410e49d0c13d326570545ecd73bac8284 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 16:57:07 +0200
Subject: [PATCH 060/535] fix cublas worspace dtype

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte_utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index 9427bd68c2..db5404cae1 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -68,7 +68,7 @@ def _cast_transpose_dbias(
 def te_to_torch_dtype(dtype: nvte.DType):
     match dtype:
         case nvte.DType.Byte:
-            return torch.int8
+            return torch.uint8
         case nvte.DType.Int32:
             return torch.int32
         case nvte.DType.Int64:

From 14daaefc8a66ccb559929fe194a99482104c350c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 17:29:58 +0200
Subject: [PATCH 061/535] fix nvte tensor creqation

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte_utils.py | 8 ++++++++
 1 file changed, 8 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index db5404cae1..39be500276 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -158,6 +158,14 @@ def dbias(t: nvte.Tensor, out_dtype: nvte.DType):
 
 
 def empty(shape: Sequence[int] = (), dtype: nvte.DType = nvte.DType.Float32):
+    if shape == ():
+        return nvte.Tensor(
+            dtype,
+            torch.Tensor(),
+            torch.Tensor(),
+            torch.Tensor(),
+            torch.Tensor(),
+        )
     if is_fp8(dtype):
         return nvte.Tensor(
             dtype,

From 07fa720f59fd87333d609b54ac3c6b06a6425406 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 17:33:03 +0200
Subject: [PATCH 062/535] fix name bug

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 77425a0d3a..3dd9eea0db 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -77,7 +77,7 @@ def forward(self, x: nvte.Tensor):
         full_ctx = Context()
         for op in self.fwds:
             x, ctx = op.forward(x)
-            if not isinstance(x, FusedOp):
+            if not isinstance(op, FusedOp):
                 op_name = getattr(op, "name")
                 ctx = {op_name + name: tensor for name, tensor in ctx.items()}
             full_ctx |= ctx

From 6abb9f52202ea01ef56b9467b3cf00daac69f351 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 17:48:32 +0200
Subject: [PATCH 063/535] fix io

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py    | 18 ++++++++----------
 1 file changed, 8 insertions(+), 10 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 74eec390d5..9e32d2ae87 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -15,17 +15,20 @@ class ComputePipelineFunction(autograd.Function):
     def forward(
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *args: torch.Tensor | Op | nvte.Tensor
+        *args: torch.Tensor | Op | list[nvte.Tensor]
     ):
         """
         exposed_x is used only to let autograd construct the computation graph
-        real input and output is nvte_x
+        real input and output is in list, as nvte.Tensor is immutable
         exposed_tensors are exposed for the optimizer to later apply gradients
         """
-        exposed_tensors, op, nvte_x = args[:-2], args[-2], args[-1]
+        exposed_tensors, op, nvte_x_container = args[:-2], args[-2], args[-1]
         del exposed_tensors
 
         assert isinstance(op, Op)
+        assert isinstance(nvte_x_container, list)
+        assert len(nvte_x_container) == 1
+        nvte_x = nvte_x_container[0]
         assert isinstance(nvte_x, nvte.Tensor)
 
         set_is_backward(False)
@@ -48,12 +51,7 @@ def forward(
         setattr(ctx, "nvte_op", op)
 
         # Actually store the result
-        nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv = (
-            y.data,
-            y.amax,
-            y.scale,
-            y.scale_inv,
-        )
+        nvte_x_container[0] = y
 
         # Preserve computation graph
         exposed_x.data = y.data
@@ -100,6 +98,6 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
             x = ComputePipelineFunction.apply(  # type: ignore
-                x, *exposed_tensors, contained_op, nvte_x
+                x, *exposed_tensors, contained_op, [nvte_x]
             )
         return x

From 025faaa9aaa9d0694d8bd29ddcbc070958d3f2a1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 17:52:44 +0200
Subject: [PATCH 064/535] fix read from context

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 9e32d2ae87..23dc7fd627 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -61,7 +61,7 @@ def forward(
     @staticmethod
     def backward(ctx: FunctionCtx, grad_output: torch.Tensor):
         # The context needs to think that the tensors were read
-        _ = ctx.saved_tensors()  # type: ignore
+        _ = ctx.saved_tensors  # type: ignore
 
         # Get real context
         saved: Context = getattr(ctx, "nvte_ctx")

From bd740597f693fe0e8357a488fa1af309a8361585 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 17:55:54 +0200
Subject: [PATCH 065/535] fix bwd bug

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 3dd9eea0db..164fd12d7b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -86,6 +86,8 @@ def forward(self, x: nvte.Tensor):
     def backward(self, ctx: Context, dy: nvte.Tensor):
         ctxs = [
             {name[len(getattr(op, "name")) :]: tensor for name, tensor in ctx.items()}
+            if not isinstance(op, FusedOp)
+            else ctx
             for op in self.bwds
         ]
         full_grads = Grads()

From dbdb6b0802ae3e14fb43d6a4ce2eb4a941926961 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 18:24:49 +0200
Subject: [PATCH 066/535] fix bwd

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    | 69 +++++++++++--------
 transformer_engine/pytorch/sequential/ops.py  | 68 +++++++-----------
 2 files changed, 67 insertions(+), 70 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 164fd12d7b..4e69f5d0ea 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -7,27 +7,26 @@
 from .utils import set_attribute
 import transformer_engine_cuda as nvte
 from .nvte_utils import is_fp8
-from .ops import Grads, Op, FUSIONS_INF, FUSIONS_FWD, FUSIONS_BWD, Context
+from .ops import (
+    BackwardFused,
+    ForwardFused,
+    Grads,
+    Op,
+    FUSIONS_INF,
+    FUSIONS_FWD,
+    FUSIONS_BWD,
+    Context,
+    Inference,
+)
 from .environment import Environment
 
-Forward = Callable[[nvte.Tensor], tuple[nvte.Tensor, Context]]
-Backward = Callable[[Context, nvte.Tensor], tuple[nvte.Tensor, Grads]]
-Inference = Callable[[nvte.Tensor], nvte.Tensor]
-
 
 class FusedOp(Op):
     def __init__(
         self,
         ops: list[Op],
-        forward: Callable[
-            [nvte.Tensor], tuple[nvte.Tensor, Unpack[tuple[Context, ...]]]
-        ]
-        | None = None,
-        backward: Callable[
-            [Unpack[tuple[Context, ...]], nvte.Tensor],
-            tuple[nvte.Tensor, Unpack[tuple[Grads, ...]]],
-        ]
-        | None = None,
+        forward: ForwardFused | None = None,
+        backward: BackwardFused | None = None,
         inference: Inference | None = None,
     ):
         self.forward_ = forward
@@ -52,14 +51,20 @@ def forward(self, x: nvte.Tensor):
 
     def backward(self, ctx: Context, dy: nvte.Tensor):
         assert self.backward_ is not None
-        ctxs = [
-            {name[len(getattr(op, "name")) :]: tensor for name, tensor in ctx.items()}
-            for op in self.ops
-        ]
-        result = self.backward_(*ctxs, dy)
-        dx: nvte.Tensor = result[0]  # type: ignore
-        grads: tuple[Grads] = result[1:]  # type: ignore
-        return (dx, *grads)
+        ctxs = list[Context]()
+        for op in self.ops:
+            op_name = getattr(op, "name")
+            ctxs.append(
+                {
+                    name[len(op_name) :]: tensor
+                    for name, tensor in ctx.items()
+                    if name.startswith(op_name)
+                }
+            )
+
+        dx, grads = self.backward_(*ctxs, dy)
+        grads_total: Grads = [grad for op_grads in grads for grad in op_grads]
+        return dx, grads_total
 
     def args(self):
         return list(sum((op.args() for op in self.ops), list[nvte.Tensor]()))
@@ -84,12 +89,20 @@ def forward(self, x: nvte.Tensor):
         return x, full_ctx
 
     def backward(self, ctx: Context, dy: nvte.Tensor):
-        ctxs = [
-            {name[len(getattr(op, "name")) :]: tensor for name, tensor in ctx.items()}
-            if not isinstance(op, FusedOp)
-            else ctx
-            for op in self.bwds
-        ]
+        ctxs = list[Context]()
+        for op in self.bwds:
+            if isinstance(op, FusedOp):
+                ctxs.append(ctx)
+            else:
+                op_name = getattr(op, "name")
+                ctxs.append(
+                    {
+                        name[len(op_name) :]: tensor
+                        for name, tensor in ctx.items()
+                        if name.startswith(op_name)
+                    }
+                )
+
         full_grads = Grads()
         for op, ctx in list(zip(self.bwds, ctxs))[::-1]:
             dy, grads = op.backward(ctx, dy)
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index 6de83e5b7b..eadcc98dcf 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -7,24 +7,21 @@
 import transformer_engine_cuda as nvte
 from . import nvte_utils
 
-TensorProvider = Callable[[], nvte.Tensor]
-TensorRecipient = Callable[[nvte.Tensor], None]
 Context = dict[str, nvte.Tensor]
-Grads = tuple[nvte.Tensor | None, ...]
+Grads = list[nvte.Tensor]
+
+Forward = Callable[[nvte.Tensor], tuple[nvte.Tensor, Context]]
+ForwardFused = Callable[[nvte.Tensor], tuple[nvte.Tensor, tuple[Context, ...]]]
+Backward = Callable[[Context, nvte.Tensor], tuple[nvte.Tensor, Grads]]
+BackwardFused = Callable[
+    [Unpack[tuple[Context, ...]], nvte.Tensor], tuple[nvte.Tensor, tuple[Grads, ...]]
+]
+Inference = Callable[[nvte.Tensor], nvte.Tensor]
 
 FUSIONS_INF: dict[tuple[type, ...], Callable[..., Any]] = {}
 FUSIONS_FWD: dict[tuple[type, ...], Callable[..., Any]] = {}
 FUSIONS_BWD: dict[tuple[type, ...], Callable[..., Any]] = {}
 
-
-def get_parameters(*param: nvte.Tensor | TensorProvider):
-    return tuple(p if isinstance(p, nvte.Tensor) else p() for p in param)
-
-
-def return_grads(*grad: tuple[nvte.Tensor, TensorRecipient | None]):
-    return tuple(t if rec is None else rec(t) for t, rec in grad)
-
-
 Ops = TypeVarTuple("Ops")
 OpsAndCtxs = TypeVarTuple("OpsAndCtxs")
 
@@ -50,7 +47,7 @@ def register_fusion_inference(f: Callable[[Unpack[Ops], nvte.Tensor], nvte.Tenso
 def register_fusion_forward(
     f: Callable[
         [Unpack[Ops], nvte.Tensor],
-        tuple[nvte.Tensor, Unpack[tuple[Context, ...]]],
+        tuple[nvte.Tensor, tuple[Context, ...]],
     ]
 ):
     fused_modules = _get_arg_types(f)[:-1]
@@ -61,7 +58,7 @@ def register_fusion_forward(
 def register_fusion_backward(
     f: Callable[
         [Unpack[OpsAndCtxs], nvte.Tensor],
-        tuple[nvte.Tensor, Unpack[tuple[Grads, ...]]],
+        tuple[nvte.Tensor, tuple[Grads, ...]],
     ]
 ):
     arg_types = _get_arg_types(f)
@@ -92,8 +89,7 @@ def args(self) -> list[nvte.Tensor]:
 class MMT(Op):
     def __init__(
         self,
-        weight: nvte.Tensor | TensorProvider,
-        dweight_r: TensorRecipient | None = None,
+        weight: nvte.Tensor,
         x_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
@@ -102,7 +98,6 @@ def __init__(
         dweight_dtype: nvte.DType = nvte.DType.BFloat16,
     ):
         self.weight = weight
-        self.dweight_r = dweight_r
         self.x_dtype = x_dtype
         self.weight_dtype = weight_dtype
         self.dy_dtype = dy_dtype
@@ -111,18 +106,16 @@ def __init__(
         self.dweight_dtype = dweight_dtype
 
     def inference(self, x: nvte.Tensor):
-        (weight,) = get_parameters(self.weight)
         x = nvte_utils.cast_checked(x, self.x_dtype)
-        weight = nvte_utils.cast_checked(weight, self.weight_dtype)
+        weight = nvte_utils.cast_checked(self.weight, self.weight_dtype)
 
         y = nvte_utils.matmul_transpose(x, weight, self.y_dtype)
 
         return y
 
     def forward(self, x: nvte.Tensor):
-        (weight,) = get_parameters(self.weight)
         (x, x_t), (weight, weight_t) = nvte_utils.multi_cast_transpose_checked(
-            (x, self.x_dtype), (weight, self.weight_dtype)
+            (x, self.x_dtype), (self.weight, self.weight_dtype)
         )
 
         y = nvte_utils.matmul_transpose(x, weight, self.y_dtype)
@@ -136,17 +129,16 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         dx = nvte_utils.matmul_transpose(dy, weight_t, self.dx_dtype)
         dweight = nvte_utils.matmul_transpose(x_t, dy_t, self.dweight_dtype)
 
-        return dx, return_grads((dweight, self.dweight_r))
+        return dx, [dweight]
 
     def args(self):
-        return [*get_parameters(self.weight)]
+        return [self.weight]
 
 
 class Add(Op):
     def __init__(
         self,
-        bias: nvte.Tensor | TensorProvider,
-        dbias_r: TensorRecipient | None = None,
+        bias: nvte.Tensor,
         x_dtype: nvte.DType | None = None,
         bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
@@ -155,7 +147,6 @@ def __init__(
         dbias_dtype: nvte.DType = nvte.DType.BFloat16,
     ):
         self.bias = bias
-        self.dbias_r = dbias_r
         self.x_dtype = x_dtype
         self.bias_dtype = bias_dtype
         self.dy_dtype = dy_dtype
@@ -167,9 +158,8 @@ def inference(self, x: nvte.Tensor):
         return self.forward(x)[0]
 
     def forward(self, x: nvte.Tensor):
-        (bias,) = get_parameters(self.bias)
         x = nvte_utils.cast_checked(x, self.x_dtype)
-        bias = nvte_utils.cast_checked(bias, self.bias_dtype)
+        bias = nvte_utils.cast_checked(self.bias, self.bias_dtype)
 
         y = nvte_utils.add(x, bias, self.y_dtype)
 
@@ -182,18 +172,17 @@ def backward(self, ctx: dict[str, nvte.Tensor], dy: nvte.Tensor):
         dx = nvte_utils.cast_checked(dy, self.dx_dtype)
         dbias = nvte_utils.dbias(dy, self.dbias_dtype)
 
-        return dx, return_grads((dbias, self.dbias_r))
+        return dx, [dbias]
 
     def args(self):
-        return [*get_parameters(self.bias)]
+        return [self.bias]
 
 
 @register_fusion_inference
 def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
-    (weight, bias) = get_parameters(mmt.weight, add.bias)
     x = nvte_utils.cast_checked(x, mmt.x_dtype)
-    weight = nvte_utils.cast_checked(weight, mmt.weight_dtype)
-    bias = nvte_utils.cast_checked(bias, add.bias_dtype)
+    weight = nvte_utils.cast_checked(mmt.weight, mmt.weight_dtype)
+    bias = nvte_utils.cast_checked(add.bias, add.bias_dtype)
 
     y = nvte_utils.matmul_transpose_add(x, weight, bias, add.y_dtype)
 
@@ -202,15 +191,14 @@ def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
 
 @register_fusion_forward
 def mmt_add_fwd_fused(mmt: MMT, add: Add, x: nvte.Tensor):
-    (weight, bias) = get_parameters(mmt.weight, add.bias)
     (x, x_t), (weight, weight_t) = nvte_utils.multi_cast_transpose_checked(
-        (x, mmt.x_dtype), (weight, mmt.weight_dtype)
+        (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
     )
-    bias = nvte_utils.cast_checked(bias, add.bias_dtype)
+    bias = nvte_utils.cast_checked(add.bias, add.bias_dtype)
 
     y = nvte_utils.matmul_transpose_add(x, weight, bias, add.y_dtype)
 
-    return y, {"x_t": x_t, "weight_t": weight_t}, Context()
+    return y, ({"x_t": x_t, "weight_t": weight_t}, Context())
 
 
 @register_fusion_backward
@@ -230,8 +218,4 @@ def mmt_add_bwd_fused(
     dx = nvte_utils.matmul_transpose(dy, weight_t, mmt.dx_dtype)
     dweight = nvte_utils.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
 
-    return (
-        dx,
-        return_grads((dweight, mmt.dweight_r)),
-        return_grads((dbias, add.dbias_r)),
-    )
+    return dx, ([dweight], [dbias])

From b2f90237a1263991124ec45746556d5aa8bc33d0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 18:27:01 +0200
Subject: [PATCH 067/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 4e69f5d0ea..c4af9d79e4 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -40,10 +40,9 @@ def inference(self, x: nvte.Tensor) -> nvte.Tensor:
 
     def forward(self, x: nvte.Tensor):
         assert self.forward_ is not None
-        result = self.forward_(x)
-        y: nvte.Tensor = result[0]  # type: ignore
+        y, ctxs = self.forward_(x)
         full_ctx = Context()
-        for op, ctx in zip(self.ops, result[1:]):  # type: ignore
+        for op, ctx in zip(self.ops, ctxs):
             op_name = getattr(op, "name")
             ctx: Context = {op_name + name: tensor for name, tensor in ctx.items()}
             full_ctx |= ctx

From d2cff309af420789cf2e5442eaa559a1035550e6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 18:34:21 +0200
Subject: [PATCH 068/535] fix missing init call

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/module/sequential.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/module/sequential.py b/transformer_engine/pytorch/sequential/module/sequential.py
index 23ccc68ae3..865b5e095c 100644
--- a/transformer_engine/pytorch/sequential/module/sequential.py
+++ b/transformer_engine/pytorch/sequential/module/sequential.py
@@ -29,6 +29,7 @@ def __init__(
         self,
         *args: BaseModule | OrderedDict[str, BaseModule],
     ):
+        nn.Module.__init__(self)  # type: ignore
         modules: list[tuple[str, BaseModule]]
         if len(args) == 1 and isinstance(args[0], OrderedDict):
             modules = list(args[0].items())

From 4ae407b86481ad5b89e37f898819892321a89a69 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 11 Aug 2023 19:38:12 +0200
Subject: [PATCH 069/535] add layernorm forward

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   |   7 +-
 .../pytorch/sequential/module/layernorm.py    |  34 ++++++
 .../pytorch/sequential/module/linear.py       |   6 +-
 .../pytorch/sequential/nvte_utils.py          | 109 ++++++++++++++----
 transformer_engine/pytorch/sequential/ops.py  |  50 ++++++++
 5 files changed, 178 insertions(+), 28 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/module/layernorm.py

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 23dc7fd627..8b4148d60c 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -5,7 +5,7 @@
 
 from .ops import Context, Op
 
-from .nvte_utils import is_fp8, make_nvte_tensor, set_is_backward
+from .nvte_utils import is_fp8, make_nvte_tensor, set_current_pass
 
 from .compute_pipeline import ComputePipeline
 
@@ -31,7 +31,7 @@ def forward(
         nvte_x = nvte_x_container[0]
         assert isinstance(nvte_x, nvte.Tensor)
 
-        set_is_backward(False)
+        set_current_pass("forward")
         y, to_save = op.forward(nvte_x)
 
         # Expose backward context for tracing
@@ -67,7 +67,7 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):
         saved: Context = getattr(ctx, "nvte_ctx")
         op: Op = getattr(ctx, "nvte_op")
 
-        set_is_backward(True)
+        set_current_pass("backward")
         data_grad, param_grads = op.backward(saved, make_nvte_tensor(grad_output))
 
         # Check that gradients are not fp8 and can be processed by the optimizer
@@ -85,6 +85,7 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
     nvte_x = make_nvte_tensor(x)
     if not training:
+        set_current_pass("inference")
         y = pipeline.run_inference(nvte_x)
         assert not is_fp8(y)
         return y.data
diff --git a/transformer_engine/pytorch/sequential/module/layernorm.py b/transformer_engine/pytorch/sequential/module/layernorm.py
new file mode 100644
index 0000000000..0f6094e1a8
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/layernorm.py
@@ -0,0 +1,34 @@
+import torch
+from torch import nn
+from .base import BaseModule
+from .. import ops
+from nvte_utils import make_nvte_tensor
+
+
+class LayerNorm(BaseModule):
+    def __init__(
+        self,
+        features: int,
+        eps: float = 1e-5,
+        zero_centered_gamma: bool = False,
+        param_dtype: torch.dtype = torch.get_default_dtype(),
+    ):
+        nn.Module.__init__(self)  # type: ignore
+
+        self.weight = nn.Parameter(
+            torch.zeros(features, dtype=param_dtype, device="cuda")
+            if zero_centered_gamma
+            else torch.ones(features, dtype=param_dtype, device="cuda")
+        )
+        self.bias = nn.Parameter(
+            torch.zeros(features, dtype=param_dtype, device="cuda")
+        )
+
+        super().__init__(
+            ops.LayerNorm(
+                eps,
+                zero_centered_gamma,
+                make_nvte_tensor(self.weight),
+                make_nvte_tensor(self.bias),
+            )
+        )
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 34ca22beb1..178895feba 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -3,7 +3,7 @@
 import torch
 from torch import nn
 from .base import BaseModule
-from ..ops import MMT, Add
+from .. import ops
 from ..nvte_utils import make_nvte_tensor
 
 
@@ -48,6 +48,6 @@ def __init__(
             )
 
         super().__init__(
-            MMT(make_nvte_tensor(self.weight)),
-            Add(make_nvte_tensor(self.bias)) if bias else None,
+            ops.MMT(make_nvte_tensor(self.weight)),
+            ops.Add(make_nvte_tensor(self.bias)) if bias else None,
         )
diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index 39be500276..87f481b09a 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -1,6 +1,7 @@
 from functools import cache
+import os
 import subprocess
-from typing import Sequence
+from typing import Literal, Sequence
 import torch
 import transformer_engine_cuda as nvte
 
@@ -26,17 +27,32 @@ def _cublas_workspace():
     )
 
 
-def _to_cublas_args(A: nvte.Tensor, B: nvte.Tensor, transA: bool, transB: bool):
-    return B, A, not transA, not transB
+@cache
+def _fwd_ln_sm_margin():
+    return int(os.getenv("NVTE_FWD_LAYERNORM_SM_MARGIN", "0"))
+
+
+@cache
+def _bwd_ln_sm_margin():
+    return int(os.getenv("NVTE_BWD_LAYERNORM_SM_MARGIN", "0"))
+
 
+def _sm_margin():
+    if _pass == "backward":
+        return _bwd_ln_sm_margin()
+    elif _pass == "forward":
+        return _fwd_ln_sm_margin()
+    else:
+        return 0
 
-def set_is_backward(is_backward: bool):
-    global _is_backward
-    _is_backward = is_backward
 
+def _to_cublas_args(A: nvte.Tensor, B: nvte.Tensor, transA: bool, transB: bool):
+    return B, A, not transA, not transB
 
-def _is_during_backward() -> bool:
-    return _is_backward
+
+def set_current_pass(pass_: Literal["forward", "backward", "inference"]):
+    global _pass
+    _pass = pass_
 
 
 def make_nvte_tensor(t: torch.Tensor):
@@ -56,12 +72,12 @@ def _cast_transpose_dbias(
     transposed_output: nvte.Tensor,
     dbias: nvte.Tensor,
 ):
-    workspace_query = empty()
-    nvte.cast_transpose_dbias(
-        input, cast_output, transposed_output, dbias, workspace_query
-    )
-    workspace = empty_like(workspace_query)
-    nvte.cast_transpose_dbias(input, cast_output, transposed_output, dbias, workspace)
+    workspace = empty()
+    for _ in range(2):
+        nvte.cast_transpose_dbias(
+            input, cast_output, transposed_output, dbias, workspace
+        )
+        workspace = empty_like(workspace)
 
 
 # DTYPES
@@ -341,10 +357,10 @@ def matmul_transpose_add(
         empty(),
         trans_a,
         trans_b,
-        _is_during_backward(),
+        _pass == "backward",
         _cublas_workspace(),
         False,
-        _is_during_backward(),
+        _pass == "backward",
         0,
     )
     return out
@@ -366,10 +382,10 @@ def matmul_transpose_add_gelu(
         pre_gelu,
         trans_a,
         trans_b,
-        _is_during_backward(),
+        _pass == "backward",
         _cublas_workspace(),
         False,
-        _is_during_backward(),
+        _pass == "backward",
         0,
     )
     return pre_gelu, out
@@ -389,10 +405,10 @@ def matmul_transpose_add_add(
         empty(),
         trans_a,
         trans_b,
-        _is_during_backward(),
+        _pass == "backward",
         _cublas_workspace(),
         True,
-        _is_during_backward(),
+        _pass == "backward",
         0,
     )
     return add2
@@ -413,10 +429,59 @@ def matmul_transpose_add_gelu_add(
         pre_gelu,
         trans_a,
         trans_b,
-        _is_during_backward(),
+        _pass == "backward",
         _cublas_workspace(),
         True,
-        _is_during_backward(),
+        _pass == "backward",
         0,
     )
     return pre_gelu, add2
+
+
+# LAYERNORM
+def layernorm(
+    inp: nvte.Tensor,
+    eps: float,
+    zero_centered_gamma: bool,
+    gamma: nvte.Tensor,
+    beta: nvte.Tensor,
+    out_dtype: nvte.DType,
+):
+    "returns (inp - mean(inp)) / sqrt(var(inp) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
+
+    assert len(inp.shape) == 2
+    n = inp.shape[0]
+    mu = empty((n,), nvte.DType.Float32)
+    rsigma = empty((n,), nvte.DType.Float32)
+    out = empty(inp.shape, out_dtype)
+    multiProcessorCount = torch.cuda.get_device_properties(  # type: ignore
+        torch.cuda.current_device()
+    ).multiProcessorCount
+    assert isinstance(multiProcessorCount, int)
+    sm_margin = _sm_margin()
+
+    workspace = empty()
+    barrier = empty()
+
+    if zero_centered_gamma:
+        func = nvte.layernorm1p_fwd
+    else:
+        func = nvte.layernorm_fwd
+
+    for _ in range(2):
+        func(
+            inp,
+            gamma,
+            beta,
+            eps,
+            out,
+            mu,
+            rsigma,
+            multiProcessorCount - sm_margin,
+            workspace,
+            barrier,
+        )
+        workspace = empty_like(workspace)
+        barrier = empty_like(barrier)
+
+    return out, mu, rsigma
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index eadcc98dcf..18116e7456 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -178,6 +178,56 @@ def args(self):
         return [self.bias]
 
 
+class LayerNorm(Op):
+    def __init__(
+        self,
+        eps: float,
+        zero_centered_gamma: bool,
+        weight: nvte.Tensor,
+        bias: nvte.Tensor,
+        x_dtype: nvte.DType | None = None,
+        weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dy_dtype: nvte.DType | None = None,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
+        dbias_dtype: nvte.DType = nvte.DType.BFloat16,
+    ):
+        self.eps = eps
+        self.zero_centered_gamma = zero_centered_gamma
+        self.weight = weight
+        self.bias = bias
+        self.x_dtype = x_dtype
+        self.weight_dtype = weight_dtype
+        self.bias_dtype = bias_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+        self.dweight_dtype = dweight_dtype
+        self.dbias_dtype = dbias_dtype
+
+    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
+        return self.forward(x)[0]
+
+    def forward(self, x: nvte.Tensor):
+        x = nvte_utils.cast_checked(x, self.x_dtype)
+        weight = nvte_utils.cast_checked(self.weight, self.weight_dtype)
+        bias = nvte_utils.cast_checked(self.bias, self.bias_dtype)
+
+        y, mu, rsigma = nvte_utils.layernorm(
+            x, self.eps, self.zero_centered_gamma, weight, bias, self.y_dtype
+        )
+
+        return y, {"mu": mu, "rsigma": rsigma}
+
+    def backward(self, ctx: dict[str, nvte.Tensor], dy: nvte.Tensor):
+        raise NotImplementedError()
+
+    def args(self):
+        return [self.weight, self.bias]
+
+
 @register_fusion_inference
 def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     x = nvte_utils.cast_checked(x, mmt.x_dtype)

From 6fc476f957a9a4c99c0b049ad23b4b0e78a930d7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 11:31:12 +0200
Subject: [PATCH 070/535] add layernorm bwd

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/layernorm.py    |   2 +-
 .../pytorch/sequential/nvte_utils.py          | 125 ++++++++++++------
 transformer_engine/pytorch/sequential/ops.py  |  29 +++-
 .../sequential/transformer_engine_cuda.pyi    |   2 +
 4 files changed, 110 insertions(+), 48 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/layernorm.py b/transformer_engine/pytorch/sequential/module/layernorm.py
index 0f6094e1a8..fb4b7b4303 100644
--- a/transformer_engine/pytorch/sequential/module/layernorm.py
+++ b/transformer_engine/pytorch/sequential/module/layernorm.py
@@ -2,7 +2,7 @@
 from torch import nn
 from .base import BaseModule
 from .. import ops
-from nvte_utils import make_nvte_tensor
+from ..nvte_utils import make_nvte_tensor
 
 
 class LayerNorm(BaseModule):
diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index 87f481b09a..7bf7d4ae5b 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -37,6 +37,13 @@ def _bwd_ln_sm_margin():
     return int(os.getenv("NVTE_BWD_LAYERNORM_SM_MARGIN", "0"))
 
 
+@cache
+def _sm_total_count() -> int:
+    return torch.cuda.get_device_properties(  # type: ignore
+        torch.cuda.current_device()
+    ).multiProcessorCount
+
+
 def _sm_margin():
     if _pass == "backward":
         return _bwd_ln_sm_margin()
@@ -65,21 +72,6 @@ def make_nvte_tensor(t: torch.Tensor):
     )
 
 
-# Wrappers around functions needing workspace
-def _cast_transpose_dbias(
-    input: nvte.Tensor,
-    cast_output: nvte.Tensor,
-    transposed_output: nvte.Tensor,
-    dbias: nvte.Tensor,
-):
-    workspace = empty()
-    for _ in range(2):
-        nvte.cast_transpose_dbias(
-            input, cast_output, transposed_output, dbias, workspace
-        )
-        workspace = empty_like(workspace)
-
-
 # DTYPES
 def te_to_torch_dtype(dtype: nvte.DType):
     match dtype:
@@ -161,11 +153,11 @@ def add(A: nvte.Tensor, B: nvte.Tensor, out_dtype: nvte.DType):
         return make_nvte_tensor(output)
 
 
-def dbias(t: nvte.Tensor, out_dtype: nvte.DType):
-    if is_fp8(t):
+def dbias(grad: nvte.Tensor, out_dtype: nvte.DType):
+    if is_fp8(grad):
         raise NotImplementedError()
     else:
-        output = torch.sum(t.data, dtype=te_to_torch_dtype(out_dtype), dim=0)
+        output = torch.sum(grad.data, dtype=te_to_torch_dtype(out_dtype), dim=0)
         return make_nvte_tensor(output)
 
 
@@ -313,18 +305,27 @@ def multi_cast_transpose_checked(*desc: tuple[nvte.Tensor, nvte.DType | None]):
 
 
 def cast_transpose_dbias_checked(
-    t: nvte.Tensor, cast_dtype: nvte.DType | None, dbias_dtype: nvte.DType
+    grad: nvte.Tensor, cast_dtype: nvte.DType | None, dbias_dtype: nvte.DType
 ):
-    if dbias_dtype == t.dtype and cast_dtype is not None and cast_dtype != t.dtype:
+    if (
+        dbias_dtype == grad.dtype
+        and cast_dtype is not None
+        and cast_dtype != grad.dtype
+    ):
         out_cast, out_transpose = multi_empty_share_metadata(
-            (t.shape, cast_dtype), (t.shape[::-1], cast_dtype)
+            (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
         )
-        out_dbias = empty((t.shape[1],), dbias_dtype)
-        _cast_transpose_dbias(t, out_cast, out_transpose, out_dbias)
+        out_dbias = empty((grad.shape[1],), dbias_dtype)
+        workspace = empty()
+        for _ in range(2):
+            nvte.cast_transpose_dbias(
+                grad, out_cast, out_transpose, out_dbias, workspace
+            )
+            workspace = empty_like(workspace)
         return out_cast, out_transpose, out_dbias
     else:
-        out_cast, out_transpose = cast_transpose_checked(t, cast_dtype)
-        out_dbias = dbias(t, dbias_dtype)
+        out_cast, out_transpose = cast_transpose_checked(grad, cast_dtype)
+        out_dbias = dbias(grad, dbias_dtype)
         return out_cast, out_transpose, out_dbias
 
 
@@ -440,44 +441,38 @@ def matmul_transpose_add_gelu_add(
 
 # LAYERNORM
 def layernorm(
-    inp: nvte.Tensor,
+    x: nvte.Tensor,
     eps: float,
     zero_centered_gamma: bool,
     gamma: nvte.Tensor,
     beta: nvte.Tensor,
     out_dtype: nvte.DType,
 ):
-    "returns (inp - mean(inp)) / sqrt(var(inp) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
+    "returns (x - mean(x)) / sqrt(var(x) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
 
-    assert len(inp.shape) == 2
-    n = inp.shape[0]
+    assert len(x.shape) == 2
+    n = x.shape[0]
     mu = empty((n,), nvte.DType.Float32)
     rsigma = empty((n,), nvte.DType.Float32)
-    out = empty(inp.shape, out_dtype)
-    multiProcessorCount = torch.cuda.get_device_properties(  # type: ignore
-        torch.cuda.current_device()
-    ).multiProcessorCount
-    assert isinstance(multiProcessorCount, int)
-    sm_margin = _sm_margin()
-
-    workspace = empty()
-    barrier = empty()
+    out = empty(x.shape, out_dtype)
 
     if zero_centered_gamma:
         func = nvte.layernorm1p_fwd
     else:
         func = nvte.layernorm_fwd
 
+    workspace = empty()
+    barrier = empty()
     for _ in range(2):
         func(
-            inp,
+            x,
             gamma,
             beta,
             eps,
             out,
             mu,
             rsigma,
-            multiProcessorCount - sm_margin,
+            _sm_total_count() - _sm_margin(),
             workspace,
             barrier,
         )
@@ -485,3 +480,53 @@ def layernorm(
         barrier = empty_like(barrier)
 
     return out, mu, rsigma
+
+
+def dlayernorm(
+    grad: nvte.Tensor,
+    zero_centered_gamma: bool,
+    x: nvte.Tensor,
+    gamma: nvte.Tensor,
+    mu: nvte.Tensor,
+    rsigma: nvte.Tensor,
+    dx_dtype: nvte.DType,
+    dgamma_dtype: nvte.DType,
+    dbeta_dtype: nvte.DType,
+):
+    "returns dx, dgamma, dbeta"
+
+    dx = empty(x.shape, dx_dtype)
+    dgamma = empty(gamma.shape, dgamma_dtype)
+    dbeta = empty(gamma.shape, dbeta_dtype)
+
+    if zero_centered_gamma:
+        func = nvte.layernorm1p_bwd
+    else:
+        func = nvte.layernorm_bwd
+
+    workspace = empty()
+    barrier = empty()
+    dgamma_part = empty()
+    dbeta_part = empty()
+    for _ in range(2):
+        func(
+            grad,
+            x,
+            mu,
+            rsigma,
+            gamma,
+            dx,
+            dgamma,
+            dbeta,
+            dgamma_part,
+            dbeta_part,
+            _sm_total_count() - _sm_margin(),
+            workspace,
+            barrier,
+        )
+        workspace = empty_like(workspace)
+        barrier = empty_like(barrier)
+        dgamma_part = empty_like(dgamma_part)
+        dbeta_part = empty_like(dbeta_part)
+
+    return dx, dgamma, dbeta
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index 18116e7456..e8300e43f8 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -2,7 +2,7 @@
 from abc import ABC, abstractmethod
 import ast
 import typing
-from typing import Any, Callable
+from typing import Any, Callable, final
 from typing_extensions import Unpack, TypeVarTuple
 import transformer_engine_cuda as nvte
 from . import nvte_utils
@@ -165,7 +165,7 @@ def forward(self, x: nvte.Tensor):
 
         return y, Context()
 
-    def backward(self, ctx: dict[str, nvte.Tensor], dy: nvte.Tensor):
+    def backward(self, ctx: Context, dy: nvte.Tensor):
         del ctx
         dy = nvte_utils.cast_checked(dy, self.dy_dtype)
 
@@ -219,10 +219,25 @@ def forward(self, x: nvte.Tensor):
             x, self.eps, self.zero_centered_gamma, weight, bias, self.y_dtype
         )
 
-        return y, {"mu": mu, "rsigma": rsigma}
+        return y, {"x": x, "weight": weight, "mu": mu, "rsigma": rsigma}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        x, weight, mu, rsigma = ctx["x"], ctx["weight"], ctx["mu"], ctx["rsigma"]
+        dy = nvte_utils.cast_checked(dy, self.dy_dtype)
+
+        dx, dweight, dbias = nvte_utils.dlayernorm(
+            dy,
+            self.zero_centered_gamma,
+            x,
+            weight,
+            mu,
+            rsigma,
+            self.dx_dtype,
+            self.dweight_dtype,
+            self.dbias_dtype,
+        )
 
-    def backward(self, ctx: dict[str, nvte.Tensor], dy: nvte.Tensor):
-        raise NotImplementedError()
+        return dx, [dweight, dbias]
 
     def args(self):
         return [self.weight, self.bias]
@@ -255,8 +270,8 @@ def mmt_add_fwd_fused(mmt: MMT, add: Add, x: nvte.Tensor):
 def mmt_add_bwd_fused(
     mmt: MMT,
     add: Add,
-    mmt_ctx: dict[str, nvte.Tensor],
-    add_ctx: dict[str, nvte.Tensor],
+    mmt_ctx: Context,
+    add_ctx: Context,
     dy: nvte.Tensor,
 ):
     del add_ctx
diff --git a/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi b/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
index 16f3a8c00f..d927161675 100644
--- a/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
+++ b/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
@@ -1,3 +1,5 @@
+# pylint: skip-file
+
 import torch
 from enum import Enum
 from typing import Sequence

From d85bb061fef6beb1caf0163d3b6b914ffa9dbcee Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 11:32:58 +0200
Subject: [PATCH 071/535] import layernorm

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/__init__.py        | 8 ++++++--
 transformer_engine/pytorch/sequential/module/__init__.py | 2 ++
 2 files changed, 8 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index a97a17716a..332d315cd6 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -1,3 +1,7 @@
-from .module import Linear, Sequential
+from .module import LayerNorm, Linear, Sequential
 
-__all__ = ["Linear", "Sequential"]
+__all__ = [
+    "LayerNorm",
+    "Linear",
+    "Sequential",
+]
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
index 67253946cf..2cd3a66dc6 100644
--- a/transformer_engine/pytorch/sequential/module/__init__.py
+++ b/transformer_engine/pytorch/sequential/module/__init__.py
@@ -1,7 +1,9 @@
 from .linear import Linear
 from .sequential import Sequential
+from .layernorm import LayerNorm
 
 __all__ = [
+    "LayerNorm",
     "Linear",
     "Sequential",
 ]

From 71c34180a415c24ad15f700ff8d8901f95c85a13 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 11:34:03 +0200
Subject: [PATCH 072/535] fix attr spelling

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte_utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index 7bf7d4ae5b..47486e5e1d 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -41,7 +41,7 @@ def _bwd_ln_sm_margin():
 def _sm_total_count() -> int:
     return torch.cuda.get_device_properties(  # type: ignore
         torch.cuda.current_device()
-    ).multiProcessorCount
+    ).multi_processor_count
 
 
 def _sm_margin():

From dd9c3051cf73925bf5ac2303b2791de3dc3696d6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 11:46:16 +0200
Subject: [PATCH 073/535] add error message to layernorm

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte_utils.py          | 100 +++++++++++-------
 1 file changed, 59 insertions(+), 41 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index 47486e5e1d..a5aace4daa 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -461,23 +461,32 @@ def layernorm(
     else:
         func = nvte.layernorm_fwd
 
-    workspace = empty()
-    barrier = empty()
-    for _ in range(2):
-        func(
-            x,
-            gamma,
-            beta,
-            eps,
-            out,
-            mu,
-            rsigma,
-            _sm_total_count() - _sm_margin(),
-            workspace,
-            barrier,
-        )
-        workspace = empty_like(workspace)
-        barrier = empty_like(barrier)
+    try:
+        workspace = empty()
+        barrier = empty()
+        for _ in range(2):
+            func(
+                x,
+                gamma,
+                beta,
+                eps,
+                out,
+                mu,
+                rsigma,
+                _sm_total_count() - _sm_margin(),
+                workspace,
+                barrier,
+            )
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
+    except RuntimeError as error:
+        if "in function get_fwd_launcher: FWD: Unsupported types." in str(error):
+            raise ValueError(
+                "This configuration for layernorm is not supported. "
+                "(Regex) Search for REGISTER_FWD_(TUNED|GENERAL)_LAUNCHER to see possible options."
+            ) from error
+        else:
+            raise
 
     return out, mu, rsigma
 
@@ -504,29 +513,38 @@ def dlayernorm(
     else:
         func = nvte.layernorm_bwd
 
-    workspace = empty()
-    barrier = empty()
-    dgamma_part = empty()
-    dbeta_part = empty()
-    for _ in range(2):
-        func(
-            grad,
-            x,
-            mu,
-            rsigma,
-            gamma,
-            dx,
-            dgamma,
-            dbeta,
-            dgamma_part,
-            dbeta_part,
-            _sm_total_count() - _sm_margin(),
-            workspace,
-            barrier,
-        )
-        workspace = empty_like(workspace)
-        barrier = empty_like(barrier)
-        dgamma_part = empty_like(dgamma_part)
-        dbeta_part = empty_like(dbeta_part)
+    try:
+        workspace = empty()
+        barrier = empty()
+        dgamma_part = empty()
+        dbeta_part = empty()
+        for _ in range(2):
+            func(
+                grad,
+                x,
+                mu,
+                rsigma,
+                gamma,
+                dx,
+                dgamma,
+                dbeta,
+                dgamma_part,
+                dbeta_part,
+                _sm_total_count() - _sm_margin(),
+                workspace,
+                barrier,
+            )
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
+            dgamma_part = empty_like(dgamma_part)
+            dbeta_part = empty_like(dbeta_part)
+    except RuntimeError as error:
+        if "in function get_bwd_launcher: BWD: Unsupported types." in str(error):
+            raise ValueError(
+                "This configuration for layernorm is not supported. "
+                "(Regex) Search for REGISTER_BWD_(TUNED|GENERAL)_LAUNCHER to see possible options."
+            ) from error
+        else:
+            raise
 
     return dx, dgamma, dbeta

From ce38341ef0c101bf18f4fe671ea416da2f331ffa Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 12:21:00 +0200
Subject: [PATCH 074/535] import ln error reporting

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte_utils.py          | 87 +++++++++++++++----
 1 file changed, 68 insertions(+), 19 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte_utils.py
index a5aace4daa..7da10c2e47 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte_utils.py
@@ -1,3 +1,4 @@
+from contextlib import contextmanager
 from functools import cache
 import os
 import subprocess
@@ -135,6 +136,26 @@ def bit_width(dtype: nvte.DType):
             return 8
 
 
+def _type_name(dtype: nvte.DType):
+    match dtype:
+        case nvte.DType.Byte:
+            return "byte"
+        case nvte.DType.Int32:
+            return "int32"
+        case nvte.DType.Int64:
+            return "int64"
+        case nvte.DType.Float32:
+            return "fp32"
+        case nvte.DType.Float16:
+            return "fp16"
+        case nvte.DType.BFloat16:
+            return "bf16"
+        case nvte.DType.Float8E4M3:
+            return "fp8e4m3"
+        case nvte.DType.Float8E5M2:
+            return "fp8e5m2"
+
+
 def is_fp8(t: nvte.Tensor | nvte.DType):
     if isinstance(t, nvte.Tensor):
         dtype = t.dtype
@@ -440,6 +461,50 @@ def matmul_transpose_add_gelu_add(
 
 
 # LAYERNORM
+class _LayerNormConfig:
+    def __init__(
+        self, hidden_size: int, gamma: nvte.Tensor, x: nvte.Tensor, out: nvte.Tensor
+    ):
+        self.hidden_size = hidden_size
+        self.gamma_dtype_name = _type_name(gamma.dtype)
+        self.x_dtype_name = _type_name(x.dtype)
+        self.out_dtype_name = _type_name(out.dtype)
+
+    def __str__(self):
+        return str(
+            (
+                self.hidden_size,
+                self.gamma_dtype_name,
+                self.x_dtype_name,
+                self.out_dtype_name,
+            )
+        )
+
+
+@contextmanager
+def _handle_unsupported_layernorm_config(
+    hidden_size: int, gamma: nvte.Tensor, x: nvte.Tensor, out: nvte.Tensor
+):
+    try:
+        yield
+    except RuntimeError as error:
+        config = _LayerNormConfig(hidden_size, gamma, x, out)
+        if "in function get_fwd_launcher: FWD: Unsupported types." in str(error):
+            raise ValueError(
+                "This configuration for layernorm is not supported. "
+                "(Regex) Search for REGISTER_FWD_(TUNED|GENERAL)_LAUNCHER to see possible options. "
+                f"Used configuration: {config}"
+            ) from error
+        elif "in function get_bwd_launcher: BWD: Unsupported types." in str(error):
+            raise ValueError(
+                "This configuration for layernorm is not supported. "
+                "(Regex) Search for REGISTER_BWD_(TUNED|GENERAL)_LAUNCHER to see possible options. "
+                f"Used configuration: {config}"
+            ) from error
+        else:
+            raise
+
+
 def layernorm(
     x: nvte.Tensor,
     eps: float,
@@ -451,7 +516,7 @@ def layernorm(
     "returns (x - mean(x)) / sqrt(var(x) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
 
     assert len(x.shape) == 2
-    n = x.shape[0]
+    n, hidden_size = x.shape
     mu = empty((n,), nvte.DType.Float32)
     rsigma = empty((n,), nvte.DType.Float32)
     out = empty(x.shape, out_dtype)
@@ -461,7 +526,7 @@ def layernorm(
     else:
         func = nvte.layernorm_fwd
 
-    try:
+    with _handle_unsupported_layernorm_config(hidden_size, gamma, x, out):
         workspace = empty()
         barrier = empty()
         for _ in range(2):
@@ -479,14 +544,6 @@ def layernorm(
             )
             workspace = empty_like(workspace)
             barrier = empty_like(barrier)
-    except RuntimeError as error:
-        if "in function get_fwd_launcher: FWD: Unsupported types." in str(error):
-            raise ValueError(
-                "This configuration for layernorm is not supported. "
-                "(Regex) Search for REGISTER_FWD_(TUNED|GENERAL)_LAUNCHER to see possible options."
-            ) from error
-        else:
-            raise
 
     return out, mu, rsigma
 
@@ -513,7 +570,7 @@ def dlayernorm(
     else:
         func = nvte.layernorm_bwd
 
-    try:
+    with _handle_unsupported_layernorm_config(x.shape[1], gamma, x, dx):
         workspace = empty()
         barrier = empty()
         dgamma_part = empty()
@@ -538,13 +595,5 @@ def dlayernorm(
             barrier = empty_like(barrier)
             dgamma_part = empty_like(dgamma_part)
             dbeta_part = empty_like(dbeta_part)
-    except RuntimeError as error:
-        if "in function get_bwd_launcher: BWD: Unsupported types." in str(error):
-            raise ValueError(
-                "This configuration for layernorm is not supported. "
-                "(Regex) Search for REGISTER_BWD_(TUNED|GENERAL)_LAUNCHER to see possible options."
-            ) from error
-        else:
-            raise
 
     return dx, dgamma, dbeta

From e641339e95532627b56836f5bfd06b42c7981ed0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 12:23:05 +0200
Subject: [PATCH 075/535] fix ln config

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/ops.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index e8300e43f8..895fe886a4 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -185,7 +185,7 @@ def __init__(
         zero_centered_gamma: bool,
         weight: nvte.Tensor,
         bias: nvte.Tensor,
-        x_dtype: nvte.DType | None = None,
+        x_dtype: nvte.DType | None = nvte.DType.BFloat16,
         weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = None,

From 91e7f458898e9a96726557998e4b58882e6b303c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 12:56:29 +0200
Subject: [PATCH 076/535] ease debugging

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    | 23 ++++++++++++++++---
 .../sequential/compute_pipeline_function.py   |  6 ++---
 .../pytorch/sequential/module/layernorm.py    |  7 ++++++
 .../pytorch/sequential/module/linear.py       | 17 ++++++++++----
 transformer_engine/pytorch/sequential/ops.py  |  3 +++
 5 files changed, 45 insertions(+), 11 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index c4af9d79e4..20fbeac0a1 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -68,6 +68,9 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
     def args(self):
         return list(sum((op.args() for op in self.ops), list[nvte.Tensor]()))
 
+    def __str__(self):
+        return f"""FusedOp{self.ops}"""
+
 
 class SelfContainedOp(Op):
     def __init__(self, fwds: list[Op], bwds: list[Op]) -> None:
@@ -203,13 +206,27 @@ def __init__(self, ops: list[Op], env: Environment):
         if env.world_size > 1:
             model_parallel_transform(ops)
 
-        self._fwd = get_list(ops, "forward")
-        self._bwd = get_list(ops, "backward")
         self._inf = get_list(ops, "inference")
 
-        self.functions = split_into_self_contained(self._fwd, self._bwd)
+        self.functions = split_into_self_contained(
+            get_list(ops, "forward"), get_list(ops, "backward")
+        )
 
     def run_inference(self, x: nvte.Tensor) -> nvte.Tensor:
         for op in self._inf:
             x = op.inference(x)
         return x
+
+    def __str__(self):
+        return f"""ComputePipeline(
+            forward: {(
+                op
+                for f in self.functions
+                for op in f.fwds
+            )},
+            backward: {(
+                op
+                for f in self.functions
+                for op in f.bwds
+            )},
+        )"""
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 8b4148d60c..5e5362b276 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -73,11 +73,9 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):
         # Check that gradients are not fp8 and can be processed by the optimizer
         # TODO: change this when fp8 optimizer comes along
         assert not is_fp8(data_grad)
-        assert all(g is None or not is_fp8(g) for g in param_grads)
+        assert all(not is_fp8(g) for g in param_grads)
 
-        torch_grads = [data_grad.data] + [
-            g.data if g is not None else None for g in param_grads
-        ]
+        torch_grads = [data_grad.data] + [g.data for g in param_grads]
 
         return (*torch_grads, None, None)
 
diff --git a/transformer_engine/pytorch/sequential/module/layernorm.py b/transformer_engine/pytorch/sequential/module/layernorm.py
index fb4b7b4303..406611ab77 100644
--- a/transformer_engine/pytorch/sequential/module/layernorm.py
+++ b/transformer_engine/pytorch/sequential/module/layernorm.py
@@ -15,6 +15,10 @@ def __init__(
     ):
         nn.Module.__init__(self)  # type: ignore
 
+        self.features = features
+        self.eps = eps
+        self.zero_centered_gamma = zero_centered_gamma
+
         self.weight = nn.Parameter(
             torch.zeros(features, dtype=param_dtype, device="cuda")
             if zero_centered_gamma
@@ -32,3 +36,6 @@ def __init__(
                 make_nvte_tensor(self.bias),
             )
         )
+
+    def extra_repr(self):
+        return f"features={self.features}, eps={self.eps}, zero_centered_gamma={self.zero_centered_gamma}"
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 178895feba..e14dca8665 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -24,7 +24,7 @@ def __init__(
         self,
         in_features: int,
         out_features: int,
-        bias: bool = True,
+        use_bias: bool = True,
         param_dtype: torch.dtype = torch.get_default_dtype(),
         weight_init_method: Callable[
             [torch.Tensor], torch.Tensor
@@ -35,19 +35,28 @@ def __init__(
     ):
         nn.Module.__init__(self)  # type: ignore
 
+        self.in_features = in_features
+        self.out_features = out_features
+
         self.weight = nn.Parameter(
             weight_init_method(
                 torch.empty(out_features, in_features, dtype=param_dtype, device="cuda")
             )
         )
-        if bias:
-            self.bias = nn.Parameter(
+        self.bias = (
+            nn.Parameter(
                 bias_init_method(
                     torch.empty(out_features, dtype=param_dtype, device="cuda")
                 )
             )
+            if use_bias
+            else None
+        )
 
         super().__init__(
             ops.MMT(make_nvte_tensor(self.weight)),
-            ops.Add(make_nvte_tensor(self.bias)) if bias else None,
+            ops.Add(make_nvte_tensor(self.bias)) if self.bias else None,
         )
+
+    def extra_repr(self):
+        return f"in_features={self.in_features}, out_features={self.out_features}, bias={self.bias is not None}"
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index 895fe886a4..cca9beffe0 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -85,6 +85,9 @@ def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
     def args(self) -> list[nvte.Tensor]:
         ...
 
+    def __str__(self):
+        return self.__class__.__name__
+
 
 class MMT(Op):
     def __init__(

From d0415d60ebfcb6baa7e03df9a2c9548bef8b6c01 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 13:02:25 +0200
Subject: [PATCH 077/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/module/linear.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index e14dca8665..0f122bcc1f 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -55,7 +55,7 @@ def __init__(
 
         super().__init__(
             ops.MMT(make_nvte_tensor(self.weight)),
-            ops.Add(make_nvte_tensor(self.bias)) if self.bias else None,
+            ops.Add(make_nvte_tensor(self.bias)) if self.bias is not None else None,
         )
 
     def extra_repr(self):

From 9d757b658fd312db1cd4c384dab33c4eaf3f715f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 13:04:21 +0200
Subject: [PATCH 078/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 4 ++--
 transformer_engine/pytorch/sequential/ops.py              | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 20fbeac0a1..c7edaeeeba 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -68,7 +68,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
     def args(self):
         return list(sum((op.args() for op in self.ops), list[nvte.Tensor]()))
 
-    def __str__(self):
+    def __repr__(self):
         return f"""FusedOp{self.ops}"""
 
 
@@ -217,7 +217,7 @@ def run_inference(self, x: nvte.Tensor) -> nvte.Tensor:
             x = op.inference(x)
         return x
 
-    def __str__(self):
+    def __repr__(self):
         return f"""ComputePipeline(
             forward: {(
                 op
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index cca9beffe0..67fafafc09 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -85,7 +85,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
     def args(self) -> list[nvte.Tensor]:
         ...
 
-    def __str__(self):
+    def __repr__(self):
         return self.__class__.__name__
 
 

From e1b38523cc65b57011c4b48db7a1f77da68a0555 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 13:07:14 +0200
Subject: [PATCH 079/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    | 22 +++++++++----------
 1 file changed, 11 insertions(+), 11 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index c7edaeeeba..89046534cc 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -219,14 +219,14 @@ def run_inference(self, x: nvte.Tensor) -> nvte.Tensor:
 
     def __repr__(self):
         return f"""ComputePipeline(
-            forward: {(
-                op
-                for f in self.functions
-                for op in f.fwds
-            )},
-            backward: {(
-                op
-                for f in self.functions
-                for op in f.bwds
-            )},
-        )"""
+    forward: {tuple(
+        op
+        for f in self.functions
+        for op in f.fwds
+    )},
+    backward: {tuple(
+        op
+        for f in self.functions
+        for op in f.bwds
+    )},
+)"""

From 8ad58dcbf2c159a514d03d53e3109b02e1c36c55 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 14:06:35 +0200
Subject: [PATCH 080/535] reorganize code

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    |  46 ++--
 .../sequential/compute_pipeline_function.py   |  11 +-
 .../pytorch/sequential/module/layernorm.py    |   2 +-
 .../pytorch/sequential/module/linear.py       |   2 +-
 .../pytorch/sequential/module/sequential.py   |   3 -
 .../{nvte_utils.py => nvte/__init__.py}       | 200 +++++++++---------
 transformer_engine/pytorch/sequential/ops.py  | 170 +++++++--------
 .../transformer_engine_cuda.pyi               |   0
 8 files changed, 210 insertions(+), 224 deletions(-)
 rename transformer_engine/pytorch/sequential/{nvte_utils.py => nvte/__init__.py} (74%)
 rename transformer_engine/{pytorch/sequential => }/transformer_engine_cuda.pyi (100%)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 89046534cc..74b4d38ee5 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -1,12 +1,10 @@
 import copy
-from copy import deepcopy
 from functools import partial, reduce
 import operator
-from typing import Callable, Literal
-from typing_extensions import Unpack
+from typing import Literal
+import transformer_engine_cuda as _nvte
 from .utils import set_attribute
-import transformer_engine_cuda as nvte
-from .nvte_utils import is_fp8
+from .nvte import is_fp8
 from .ops import (
     BackwardFused,
     ForwardFused,
@@ -34,11 +32,11 @@ def __init__(
         self.inference_ = inference
         self.ops = ops
 
-    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
+    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
         assert self.inference_ is not None
         return self.inference_(x)
 
-    def forward(self, x: nvte.Tensor):
+    def forward(self, x: _nvte.Tensor):
         assert self.forward_ is not None
         y, ctxs = self.forward_(x)
         full_ctx = Context()
@@ -48,7 +46,7 @@ def forward(self, x: nvte.Tensor):
             full_ctx |= ctx
         return y, full_ctx
 
-    def backward(self, ctx: Context, dy: nvte.Tensor):
+    def backward(self, ctx: Context, dy: _nvte.Tensor):
         assert self.backward_ is not None
         ctxs = list[Context]()
         for op in self.ops:
@@ -66,7 +64,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         return dx, grads_total
 
     def args(self):
-        return list(sum((op.args() for op in self.ops), list[nvte.Tensor]()))
+        return list(sum((op.args() for op in self.ops), list[_nvte.Tensor]()))
 
     def __repr__(self):
         return f"""FusedOp{self.ops}"""
@@ -77,10 +75,10 @@ def __init__(self, fwds: list[Op], bwds: list[Op]) -> None:
         self.fwds = fwds
         self.bwds = bwds
 
-    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
+    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
         raise AssertionError("Not used for inference")
 
-    def forward(self, x: nvte.Tensor):
+    def forward(self, x: _nvte.Tensor):
         full_ctx = Context()
         for op in self.fwds:
             x, ctx = op.forward(x)
@@ -90,7 +88,7 @@ def forward(self, x: nvte.Tensor):
             full_ctx |= ctx
         return x, full_ctx
 
-    def backward(self, ctx: Context, dy: nvte.Tensor):
+    def backward(self, ctx: Context, dy: _nvte.Tensor):
         ctxs = list[Context]()
         for op in self.bwds:
             if isinstance(op, FusedOp):
@@ -112,7 +110,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         return dy, full_grads
 
     def args(self):
-        return list(sum((op.args() for op in self.fwds), list[nvte.Tensor]()))
+        return list(sum((op.args() for op in self.fwds), list[_nvte.Tensor]()))
 
 
 def force_use_bf16(ops: list[Op]):
@@ -121,8 +119,8 @@ def force_use_bf16(ops: list[Op]):
         dtype_attributes = [attr for attr in attributes if attr.endswith("_dtype")]
         for dtype_attribute in dtype_attributes:
             attr_val = getattr(op, dtype_attribute)
-            if isinstance(attr_val, nvte.DType) and is_fp8(attr_val):
-                setattr(op, dtype_attribute, nvte.DType.BFloat16)
+            if isinstance(attr_val, _nvte.DType) and is_fp8(attr_val):
+                setattr(op, dtype_attribute, _nvte.DType.BFloat16)
 
 
 def model_parallel_transform(ops: list[Op]):
@@ -192,7 +190,7 @@ def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
 
 def copy_op_list(ops: list[Op]):
     "Deep copy ops, except for tensors"
-    with set_attribute(nvte.Tensor, "__deepcopy__", lambda self, memo: self):
+    with set_attribute(_nvte.Tensor, "__deepcopy__", lambda self, memo: self):
         return copy.deepcopy(ops)
 
 
@@ -211,22 +209,16 @@ def __init__(self, ops: list[Op], env: Environment):
         self.functions = split_into_self_contained(
             get_list(ops, "forward"), get_list(ops, "backward")
         )
+        self.forward = tuple(op for f in self.functions for op in f.fwds)
+        self.backward = tuple(op for f in self.functions for op in f.bwds)
 
-    def run_inference(self, x: nvte.Tensor) -> nvte.Tensor:
+    def run_inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
         for op in self._inf:
             x = op.inference(x)
         return x
 
     def __repr__(self):
         return f"""ComputePipeline(
-    forward: {tuple(
-        op
-        for f in self.functions
-        for op in f.fwds
-    )},
-    backward: {tuple(
-        op
-        for f in self.functions
-        for op in f.bwds
-    )},
+    forward: {self.forward},
+    backward: {self.backward},
 )"""
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 5e5362b276..2da12ba7fe 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,12 +1,9 @@
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-import transformer_engine_cuda as nvte
-
+import transformer_engine_cuda as _nvte
 from .ops import Context, Op
-
-from .nvte_utils import is_fp8, make_nvte_tensor, set_current_pass
-
+from .nvte import is_fp8, make_nvte_tensor, set_current_pass
 from .compute_pipeline import ComputePipeline
 
 
@@ -15,7 +12,7 @@ class ComputePipelineFunction(autograd.Function):
     def forward(
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *args: torch.Tensor | Op | list[nvte.Tensor]
+        *args: torch.Tensor | Op | list[_nvte.Tensor]
     ):
         """
         exposed_x is used only to let autograd construct the computation graph
@@ -29,7 +26,7 @@ def forward(
         assert isinstance(nvte_x_container, list)
         assert len(nvte_x_container) == 1
         nvte_x = nvte_x_container[0]
-        assert isinstance(nvte_x, nvte.Tensor)
+        assert isinstance(nvte_x, _nvte.Tensor)
 
         set_current_pass("forward")
         y, to_save = op.forward(nvte_x)
diff --git a/transformer_engine/pytorch/sequential/module/layernorm.py b/transformer_engine/pytorch/sequential/module/layernorm.py
index 406611ab77..bced04b93c 100644
--- a/transformer_engine/pytorch/sequential/module/layernorm.py
+++ b/transformer_engine/pytorch/sequential/module/layernorm.py
@@ -2,7 +2,7 @@
 from torch import nn
 from .base import BaseModule
 from .. import ops
-from ..nvte_utils import make_nvte_tensor
+from ..nvte import make_nvte_tensor
 
 
 class LayerNorm(BaseModule):
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 0f122bcc1f..6202bef2af 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -4,7 +4,7 @@
 from torch import nn
 from .base import BaseModule
 from .. import ops
-from ..nvte_utils import make_nvte_tensor
+from ..nvte import make_nvte_tensor
 
 
 def _default_weight_init_method(weight: torch.Tensor):
diff --git a/transformer_engine/pytorch/sequential/module/sequential.py b/transformer_engine/pytorch/sequential/module/sequential.py
index 865b5e095c..d73e81fe30 100644
--- a/transformer_engine/pytorch/sequential/module/sequential.py
+++ b/transformer_engine/pytorch/sequential/module/sequential.py
@@ -1,9 +1,6 @@
 from __future__ import annotations
 from typing import OrderedDict, overload
-import torch
 from torch import nn
-
-from transformer_engine.pytorch.sequential.ops import Op
 from .base import BaseModule
 
 
diff --git a/transformer_engine/pytorch/sequential/nvte_utils.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
similarity index 74%
rename from transformer_engine/pytorch/sequential/nvte_utils.py
rename to transformer_engine/pytorch/sequential/nvte/__init__.py
index 7da10c2e47..ebcc2757bf 100644
--- a/transformer_engine/pytorch/sequential/nvte_utils.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -4,7 +4,7 @@
 import subprocess
 from typing import Literal, Sequence
 import torch
-import transformer_engine_cuda as nvte
+import transformer_engine_cuda as _nvte
 
 
 @cache
@@ -23,8 +23,8 @@ def _is_hopper():
 def _cublas_workspace():
     workspace_size = 33_554_432 if _is_hopper() else 4_194_304
     data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
-    return nvte.Tensor(
-        nvte.DType.Byte, data, torch.Tensor(), torch.Tensor(), torch.Tensor()
+    return _nvte.Tensor(
+        _nvte.DType.Byte, data, torch.Tensor(), torch.Tensor(), torch.Tensor()
     )
 
 
@@ -54,7 +54,7 @@ def _sm_margin():
         return 0
 
 
-def _to_cublas_args(A: nvte.Tensor, B: nvte.Tensor, transA: bool, transB: bool):
+def _to_cublas_args(A: _nvte.Tensor, B: _nvte.Tensor, transA: bool, transB: bool):
     return B, A, not transA, not transB
 
 
@@ -64,7 +64,7 @@ def set_current_pass(pass_: Literal["forward", "backward", "inference"]):
 
 
 def make_nvte_tensor(t: torch.Tensor):
-    return nvte.Tensor(
+    return _nvte.Tensor(
         torch_to_te_dtype(t.dtype),
         t.data,
         torch.Tensor(),
@@ -74,98 +74,98 @@ def make_nvte_tensor(t: torch.Tensor):
 
 
 # DTYPES
-def te_to_torch_dtype(dtype: nvte.DType):
+def te_to_torch_dtype(dtype: _nvte.DType):
     match dtype:
-        case nvte.DType.Byte:
+        case _nvte.DType.Byte:
             return torch.uint8
-        case nvte.DType.Int32:
+        case _nvte.DType.Int32:
             return torch.int32
-        case nvte.DType.Int64:
+        case _nvte.DType.Int64:
             return torch.int64
-        case nvte.DType.Float32:
+        case _nvte.DType.Float32:
             return torch.float32
-        case nvte.DType.Float16:
+        case _nvte.DType.Float16:
             return torch.float16
-        case nvte.DType.BFloat16:
+        case _nvte.DType.BFloat16:
             return torch.bfloat16
-        case nvte.DType.Float8E4M3:
+        case _nvte.DType.Float8E4M3:
             return torch.int8
-        case nvte.DType.Float8E5M2:
+        case _nvte.DType.Float8E5M2:
             return torch.int8
 
 
 def torch_to_te_dtype(dtype: torch.dtype):
     match dtype:
         case torch.int:
-            return nvte.DType.Int32
+            return _nvte.DType.Int32
         case torch.int32:
-            return nvte.DType.Int32
+            return _nvte.DType.Int32
         case torch.int64:
-            return nvte.DType.Int64
+            return _nvte.DType.Int64
         case torch.float:
-            return nvte.DType.Float32
+            return _nvte.DType.Float32
         case torch.float32:
-            return nvte.DType.Float32
+            return _nvte.DType.Float32
         case torch.half:
-            return nvte.DType.Float16
+            return _nvte.DType.Float16
         case torch.float16:
-            return nvte.DType.Float16
+            return _nvte.DType.Float16
         case torch.bfloat16:
-            return nvte.DType.BFloat16
+            return _nvte.DType.BFloat16
         case _:
             raise ValueError(f"Unsupported dtype: {dtype}")
 
 
-def bit_width(dtype: nvte.DType):
+def bit_width(dtype: _nvte.DType):
     match dtype:
-        case nvte.DType.Byte:
+        case _nvte.DType.Byte:
             return 8
-        case nvte.DType.Int32:
+        case _nvte.DType.Int32:
             return 32
-        case nvte.DType.Int64:
+        case _nvte.DType.Int64:
             return 64
-        case nvte.DType.Float32:
+        case _nvte.DType.Float32:
             return 32
-        case nvte.DType.Float16:
+        case _nvte.DType.Float16:
             return 16
-        case nvte.DType.BFloat16:
+        case _nvte.DType.BFloat16:
             return 16
-        case nvte.DType.Float8E4M3:
+        case _nvte.DType.Float8E4M3:
             return 8
-        case nvte.DType.Float8E5M2:
+        case _nvte.DType.Float8E5M2:
             return 8
 
 
-def _type_name(dtype: nvte.DType):
+def _type_name(dtype: _nvte.DType):
     match dtype:
-        case nvte.DType.Byte:
+        case _nvte.DType.Byte:
             return "byte"
-        case nvte.DType.Int32:
+        case _nvte.DType.Int32:
             return "int32"
-        case nvte.DType.Int64:
+        case _nvte.DType.Int64:
             return "int64"
-        case nvte.DType.Float32:
+        case _nvte.DType.Float32:
             return "fp32"
-        case nvte.DType.Float16:
+        case _nvte.DType.Float16:
             return "fp16"
-        case nvte.DType.BFloat16:
+        case _nvte.DType.BFloat16:
             return "bf16"
-        case nvte.DType.Float8E4M3:
+        case _nvte.DType.Float8E4M3:
             return "fp8e4m3"
-        case nvte.DType.Float8E5M2:
+        case _nvte.DType.Float8E5M2:
             return "fp8e5m2"
 
 
-def is_fp8(t: nvte.Tensor | nvte.DType):
-    if isinstance(t, nvte.Tensor):
+def is_fp8(t: _nvte.Tensor | _nvte.DType):
+    if isinstance(t, _nvte.Tensor):
         dtype = t.dtype
     else:
         dtype = t
-    return dtype == nvte.DType.Float8E4M3 or dtype == nvte.DType.Float8E5M2
+    return dtype == _nvte.DType.Float8E4M3 or dtype == _nvte.DType.Float8E5M2
 
 
 # ADD
-def add(A: nvte.Tensor, B: nvte.Tensor, out_dtype: nvte.DType):
+def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
     if is_fp8(A) or is_fp8(B):
         raise NotImplementedError()
     else:
@@ -174,7 +174,7 @@ def add(A: nvte.Tensor, B: nvte.Tensor, out_dtype: nvte.DType):
         return make_nvte_tensor(output)
 
 
-def dbias(grad: nvte.Tensor, out_dtype: nvte.DType):
+def dbias(grad: _nvte.Tensor, out_dtype: _nvte.DType):
     if is_fp8(grad):
         raise NotImplementedError()
     else:
@@ -186,9 +186,9 @@ def dbias(grad: nvte.Tensor, out_dtype: nvte.DType):
 _AMAX_HISTORY_LEN = 512
 
 
-def empty(shape: Sequence[int] = (), dtype: nvte.DType = nvte.DType.Float32):
+def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
     if shape == ():
-        return nvte.Tensor(
+        return _nvte.Tensor(
             dtype,
             torch.Tensor(),
             torch.Tensor(),
@@ -196,7 +196,7 @@ def empty(shape: Sequence[int] = (), dtype: nvte.DType = nvte.DType.Float32):
             torch.Tensor(),
         )
     if is_fp8(dtype):
-        return nvte.Tensor(
+        return _nvte.Tensor(
             dtype,
             torch.empty(
                 _AMAX_HISTORY_LEN, dtype=te_to_torch_dtype(dtype), device="cuda"
@@ -206,7 +206,7 @@ def empty(shape: Sequence[int] = (), dtype: nvte.DType = nvte.DType.Float32):
             torch.empty(1, dtype=torch.float32, device="cuda"),
         )
     else:
-        return nvte.Tensor(
+        return _nvte.Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
             torch.Tensor(),
@@ -215,17 +215,17 @@ def empty(shape: Sequence[int] = (), dtype: nvte.DType = nvte.DType.Float32):
         )
 
 
-def empty_like(t: nvte.Tensor):
+def empty_like(t: _nvte.Tensor):
     return empty(t.shape, t.dtype)
 
 
-def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], nvte.DType]):
+def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]):
     amax = torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda")
     scale = torch.empty(1, dtype=torch.float32, device="cuda")
     scale_inv = torch.empty(1, dtype=torch.float32, device="cuda")
 
     return tuple(
-        nvte.Tensor(
+        _nvte.Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
             amax,
@@ -233,7 +233,7 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], nvte.DType])
             scale_inv,
         )
         if is_fp8(dtype)
-        else nvte.Tensor(
+        else _nvte.Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
             torch.Tensor(),
@@ -245,36 +245,36 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], nvte.DType])
 
 
 # CAST + TRANPOSE
-def cast(t: nvte.Tensor, dtype: nvte.DType):
+def cast(t: _nvte.Tensor, dtype: _nvte.DType):
     assert t.dtype != dtype
     if is_fp8(t):
         assert not is_fp8(dtype)
 
     output = empty(t.shape, dtype)
     if is_fp8(dtype):
-        nvte.fp8_quantize(t, output)
+        _nvte.fp8_quantize(t, output)
     elif is_fp8(t):
-        nvte.fp8_dequantize(t, output)
+        _nvte.fp8_dequantize(t, output)
     else:
         output.data.copy_(t.data)
 
     return output
 
 
-def cast_checked(t: nvte.Tensor, dtype: nvte.DType | None):
+def cast_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
     if dtype is None or t.dtype == dtype:
         return t
     else:
         return cast(t, dtype)
 
 
-def transpose(t: nvte.Tensor):
+def transpose(t: _nvte.Tensor):
     output = empty(t.shape[::-1], t.dtype)
-    nvte.transpose(t, output)
+    _nvte.transpose(t, output)
     return output
 
 
-def cast_transpose(t: nvte.Tensor, dtype: nvte.DType):
+def cast_transpose(t: _nvte.Tensor, dtype: _nvte.DType):
     assert t.dtype != dtype
     assert is_fp8(t) != is_fp8(dtype)
 
@@ -282,31 +282,31 @@ def cast_transpose(t: nvte.Tensor, dtype: nvte.DType):
         (t.shape, dtype), (t.shape[::-1], dtype)
     )
 
-    nvte.cast_transpose(t, out_cast, out_transpose)
+    _nvte.cast_transpose(t, out_cast, out_transpose)
     return out_cast, out_transpose
 
 
-def cast_transpose_checked(t: nvte.Tensor, dtype: nvte.DType | None):
+def cast_transpose_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
     if dtype is None or t.dtype == dtype:
         return t, transpose(t)
     else:
         return cast_transpose(t, dtype)
 
 
-def multi_cast_transpose(*desc: tuple[nvte.Tensor, nvte.DType]):
+def multi_cast_transpose(*desc: tuple[_nvte.Tensor, _nvte.DType]):
     outs = [
         multi_empty_share_metadata((t.shape, dtype), (t.shape[::-1], dtype))
         for t, dtype in desc
     ]
     out_cast_list, out_transpose_list = zip(*outs)
     input_list, _ = zip(*desc)
-    nvte.multi_cast_transpose(input_list, out_cast_list, out_transpose_list)  # type: ignore
+    _nvte.multi_cast_transpose(input_list, out_cast_list, out_transpose_list)  # type: ignore
     return outs
 
 
-def multi_cast_transpose_checked(*desc: tuple[nvte.Tensor, nvte.DType | None]):
-    transpose_results = list[tuple[nvte.Tensor, nvte.Tensor] | None]()
-    to_cast_transpose = list[tuple[nvte.Tensor, nvte.DType]]()
+def multi_cast_transpose_checked(*desc: tuple[_nvte.Tensor, _nvte.DType | None]):
+    transpose_results = list[tuple[_nvte.Tensor, _nvte.Tensor] | None]()
+    to_cast_transpose = list[tuple[_nvte.Tensor, _nvte.DType]]()
     for t, dtype in desc:
         if dtype is None or t.dtype == dtype:
             transpose_results.append((t, transpose(t)))
@@ -314,7 +314,7 @@ def multi_cast_transpose_checked(*desc: tuple[nvte.Tensor, nvte.DType | None]):
             to_cast_transpose.append((t, dtype))
             transpose_results.append(None)
     cast_transpose_results = multi_cast_transpose(*to_cast_transpose)
-    results = list[tuple[nvte.Tensor, nvte.Tensor]]()
+    results = list[tuple[_nvte.Tensor, _nvte.Tensor]]()
     i = 0
     for result in transpose_results:
         if result is None:
@@ -326,7 +326,7 @@ def multi_cast_transpose_checked(*desc: tuple[nvte.Tensor, nvte.DType | None]):
 
 
 def cast_transpose_dbias_checked(
-    grad: nvte.Tensor, cast_dtype: nvte.DType | None, dbias_dtype: nvte.DType
+    grad: _nvte.Tensor, cast_dtype: _nvte.DType | None, dbias_dtype: _nvte.DType
 ):
     if (
         dbias_dtype == grad.dtype
@@ -339,7 +339,7 @@ def cast_transpose_dbias_checked(
         out_dbias = empty((grad.shape[1],), dbias_dtype)
         workspace = empty()
         for _ in range(2):
-            nvte.cast_transpose_dbias(
+            _nvte.cast_transpose_dbias(
                 grad, out_cast, out_transpose, out_dbias, workspace
             )
             workspace = empty_like(workspace)
@@ -351,27 +351,27 @@ def cast_transpose_dbias_checked(
 
 
 # MATMUL TRANSPOSE
-def matmul_transpose(mat: nvte.Tensor, mul: nvte.Tensor, out_dtype: nvte.DType):
+def matmul_transpose(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
     "returns mat @ mul^T"
     # TODO: this should be allowed, though cublaslt_gemm cannot be used in this case
     assert mat.dtype == mul.dtype
     return matmul_transpose_add(mat, mul, empty(), out_dtype)
 
 
-def matmul_transpose_gelu(mat: nvte.Tensor, mul: nvte.Tensor, out_dtype: nvte.DType):
+def matmul_transpose_gelu(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
     "returns mat @ mul^T, GELU(mat @ mul^T)"
     assert mat.dtype == mul.dtype
     return matmul_transpose_add_gelu(mat, mul, empty(), out_dtype)
 
 
 def matmul_transpose_add(
-    mat: nvte.Tensor, mul: nvte.Tensor, add: nvte.Tensor, out_dtype: nvte.DType
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
 ):
     "returns mat @ mul^T + add"
     assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
-    nvte.cublas_gemm(
+    _nvte.cublas_gemm(
         a,
         b,
         out,
@@ -389,14 +389,14 @@ def matmul_transpose_add(
 
 
 def matmul_transpose_add_gelu(
-    mat: nvte.Tensor, mul: nvte.Tensor, add: nvte.Tensor, out_dtype: nvte.DType
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
 ):
     "returns mat @ mul^T + add, GELU(mat @ mul^T + add)"
     assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
     pre_gelu = empty(out.shape, add.dtype)
-    nvte.cublas_gemm(
+    _nvte.cublas_gemm(
         a,
         b,
         out,
@@ -414,12 +414,12 @@ def matmul_transpose_add_gelu(
 
 
 def matmul_transpose_add_add(
-    mat: nvte.Tensor, mul: nvte.Tensor, add1: nvte.Tensor, add2: nvte.Tensor
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
 ):
     "returns mat @ mul^T + add1 + add2"
     assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
-    nvte.cublas_gemm(
+    _nvte.cublas_gemm(
         a,
         b,
         add2,
@@ -437,13 +437,13 @@ def matmul_transpose_add_add(
 
 
 def matmul_transpose_add_gelu_add(
-    mat: nvte.Tensor, mul: nvte.Tensor, add1: nvte.Tensor, add2: nvte.Tensor
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
 ):
     "returns mat @ mul^T + add1, GELU(mat @ mul^T + add1) + add2"
     assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     pre_gelu = empty(add2.shape, add1.dtype)
-    nvte.cublas_gemm(
+    _nvte.cublas_gemm(
         a,
         b,
         add2,
@@ -463,7 +463,7 @@ def matmul_transpose_add_gelu_add(
 # LAYERNORM
 class _LayerNormConfig:
     def __init__(
-        self, hidden_size: int, gamma: nvte.Tensor, x: nvte.Tensor, out: nvte.Tensor
+        self, hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
     ):
         self.hidden_size = hidden_size
         self.gamma_dtype_name = _type_name(gamma.dtype)
@@ -483,7 +483,7 @@ def __str__(self):
 
 @contextmanager
 def _handle_unsupported_layernorm_config(
-    hidden_size: int, gamma: nvte.Tensor, x: nvte.Tensor, out: nvte.Tensor
+    hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
 ):
     try:
         yield
@@ -506,25 +506,25 @@ def _handle_unsupported_layernorm_config(
 
 
 def layernorm(
-    x: nvte.Tensor,
+    x: _nvte.Tensor,
     eps: float,
     zero_centered_gamma: bool,
-    gamma: nvte.Tensor,
-    beta: nvte.Tensor,
-    out_dtype: nvte.DType,
+    gamma: _nvte.Tensor,
+    beta: _nvte.Tensor,
+    out_dtype: _nvte.DType,
 ):
     "returns (x - mean(x)) / sqrt(var(x) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
 
     assert len(x.shape) == 2
     n, hidden_size = x.shape
-    mu = empty((n,), nvte.DType.Float32)
-    rsigma = empty((n,), nvte.DType.Float32)
+    mu = empty((n,), _nvte.DType.Float32)
+    rsigma = empty((n,), _nvte.DType.Float32)
     out = empty(x.shape, out_dtype)
 
     if zero_centered_gamma:
-        func = nvte.layernorm1p_fwd
+        func = _nvte.layernorm1p_fwd
     else:
-        func = nvte.layernorm_fwd
+        func = _nvte.layernorm_fwd
 
     with _handle_unsupported_layernorm_config(hidden_size, gamma, x, out):
         workspace = empty()
@@ -549,15 +549,15 @@ def layernorm(
 
 
 def dlayernorm(
-    grad: nvte.Tensor,
+    grad: _nvte.Tensor,
     zero_centered_gamma: bool,
-    x: nvte.Tensor,
-    gamma: nvte.Tensor,
-    mu: nvte.Tensor,
-    rsigma: nvte.Tensor,
-    dx_dtype: nvte.DType,
-    dgamma_dtype: nvte.DType,
-    dbeta_dtype: nvte.DType,
+    x: _nvte.Tensor,
+    gamma: _nvte.Tensor,
+    mu: _nvte.Tensor,
+    rsigma: _nvte.Tensor,
+    dx_dtype: _nvte.DType,
+    dgamma_dtype: _nvte.DType,
+    dbeta_dtype: _nvte.DType,
 ):
     "returns dx, dgamma, dbeta"
 
@@ -566,9 +566,9 @@ def dlayernorm(
     dbeta = empty(gamma.shape, dbeta_dtype)
 
     if zero_centered_gamma:
-        func = nvte.layernorm1p_bwd
+        func = _nvte.layernorm1p_bwd
     else:
-        func = nvte.layernorm_bwd
+        func = _nvte.layernorm_bwd
 
     with _handle_unsupported_layernorm_config(x.shape[1], gamma, x, dx):
         workspace = empty()
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
index 67fafafc09..9f67f4fc9b 100644
--- a/transformer_engine/pytorch/sequential/ops.py
+++ b/transformer_engine/pytorch/sequential/ops.py
@@ -2,21 +2,21 @@
 from abc import ABC, abstractmethod
 import ast
 import typing
-from typing import Any, Callable, final
+from typing import Any, Callable
 from typing_extensions import Unpack, TypeVarTuple
-import transformer_engine_cuda as nvte
-from . import nvte_utils
+import transformer_engine_cuda as _nvte
+from . import nvte
 
-Context = dict[str, nvte.Tensor]
-Grads = list[nvte.Tensor]
+Context = dict[str, _nvte.Tensor]
+Grads = list[_nvte.Tensor]
 
-Forward = Callable[[nvte.Tensor], tuple[nvte.Tensor, Context]]
-ForwardFused = Callable[[nvte.Tensor], tuple[nvte.Tensor, tuple[Context, ...]]]
-Backward = Callable[[Context, nvte.Tensor], tuple[nvte.Tensor, Grads]]
+Forward = Callable[[_nvte.Tensor], tuple[_nvte.Tensor, Context]]
+ForwardFused = Callable[[_nvte.Tensor], tuple[_nvte.Tensor, tuple[Context, ...]]]
+Backward = Callable[[Context, _nvte.Tensor], tuple[_nvte.Tensor, Grads]]
 BackwardFused = Callable[
-    [Unpack[tuple[Context, ...]], nvte.Tensor], tuple[nvte.Tensor, tuple[Grads, ...]]
+    [Unpack[tuple[Context, ...]], _nvte.Tensor], tuple[_nvte.Tensor, tuple[Grads, ...]]
 ]
-Inference = Callable[[nvte.Tensor], nvte.Tensor]
+Inference = Callable[[_nvte.Tensor], _nvte.Tensor]
 
 FUSIONS_INF: dict[tuple[type, ...], Callable[..., Any]] = {}
 FUSIONS_FWD: dict[tuple[type, ...], Callable[..., Any]] = {}
@@ -38,7 +38,7 @@ def _get_arg_types(f: Callable[..., Any]):
     return arg_types
 
 
-def register_fusion_inference(f: Callable[[Unpack[Ops], nvte.Tensor], nvte.Tensor]):
+def register_fusion_inference(f: Callable[[Unpack[Ops], _nvte.Tensor], _nvte.Tensor]):
     fused_modules = _get_arg_types(f)[:-1]
     FUSIONS_INF[fused_modules] = f
     return f
@@ -46,8 +46,8 @@ def register_fusion_inference(f: Callable[[Unpack[Ops], nvte.Tensor], nvte.Tenso
 
 def register_fusion_forward(
     f: Callable[
-        [Unpack[Ops], nvte.Tensor],
-        tuple[nvte.Tensor, tuple[Context, ...]],
+        [Unpack[Ops], _nvte.Tensor],
+        tuple[_nvte.Tensor, tuple[Context, ...]],
     ]
 ):
     fused_modules = _get_arg_types(f)[:-1]
@@ -57,8 +57,8 @@ def register_fusion_forward(
 
 def register_fusion_backward(
     f: Callable[
-        [Unpack[OpsAndCtxs], nvte.Tensor],
-        tuple[nvte.Tensor, tuple[Grads, ...]],
+        [Unpack[OpsAndCtxs], _nvte.Tensor],
+        tuple[_nvte.Tensor, tuple[Grads, ...]],
     ]
 ):
     arg_types = _get_arg_types(f)
@@ -70,19 +70,19 @@ def register_fusion_backward(
 
 class Op(ABC):
     @abstractmethod
-    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
+    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
         ...
 
     @abstractmethod
-    def forward(self, x: nvte.Tensor) -> tuple[nvte.Tensor, Context]:
+    def forward(self, x: _nvte.Tensor) -> tuple[_nvte.Tensor, Context]:
         ...
 
     @abstractmethod
-    def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
+    def backward(self, ctx: Context, dy: _nvte.Tensor) -> tuple[_nvte.Tensor, Grads]:
         ...
 
     @abstractmethod
-    def args(self) -> list[nvte.Tensor]:
+    def args(self) -> list[_nvte.Tensor]:
         ...
 
     def __repr__(self):
@@ -92,13 +92,13 @@ def __repr__(self):
 class MMT(Op):
     def __init__(
         self,
-        weight: nvte.Tensor,
-        x_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
-        weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
-        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
+        weight: _nvte.Tensor,
+        x_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        weight_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        dy_dtype: _nvte.DType | None = _nvte.DType.Float8E5M2,
+        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
+        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        dweight_dtype: _nvte.DType = _nvte.DType.BFloat16,
     ):
         self.weight = weight
         self.x_dtype = x_dtype
@@ -108,29 +108,29 @@ def __init__(
         self.dx_dtype = dx_dtype
         self.dweight_dtype = dweight_dtype
 
-    def inference(self, x: nvte.Tensor):
-        x = nvte_utils.cast_checked(x, self.x_dtype)
-        weight = nvte_utils.cast_checked(self.weight, self.weight_dtype)
+    def inference(self, x: _nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+        weight = nvte.cast_checked(self.weight, self.weight_dtype)
 
-        y = nvte_utils.matmul_transpose(x, weight, self.y_dtype)
+        y = nvte.matmul_transpose(x, weight, self.y_dtype)
 
         return y
 
-    def forward(self, x: nvte.Tensor):
-        (x, x_t), (weight, weight_t) = nvte_utils.multi_cast_transpose_checked(
+    def forward(self, x: _nvte.Tensor):
+        (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
             (x, self.x_dtype), (self.weight, self.weight_dtype)
         )
 
-        y = nvte_utils.matmul_transpose(x, weight, self.y_dtype)
+        y = nvte.matmul_transpose(x, weight, self.y_dtype)
 
         return y, {"x_t": x_t, "weight_t": weight_t}
 
-    def backward(self, ctx: Context, dy: nvte.Tensor):
+    def backward(self, ctx: Context, dy: _nvte.Tensor):
         x_t, weight_t = ctx["x_t"], ctx["weight_t"]
-        dy, dy_t = nvte_utils.cast_transpose_checked(dy, self.dy_dtype)
+        dy, dy_t = nvte.cast_transpose_checked(dy, self.dy_dtype)
 
-        dx = nvte_utils.matmul_transpose(dy, weight_t, self.dx_dtype)
-        dweight = nvte_utils.matmul_transpose(x_t, dy_t, self.dweight_dtype)
+        dx = nvte.matmul_transpose(dy, weight_t, self.dx_dtype)
+        dweight = nvte.matmul_transpose(x_t, dy_t, self.dweight_dtype)
 
         return dx, [dweight]
 
@@ -141,13 +141,13 @@ def args(self):
 class Add(Op):
     def __init__(
         self,
-        bias: nvte.Tensor,
-        x_dtype: nvte.DType | None = None,
-        bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
-        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-        dbias_dtype: nvte.DType = nvte.DType.BFloat16,
+        bias: _nvte.Tensor,
+        x_dtype: _nvte.DType | None = None,
+        bias_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        dy_dtype: _nvte.DType | None = _nvte.DType.Float8E5M2,
+        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
+        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        dbias_dtype: _nvte.DType = _nvte.DType.BFloat16,
     ):
         self.bias = bias
         self.x_dtype = x_dtype
@@ -157,23 +157,23 @@ def __init__(
         self.dx_dtype = dx_dtype
         self.dbias_dtype = dbias_dtype
 
-    def inference(self, x: nvte.Tensor):
+    def inference(self, x: _nvte.Tensor):
         return self.forward(x)[0]
 
-    def forward(self, x: nvte.Tensor):
-        x = nvte_utils.cast_checked(x, self.x_dtype)
-        bias = nvte_utils.cast_checked(self.bias, self.bias_dtype)
+    def forward(self, x: _nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+        bias = nvte.cast_checked(self.bias, self.bias_dtype)
 
-        y = nvte_utils.add(x, bias, self.y_dtype)
+        y = nvte.add(x, bias, self.y_dtype)
 
         return y, Context()
 
-    def backward(self, ctx: Context, dy: nvte.Tensor):
+    def backward(self, ctx: Context, dy: _nvte.Tensor):
         del ctx
-        dy = nvte_utils.cast_checked(dy, self.dy_dtype)
+        dy = nvte.cast_checked(dy, self.dy_dtype)
 
-        dx = nvte_utils.cast_checked(dy, self.dx_dtype)
-        dbias = nvte_utils.dbias(dy, self.dbias_dtype)
+        dx = nvte.cast_checked(dy, self.dx_dtype)
+        dbias = nvte.dbias(dy, self.dbias_dtype)
 
         return dx, [dbias]
 
@@ -186,16 +186,16 @@ def __init__(
         self,
         eps: float,
         zero_centered_gamma: bool,
-        weight: nvte.Tensor,
-        bias: nvte.Tensor,
-        x_dtype: nvte.DType | None = nvte.DType.BFloat16,
-        weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
-        bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
-        dy_dtype: nvte.DType | None = None,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
-        dbias_dtype: nvte.DType = nvte.DType.BFloat16,
+        weight: _nvte.Tensor,
+        bias: _nvte.Tensor,
+        x_dtype: _nvte.DType | None = _nvte.DType.BFloat16,
+        weight_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        bias_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        dy_dtype: _nvte.DType | None = None,
+        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
+        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        dweight_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        dbias_dtype: _nvte.DType = _nvte.DType.BFloat16,
     ):
         self.eps = eps
         self.zero_centered_gamma = zero_centered_gamma
@@ -210,25 +210,25 @@ def __init__(
         self.dweight_dtype = dweight_dtype
         self.dbias_dtype = dbias_dtype
 
-    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
+    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
         return self.forward(x)[0]
 
-    def forward(self, x: nvte.Tensor):
-        x = nvte_utils.cast_checked(x, self.x_dtype)
-        weight = nvte_utils.cast_checked(self.weight, self.weight_dtype)
-        bias = nvte_utils.cast_checked(self.bias, self.bias_dtype)
+    def forward(self, x: _nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+        weight = nvte.cast_checked(self.weight, self.weight_dtype)
+        bias = nvte.cast_checked(self.bias, self.bias_dtype)
 
-        y, mu, rsigma = nvte_utils.layernorm(
+        y, mu, rsigma = nvte.layernorm(
             x, self.eps, self.zero_centered_gamma, weight, bias, self.y_dtype
         )
 
         return y, {"x": x, "weight": weight, "mu": mu, "rsigma": rsigma}
 
-    def backward(self, ctx: Context, dy: nvte.Tensor):
+    def backward(self, ctx: Context, dy: _nvte.Tensor):
         x, weight, mu, rsigma = ctx["x"], ctx["weight"], ctx["mu"], ctx["rsigma"]
-        dy = nvte_utils.cast_checked(dy, self.dy_dtype)
+        dy = nvte.cast_checked(dy, self.dy_dtype)
 
-        dx, dweight, dbias = nvte_utils.dlayernorm(
+        dx, dweight, dbias = nvte.dlayernorm(
             dy,
             self.zero_centered_gamma,
             x,
@@ -247,24 +247,24 @@ def args(self):
 
 
 @register_fusion_inference
-def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
-    x = nvte_utils.cast_checked(x, mmt.x_dtype)
-    weight = nvte_utils.cast_checked(mmt.weight, mmt.weight_dtype)
-    bias = nvte_utils.cast_checked(add.bias, add.bias_dtype)
+def mmt_add_inf_fused(mmt: MMT, add: Add, x: _nvte.Tensor):
+    x = nvte.cast_checked(x, mmt.x_dtype)
+    weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
+    bias = nvte.cast_checked(add.bias, add.bias_dtype)
 
-    y = nvte_utils.matmul_transpose_add(x, weight, bias, add.y_dtype)
+    y = nvte.matmul_transpose_add(x, weight, bias, add.y_dtype)
 
     return y
 
 
 @register_fusion_forward
-def mmt_add_fwd_fused(mmt: MMT, add: Add, x: nvte.Tensor):
-    (x, x_t), (weight, weight_t) = nvte_utils.multi_cast_transpose_checked(
+def mmt_add_fwd_fused(mmt: MMT, add: Add, x: _nvte.Tensor):
+    (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
         (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
     )
-    bias = nvte_utils.cast_checked(add.bias, add.bias_dtype)
+    bias = nvte.cast_checked(add.bias, add.bias_dtype)
 
-    y = nvte_utils.matmul_transpose_add(x, weight, bias, add.y_dtype)
+    y = nvte.matmul_transpose_add(x, weight, bias, add.y_dtype)
 
     return y, ({"x_t": x_t, "weight_t": weight_t}, Context())
 
@@ -275,15 +275,15 @@ def mmt_add_bwd_fused(
     add: Add,
     mmt_ctx: Context,
     add_ctx: Context,
-    dy: nvte.Tensor,
+    dy: _nvte.Tensor,
 ):
     del add_ctx
     x_t, weight_t = mmt_ctx["x_t"], mmt_ctx["weight_t"]
-    dy, dy_t, dbias = nvte_utils.cast_transpose_dbias_checked(
+    dy, dy_t, dbias = nvte.cast_transpose_dbias_checked(
         dy, mmt.dy_dtype, add.dbias_dtype
     )
 
-    dx = nvte_utils.matmul_transpose(dy, weight_t, mmt.dx_dtype)
-    dweight = nvte_utils.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
+    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype)
+    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
 
     return dx, ([dweight], [dbias])
diff --git a/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi b/transformer_engine/transformer_engine_cuda.pyi
similarity index 100%
rename from transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
rename to transformer_engine/transformer_engine_cuda.pyi

From 70cafa5c876d36bba45b29f90e8cc578a8c61d5b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 14:10:34 +0200
Subject: [PATCH 081/535] move pyi

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../transformer_engine_cuda.pyi => transformer_engine_cuda.pyi    | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename transformer_engine/transformer_engine_cuda.pyi => transformer_engine_cuda.pyi (100%)

diff --git a/transformer_engine/transformer_engine_cuda.pyi b/transformer_engine_cuda.pyi
similarity index 100%
rename from transformer_engine/transformer_engine_cuda.pyi
rename to transformer_engine_cuda.pyi

From 444583cceb7b6bf621ccfdfc5d58c01dfab0bca0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 15:49:05 +0200
Subject: [PATCH 082/535] reload nvte_x

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py           | 4 +++-
 .../pytorch/sequential/transformer_engine_cuda.pyi            | 0
 2 files changed, 3 insertions(+), 1 deletion(-)
 rename transformer_engine_cuda.pyi => transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi (100%)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 2da12ba7fe..dc5d87097a 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -93,7 +93,9 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                     nvte_tensor
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
+            nvte_x_container = [nvte_x]
             x = ComputePipelineFunction.apply(  # type: ignore
-                x, *exposed_tensors, contained_op, [nvte_x]
+                x, *exposed_tensors, contained_op, nvte_x_container
             )
+            nvte_x = nvte_x_container[0]
         return x
diff --git a/transformer_engine_cuda.pyi b/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
similarity index 100%
rename from transformer_engine_cuda.pyi
rename to transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi

From f449b5ff8e79008d9f1dd6b7b761bd9fda2e2eca Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 16:45:10 +0200
Subject: [PATCH 083/535] fix fusions

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 74b4d38ee5..f0cb7dda19 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -137,10 +137,10 @@ def get_list(ops: list[Op], fuse_by: Literal["forward", "backward", "inference"]
         fusion_dict = FUSIONS_INF
     fusions = [(len(arg_types), arg_types, f) for arg_types, f in fusion_dict.items()]
     fusions.sort(key=lambda x: x[0], reverse=True)  # largest first
-    for _, arg_types, f in fusions:
-        for startPos in range(len(ops) - len(arg_types) + 1):
+    for cnt, arg_types, f in fusions:
+        for startPos in range(len(ops) - cnt + 1):
             if all(
-                isinstance(ops[i], arg_types[i - startPos])
+                isinstance(ops[startPos + i], arg_types[i])
                 for i in range(len(arg_types))
             ):
                 fused_ops = ops[startPos : startPos + len(arg_types)]

From 8bde7fecc42ef287c89872ec26cd56c510d4398a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 18:05:16 +0200
Subject: [PATCH 084/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/util/cuda_driver.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/common/util/cuda_driver.h b/transformer_engine/common/util/cuda_driver.h
index 5d07e7a641..d8481293ad 100644
--- a/transformer_engine/common/util/cuda_driver.h
+++ b/transformer_engine/common/util/cuda_driver.h
@@ -49,7 +49,7 @@ namespace {
 inline void check_cuda_driver_(CUresult status) {
   if (status != CUDA_SUCCESS) {
     const char *description;
-    transformer_engine::cuda_driver::call("cuGetErrorString", &description);
+    transformer_engine::cuda_driver::call("cuGetErrorString", status, &description);
     NVTE_ERROR(transformer_engine::concat_strings("CUDA Error: ", description));
   }
 }

From 8fc4c2add216162da561376fd246ec9e9bbba9d5 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 18:15:57 +0200
Subject: [PATCH 085/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/util/cuda_driver.h | 43 ++++++++------------
 1 file changed, 16 insertions(+), 27 deletions(-)

diff --git a/transformer_engine/common/util/cuda_driver.h b/transformer_engine/common/util/cuda_driver.h
index d8481293ad..f4a5cc4561 100644
--- a/transformer_engine/common/util/cuda_driver.h
+++ b/transformer_engine/common/util/cuda_driver.h
@@ -43,30 +43,19 @@ inline CUresult call(const char *symbol, ArgTs... args) {
 
 }  // namespace transformer_engine
 
-namespace {
-
-/*! \brief Throw exception if CUDA driver call has failed */
-inline void check_cuda_driver_(CUresult status) {
-  if (status != CUDA_SUCCESS) {
-    const char *description;
-    transformer_engine::cuda_driver::call("cuGetErrorString", status, &description);
-    NVTE_ERROR(transformer_engine::concat_strings("CUDA Error: ", description));
-  }
-}
-
-/*! \brief Call CUDA driver function and throw exception if it fails */
-template <typename... ArgTs>
-inline void call_and_check_cuda_driver_(const char *symbol,
-                                        ArgTs &&... args) {
-  check_cuda_driver_(transformer_engine::cuda_driver::call(symbol,
-                                                           std::forward<ArgTs>(args)...));
-}
-
-}  // namespace
-
-#define NVTE_CHECK_CUDA_DRIVER(ans) { check_cuda_driver_(ans); }
-
-#define NVTE_CALL_CHECK_CUDA_DRIVER(func, ...) \
-  { call_and_check_cuda_driver_(#func, __VA_ARGS__); }
-
-#endif  // TRANSFORMER_ENGINE_COMMON_UTIL_CUDA_DRIVER_H_
+#define NVTE_CHECK_CUDA_DRIVER(ans)                                            \
+  do {                                                                         \
+    if (status != CUDA_SUCCESS) {                                              \
+      const char *description;                                                 \
+      transformer_engine::cuda_driver::call("cuGetErrorString", status,        \
+                                            &description);                     \
+      NVTE_ERROR(                                                              \
+          transformer_engine::concat_strings("CUDA Error: ", description));    \
+    }                                                                          \
+    while (false)
+
+#define NVTE_CALL_CHECK_CUDA_DRIVER(func, ...)                                 \
+  NVTE_CHECK_CUDA_DRIVER(                                                      \
+      transformer_engine::cuda_driver::call(symbol, __VA_ARGS__))
+
+#endif // TRANSFORMER_ENGINE_COMMON_UTIL_CUDA_DRIVER_H_

From 17a924cf0e730f1435d5119074f32e6b594c586b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 18:30:25 +0200
Subject: [PATCH 086/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/util/cuda_driver.h | 11 +++++++----
 1 file changed, 7 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/common/util/cuda_driver.h b/transformer_engine/common/util/cuda_driver.h
index f4a5cc4561..6ba9e7000e 100644
--- a/transformer_engine/common/util/cuda_driver.h
+++ b/transformer_engine/common/util/cuda_driver.h
@@ -43,7 +43,7 @@ inline CUresult call(const char *symbol, ArgTs... args) {
 
 }  // namespace transformer_engine
 
-#define NVTE_CHECK_CUDA_DRIVER(ans)                                            \
+#define NVTE_CHECK_CUDA_DRIVER(status)                                         \
   do {                                                                         \
     if (status != CUDA_SUCCESS) {                                              \
       const char *description;                                                 \
@@ -54,8 +54,11 @@ inline CUresult call(const char *symbol, ArgTs... args) {
     }                                                                          \
     while (false)
 
-#define NVTE_CALL_CHECK_CUDA_DRIVER(func, ...)                                 \
-  NVTE_CHECK_CUDA_DRIVER(                                                      \
-      transformer_engine::cuda_driver::call(symbol, __VA_ARGS__))
+#define NVTE_CALL_CHECK_CUDA_DRIVER(symbol, ...)                               \
+  do {                                                                         \
+    CUresult status =                                                          \
+        transformer_engine::cuda_driver::call(symbol, __VA_ARGS__);            \
+    NVTE_CHECK_CUDA_DRIVER(status);                                            \
+  } while (false)
 
 #endif // TRANSFORMER_ENGINE_COMMON_UTIL_CUDA_DRIVER_H_

From a0363a4e6cdf062d865d07fa2635c305d8fe0c8f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 18:35:06 +0200
Subject: [PATCH 087/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/util/cuda_driver.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/common/util/cuda_driver.h b/transformer_engine/common/util/cuda_driver.h
index 6ba9e7000e..f91ca324d6 100644
--- a/transformer_engine/common/util/cuda_driver.h
+++ b/transformer_engine/common/util/cuda_driver.h
@@ -57,7 +57,7 @@ inline CUresult call(const char *symbol, ArgTs... args) {
 #define NVTE_CALL_CHECK_CUDA_DRIVER(symbol, ...)                               \
   do {                                                                         \
     CUresult status =                                                          \
-        transformer_engine::cuda_driver::call(symbol, __VA_ARGS__);            \
+        transformer_engine::cuda_driver::call(#symbol, __VA_ARGS__);           \
     NVTE_CHECK_CUDA_DRIVER(status);                                            \
   } while (false)
 

From 1117f34f43fa78dd700d57b6977752180f000027 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 18:54:41 +0200
Subject: [PATCH 088/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/util/cuda_driver.h | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/common/util/cuda_driver.h b/transformer_engine/common/util/cuda_driver.h
index f91ca324d6..d3a1d23e9f 100644
--- a/transformer_engine/common/util/cuda_driver.h
+++ b/transformer_engine/common/util/cuda_driver.h
@@ -52,7 +52,7 @@ inline CUresult call(const char *symbol, ArgTs... args) {
       NVTE_ERROR(                                                              \
           transformer_engine::concat_strings("CUDA Error: ", description));    \
     }                                                                          \
-    while (false)
+  } while (false)
 
 #define NVTE_CALL_CHECK_CUDA_DRIVER(symbol, ...)                               \
   do {                                                                         \

From 0287e727db534e628fabc809d52739ce38ca95f4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 19:04:16 +0200
Subject: [PATCH 089/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/util/cuda_driver.h | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/common/util/cuda_driver.h b/transformer_engine/common/util/cuda_driver.h
index d3a1d23e9f..e4f9ca90d7 100644
--- a/transformer_engine/common/util/cuda_driver.h
+++ b/transformer_engine/common/util/cuda_driver.h
@@ -58,7 +58,13 @@ inline CUresult call(const char *symbol, ArgTs... args) {
   do {                                                                         \
     CUresult status =                                                          \
         transformer_engine::cuda_driver::call(#symbol, __VA_ARGS__);           \
-    NVTE_CHECK_CUDA_DRIVER(status);                                            \
+    if (status != CUDA_SUCCESS) {                                              \
+      const char *description;                                                 \
+      transformer_engine::cuda_driver::call("cuGetErrorString", status,        \
+                                            &description);                     \
+      NVTE_ERROR(                                                              \
+          transformer_engine::concat_strings(#symbol": ", description));       \
+    }                                                                          \
   } while (false)
 
 #endif // TRANSFORMER_ENGINE_COMMON_UTIL_CUDA_DRIVER_H_

From a8b38ed72c10c6eb99cbbc986723a5a7b634be8c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 19:34:21 +0200
Subject: [PATCH 090/535] set ctx

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/util/rtc.cpp | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/transformer_engine/common/util/rtc.cpp b/transformer_engine/common/util/rtc.cpp
index 905e4885ae..a161d1d9a7 100644
--- a/transformer_engine/common/util/rtc.cpp
+++ b/transformer_engine/common/util/rtc.cpp
@@ -109,6 +109,7 @@ CUfunction Kernel::get_function(int device_id) {
     CUcontext context;
     NVTE_CALL_CHECK_CUDA_DRIVER(cuDeviceGet, &device, device_id);
     NVTE_CALL_CHECK_CUDA_DRIVER(cuDevicePrimaryCtxRetain, &context, device);
+    NVTE_CALL_CHECK_CUDA_DRIVER(cuCtxPushCurrent, context);
 
     // Load function into driver context
     NVTE_CALL_CHECK_CUDA_DRIVER(cuModuleLoadDataEx,
@@ -123,6 +124,7 @@ CUfunction Kernel::get_function(int device_id) {
                                 mangled_name_.c_str());
 
     // Reset driver context
+    NVTE_CALL_CHECK_CUDA_DRIVER(cuCtxPopCurrent, context);
     NVTE_CALL_CHECK_CUDA_DRIVER(cuDevicePrimaryCtxRelease, device);
   };
   std::call_once(init_flags_->at(device_id), load_on_device);

From e02f9ceaefce1682a669f3c8d41c8bd478827be2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 22:25:27 +0200
Subject: [PATCH 091/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/util/rtc.cpp | 2 --
 1 file changed, 2 deletions(-)

diff --git a/transformer_engine/common/util/rtc.cpp b/transformer_engine/common/util/rtc.cpp
index a161d1d9a7..905e4885ae 100644
--- a/transformer_engine/common/util/rtc.cpp
+++ b/transformer_engine/common/util/rtc.cpp
@@ -109,7 +109,6 @@ CUfunction Kernel::get_function(int device_id) {
     CUcontext context;
     NVTE_CALL_CHECK_CUDA_DRIVER(cuDeviceGet, &device, device_id);
     NVTE_CALL_CHECK_CUDA_DRIVER(cuDevicePrimaryCtxRetain, &context, device);
-    NVTE_CALL_CHECK_CUDA_DRIVER(cuCtxPushCurrent, context);
 
     // Load function into driver context
     NVTE_CALL_CHECK_CUDA_DRIVER(cuModuleLoadDataEx,
@@ -124,7 +123,6 @@ CUfunction Kernel::get_function(int device_id) {
                                 mangled_name_.c_str());
 
     // Reset driver context
-    NVTE_CALL_CHECK_CUDA_DRIVER(cuCtxPopCurrent, context);
     NVTE_CALL_CHECK_CUDA_DRIVER(cuDevicePrimaryCtxRelease, device);
   };
   std::call_once(init_flags_->at(device_id), load_on_device);

From 2d0a71000de7cfcbd68da1770e67e70edf8859c8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 23:04:26 +0200
Subject: [PATCH 092/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/module/sequential.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/module/sequential.py b/transformer_engine/pytorch/sequential/module/sequential.py
index d73e81fe30..876f019650 100644
--- a/transformer_engine/pytorch/sequential/module/sequential.py
+++ b/transformer_engine/pytorch/sequential/module/sequential.py
@@ -37,7 +37,7 @@ def __init__(
         for name, module in modules:
             submodules: list[tuple[str, BaseModule]]
             if isinstance(module, Sequential):
-                submodules = [(k, v) for k, v in Sequential._modules.items()]
+                submodules = [(k, v) for k, v in module._modules.items()]
                 for i, (submodule_name, submodule) in enumerate(submodules):
                     submodules[i] = (f"{name}[{submodule_name}]", submodule)
             else:

From 2d757b6181bf7e4efe2b2af331886b61fbd6d00b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sat, 12 Aug 2023 23:13:18 +0200
Subject: [PATCH 093/535] fix loop

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py          | 13 ++++++-------
 1 file changed, 6 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index f0cb7dda19..d34a210307 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -138,15 +138,14 @@ def get_list(ops: list[Op], fuse_by: Literal["forward", "backward", "inference"]
     fusions = [(len(arg_types), arg_types, f) for arg_types, f in fusion_dict.items()]
     fusions.sort(key=lambda x: x[0], reverse=True)  # largest first
     for cnt, arg_types, f in fusions:
-        for startPos in range(len(ops) - cnt + 1):
-            if all(
-                isinstance(ops[startPos + i], arg_types[i])
-                for i in range(len(arg_types))
-            ):
-                fused_ops = ops[startPos : startPos + len(arg_types)]
+        startPos = 0
+        while startPos < len(ops) - cnt + 1:
+            if all(isinstance(ops[startPos + i], arg_types[i]) for i in range(cnt)):
+                fused_ops = ops[startPos : startPos + cnt]
                 func = partial(f, *fused_ops)
                 fused_op = FusedOp(fused_ops, **{fuse_by: func})
-                ops[startPos : startPos + len(arg_types)] = [fused_op]
+                ops[startPos : startPos + cnt] = [fused_op]
+            startPos += 1
     return ops
 
 

From e022262f481fefffa9936f65c0d3fe676e25d8ac Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 12:11:13 +0200
Subject: [PATCH 094/535] refactor impl

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    |  97 +-----
 .../sequential/compute_pipeline_function.py   |   6 +-
 .../pytorch/sequential/fusions/__init__.py    |   4 +
 .../pytorch/sequential/fusions/_common.py     |  53 ++++
 .../pytorch/sequential/fusions/_storage.py    |   5 +
 .../pytorch/sequential/fusions/interface.py   |  89 ++++++
 .../pytorch/sequential/fusions/mmt.py         |  56 ++++
 .../pytorch/sequential/nvte/__init__.py       |   2 +-
 transformer_engine/pytorch/sequential/ops.py  | 289 ------------------
 .../pytorch/sequential/ops/__init__.py        |   6 +
 .../pytorch/sequential/ops/add.py             |  50 +++
 .../pytorch/sequential/ops/gelu.py            |   6 +
 .../pytorch/sequential/ops/layernorm.py       |  71 +++++
 .../pytorch/sequential/ops/mmt.py             |  56 ++++
 .../pytorch/sequential/ops/op.py              |  29 ++
 .../pytorch/sequential/ops_types.py           |  22 ++
 .../pytorch/sequential/utils.py               |   2 +-
 17 files changed, 459 insertions(+), 384 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/fusions/__init__.py
 create mode 100644 transformer_engine/pytorch/sequential/fusions/_common.py
 create mode 100644 transformer_engine/pytorch/sequential/fusions/_storage.py
 create mode 100644 transformer_engine/pytorch/sequential/fusions/interface.py
 create mode 100644 transformer_engine/pytorch/sequential/fusions/mmt.py
 delete mode 100644 transformer_engine/pytorch/sequential/ops.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/__init__.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/add.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/gelu.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/layernorm.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/mmt.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/op.py
 create mode 100644 transformer_engine/pytorch/sequential/ops_types.py

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index d34a210307..d6358f07b0 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -1,75 +1,14 @@
 import copy
-from functools import partial, reduce
+from functools import reduce
 import operator
-from typing import Literal
-import transformer_engine_cuda as _nvte
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
 from .utils import set_attribute
 from .nvte import is_fp8
-from .ops import (
-    BackwardFused,
-    ForwardFused,
-    Grads,
-    Op,
-    FUSIONS_INF,
-    FUSIONS_FWD,
-    FUSIONS_BWD,
-    Context,
-    Inference,
-)
+from .ops import Op, Grads, Context
+from .fusions import FusedOp, get_fused_op_list
 from .environment import Environment
 
 
-class FusedOp(Op):
-    def __init__(
-        self,
-        ops: list[Op],
-        forward: ForwardFused | None = None,
-        backward: BackwardFused | None = None,
-        inference: Inference | None = None,
-    ):
-        self.forward_ = forward
-        self.backward_ = backward
-        self.inference_ = inference
-        self.ops = ops
-
-    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
-        assert self.inference_ is not None
-        return self.inference_(x)
-
-    def forward(self, x: _nvte.Tensor):
-        assert self.forward_ is not None
-        y, ctxs = self.forward_(x)
-        full_ctx = Context()
-        for op, ctx in zip(self.ops, ctxs):
-            op_name = getattr(op, "name")
-            ctx: Context = {op_name + name: tensor for name, tensor in ctx.items()}
-            full_ctx |= ctx
-        return y, full_ctx
-
-    def backward(self, ctx: Context, dy: _nvte.Tensor):
-        assert self.backward_ is not None
-        ctxs = list[Context]()
-        for op in self.ops:
-            op_name = getattr(op, "name")
-            ctxs.append(
-                {
-                    name[len(op_name) :]: tensor
-                    for name, tensor in ctx.items()
-                    if name.startswith(op_name)
-                }
-            )
-
-        dx, grads = self.backward_(*ctxs, dy)
-        grads_total: Grads = [grad for op_grads in grads for grad in op_grads]
-        return dx, grads_total
-
-    def args(self):
-        return list(sum((op.args() for op in self.ops), list[_nvte.Tensor]()))
-
-    def __repr__(self):
-        return f"""FusedOp{self.ops}"""
-
-
 class SelfContainedOp(Op):
     def __init__(self, fwds: list[Op], bwds: list[Op]) -> None:
         self.fwds = fwds
@@ -127,28 +66,6 @@ def model_parallel_transform(ops: list[Op]):
     raise NotImplementedError()
 
 
-def get_list(ops: list[Op], fuse_by: Literal["forward", "backward", "inference"]):
-    ops = ops.copy()
-    if fuse_by == "forward":
-        fusion_dict = FUSIONS_FWD
-    elif fuse_by == "backward":
-        fusion_dict = FUSIONS_BWD
-    else:  # pass_ == "inference":
-        fusion_dict = FUSIONS_INF
-    fusions = [(len(arg_types), arg_types, f) for arg_types, f in fusion_dict.items()]
-    fusions.sort(key=lambda x: x[0], reverse=True)  # largest first
-    for cnt, arg_types, f in fusions:
-        startPos = 0
-        while startPos < len(ops) - cnt + 1:
-            if all(isinstance(ops[startPos + i], arg_types[i]) for i in range(cnt)):
-                fused_ops = ops[startPos : startPos + cnt]
-                func = partial(f, *fused_ops)
-                fused_op = FusedOp(fused_ops, **{fuse_by: func})
-                ops[startPos : startPos + cnt] = [fused_op]
-            startPos += 1
-    return ops
-
-
 def name_ops(ops: list[Op]):
     for i, op in enumerate(ops):
         setattr(op, "name", f"{i}({op.__class__.__name__})")
@@ -189,7 +106,7 @@ def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
 
 def copy_op_list(ops: list[Op]):
     "Deep copy ops, except for tensors"
-    with set_attribute(_nvte.Tensor, "__deepcopy__", lambda self, memo: self):
+    with set_attribute(_nvte.Tensor, "__deepcopy__", lambda self, memo: self):  # type: ignore[unknown-lambda-type]
         return copy.deepcopy(ops)
 
 
@@ -203,10 +120,10 @@ def __init__(self, ops: list[Op], env: Environment):
         if env.world_size > 1:
             model_parallel_transform(ops)
 
-        self._inf = get_list(ops, "inference")
+        self._inf = get_fused_op_list(ops, "inference")
 
         self.functions = split_into_self_contained(
-            get_list(ops, "forward"), get_list(ops, "backward")
+            get_fused_op_list(ops, "forward"), get_fused_op_list(ops, "backward")
         )
         self.forward = tuple(op for f in self.functions for op in f.fwds)
         self.backward = tuple(op for f in self.functions for op in f.bwds)
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index dc5d87097a..1accba6a2c 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,7 +1,7 @@
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-import transformer_engine_cuda as _nvte
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
 from .ops import Context, Op
 from .nvte import is_fp8, make_nvte_tensor, set_current_pass
 from .compute_pipeline import ComputePipeline
@@ -9,7 +9,7 @@
 
 class ComputePipelineFunction(autograd.Function):
     @staticmethod
-    def forward(
+    def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
         *args: torch.Tensor | Op | list[_nvte.Tensor]
@@ -56,7 +56,7 @@ def forward(
         return exposed_x
 
     @staticmethod
-    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):
+    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
         # The context needs to think that the tensors were read
         _ = ctx.saved_tensors  # type: ignore
 
diff --git a/transformer_engine/pytorch/sequential/fusions/__init__.py b/transformer_engine/pytorch/sequential/fusions/__init__.py
new file mode 100644
index 0000000000..8150f83d79
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/fusions/__init__.py
@@ -0,0 +1,4 @@
+from .interface import FusedOp, get_fused_op_list
+from . import mmt  # imported for side effects
+
+__all__ = ["FusedOp", "get_fused_op_list"]
diff --git a/transformer_engine/pytorch/sequential/fusions/_common.py b/transformer_engine/pytorch/sequential/fusions/_common.py
new file mode 100644
index 0000000000..09dac33e9a
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/fusions/_common.py
@@ -0,0 +1,53 @@
+from __future__ import annotations
+import ast
+import typing
+from typing import Callable, Any
+from typing_extensions import TypeVarTuple, Unpack
+from ..ops import Context, Grads
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from ._storage import FUSIONS_FWD, FUSIONS_BWD, FUSIONS_INF
+
+_Ops = TypeVarTuple("_Ops")
+_OpsAndCtxs = TypeVarTuple("_OpsAndCtxs")
+
+
+def _get_arg_types(f: Callable[..., Any]):
+    annotations = typing.get_type_hints(f)
+    annotations.pop("return", None)
+    arg_type_annotations: tuple[str | type] = tuple(annotations.values())
+    assert all(isinstance(val, (str, type)) for val in arg_type_annotations)
+    arg_types: tuple[type] = tuple(
+        ast.literal_eval(val) if isinstance(val, str) else val
+        for val in arg_type_annotations
+    )
+    return arg_types
+
+
+def register_fusion_inference(f: Callable[[Unpack[_Ops], _nvte.Tensor], _nvte.Tensor]):  # type: ignore[invalid-typevar-use]
+    fused_modules = _get_arg_types(f)[:-1]
+    FUSIONS_INF[fused_modules] = f
+    return f
+
+
+def register_fusion_forward(
+    f: Callable[
+        [Unpack[_Ops], _nvte.Tensor],  # type: ignore[invalid-typevar-use]
+        tuple[_nvte.Tensor, tuple[Context, ...]],
+    ]
+):
+    fused_modules = _get_arg_types(f)[:-1]
+    FUSIONS_FWD[fused_modules] = f
+    return f
+
+
+def register_fusion_backward(
+    f: Callable[
+        [Unpack[_OpsAndCtxs], _nvte.Tensor],  # type: ignore[invalid-typevar-use]
+        tuple[_nvte.Tensor, tuple[Grads, ...]],
+    ]
+):
+    arg_types = _get_arg_types(f)
+    module_count = (len(arg_types) - 1) // 2
+    fused_modules = arg_types[:module_count]
+    FUSIONS_BWD[fused_modules] = f
+    return f
diff --git a/transformer_engine/pytorch/sequential/fusions/_storage.py b/transformer_engine/pytorch/sequential/fusions/_storage.py
new file mode 100644
index 0000000000..d6442c78c5
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/fusions/_storage.py
@@ -0,0 +1,5 @@
+from typing import Callable, Any
+
+FUSIONS_INF: dict[tuple[type, ...], Callable[..., Any]] = {}
+FUSIONS_FWD: dict[tuple[type, ...], Callable[..., Any]] = {}
+FUSIONS_BWD: dict[tuple[type, ...], Callable[..., Any]] = {}
diff --git a/transformer_engine/pytorch/sequential/fusions/interface.py b/transformer_engine/pytorch/sequential/fusions/interface.py
new file mode 100644
index 0000000000..cce230b123
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/fusions/interface.py
@@ -0,0 +1,89 @@
+from __future__ import annotations
+from functools import partial
+from ..ops import Op
+from typing import Literal
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from ..ops_types import (
+    BackwardFused,
+    ForwardFused,
+    Grads,
+    Context,
+    Inference,
+)
+from ._storage import FUSIONS_FWD, FUSIONS_BWD, FUSIONS_INF
+
+class FusedOp(Op):
+    def __init__(
+        self,
+        ops: list[Op],
+        forward: ForwardFused | None = None,
+        backward: BackwardFused | None = None,
+        inference: Inference | None = None,
+    ):
+        self.forward_ = forward
+        self.backward_ = backward
+        self.inference_ = inference
+        self.ops = ops
+
+    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
+        assert self.inference_ is not None
+        return self.inference_(x)
+
+    def forward(self, x: _nvte.Tensor):
+        assert self.forward_ is not None
+        y, ctxs = self.forward_(x)
+        full_ctx = Context()
+        for op, ctx in zip(self.ops, ctxs):
+            op_name = getattr(op, "name")
+            ctx: Context = {op_name + name: tensor for name, tensor in ctx.items()}
+            full_ctx |= ctx
+        return y, full_ctx
+
+    def backward(self, ctx: Context, dy: _nvte.Tensor):
+        assert self.backward_ is not None
+        ctxs = list[Context]()
+        for op in self.ops:
+            op_name = getattr(op, "name")
+            ctxs.append(
+                {
+                    name[len(op_name) :]: tensor
+                    for name, tensor in ctx.items()
+                    if name.startswith(op_name)
+                }
+            )
+
+        dx, grads = self.backward_(*ctxs, dy)
+        grads_total: Grads = [grad for op_grads in grads for grad in op_grads]
+        return dx, grads_total
+
+    def args(self):
+        return list(sum((op.args() for op in self.ops), list[_nvte.Tensor]()))
+
+    def __repr__(self):
+        return f"""FusedOp{self.ops}"""
+
+
+def get_fused_op_list(
+    ops: list[Op], fuse_by: Literal["forward", "backward", "inference"]
+):
+    ops = ops.copy()
+    if fuse_by == "forward":
+        fusion_dict = FUSIONS_FWD
+    elif fuse_by == "backward":
+        fusion_dict = FUSIONS_BWD
+    else:  # pass_ == "inference":
+        fusion_dict = FUSIONS_INF
+    fusions = [(len(arg_types), arg_types, f) for arg_types, f in fusion_dict.items()]
+    fusions.sort(key=lambda x: x[0], reverse=True)  # largest first
+    for cnt, arg_types, f in fusions:
+        startPos = 0
+        while startPos < len(ops) - cnt + 1:
+            if all(isinstance(ops[startPos + i], arg_types[i]) for i in range(cnt)):
+                fused_ops = ops[startPos : startPos + cnt]
+                func = partial(f, *fused_ops)
+                fused_op = FusedOp(fused_ops, **{fuse_by: func})
+                ops[startPos : startPos + cnt] = [fused_op]
+            startPos += 1
+    return ops
+
+__all__ = ["FusedOp", "get_fused_op_list"]
diff --git a/transformer_engine/pytorch/sequential/fusions/mmt.py b/transformer_engine/pytorch/sequential/fusions/mmt.py
new file mode 100644
index 0000000000..1a931b702f
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/fusions/mmt.py
@@ -0,0 +1,56 @@
+from __future__ import annotations
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from ..ops import Context, MMT, Add
+from .. import nvte
+from ._common import (
+    register_fusion_inference,
+    register_fusion_backward,
+    register_fusion_forward,
+)
+
+
+@register_fusion_inference
+def mmt_add_inf_fused(mmt: MMT, add: Add, x: _nvte.Tensor):
+    x = nvte.cast_checked(x, mmt.x_dtype)
+    weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
+    bias = nvte.cast_checked(add.bias, add.bias_dtype)
+
+    y = nvte.matmul_transpose_add(x, weight, bias, add.y_dtype)
+
+    return y
+
+
+@register_fusion_forward
+def mmt_add_fwd_fused(mmt: MMT, add: Add, x: _nvte.Tensor):
+    (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
+        (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
+    )
+    bias = nvte.cast_checked(add.bias, add.bias_dtype)
+
+    y = nvte.matmul_transpose_add(x, weight, bias, add.y_dtype)
+
+    return y, ({"x_t": x_t, "weight_t": weight_t}, Context())
+
+
+@register_fusion_backward
+def mmt_add_bwd_fused(
+    mmt: MMT,
+    add: Add,
+    mmt_ctx: Context,
+    add_ctx: Context,
+    dy: _nvte.Tensor,
+):
+    del add_ctx
+    x_t, weight_t = mmt_ctx["x_t"], mmt_ctx["weight_t"]
+    dy, dy_t, dbias = nvte.cast_transpose_dbias_checked(
+        dy, mmt.dy_dtype, add.dbias_dtype
+    )
+
+    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype)
+    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
+
+    return dx, ([dweight], [dbias])
+
+
+# fusion function names (ex. mmt_add_bwd_fused) are for debugging only, as they are called from a dictionary like FUSIONS_FWD
+__all__ = []
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index ebcc2757bf..8da1990889 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -4,7 +4,7 @@
 import subprocess
 from typing import Literal, Sequence
 import torch
-import transformer_engine_cuda as _nvte
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
 
 
 @cache
diff --git a/transformer_engine/pytorch/sequential/ops.py b/transformer_engine/pytorch/sequential/ops.py
deleted file mode 100644
index 9f67f4fc9b..0000000000
--- a/transformer_engine/pytorch/sequential/ops.py
+++ /dev/null
@@ -1,289 +0,0 @@
-from __future__ import annotations
-from abc import ABC, abstractmethod
-import ast
-import typing
-from typing import Any, Callable
-from typing_extensions import Unpack, TypeVarTuple
-import transformer_engine_cuda as _nvte
-from . import nvte
-
-Context = dict[str, _nvte.Tensor]
-Grads = list[_nvte.Tensor]
-
-Forward = Callable[[_nvte.Tensor], tuple[_nvte.Tensor, Context]]
-ForwardFused = Callable[[_nvte.Tensor], tuple[_nvte.Tensor, tuple[Context, ...]]]
-Backward = Callable[[Context, _nvte.Tensor], tuple[_nvte.Tensor, Grads]]
-BackwardFused = Callable[
-    [Unpack[tuple[Context, ...]], _nvte.Tensor], tuple[_nvte.Tensor, tuple[Grads, ...]]
-]
-Inference = Callable[[_nvte.Tensor], _nvte.Tensor]
-
-FUSIONS_INF: dict[tuple[type, ...], Callable[..., Any]] = {}
-FUSIONS_FWD: dict[tuple[type, ...], Callable[..., Any]] = {}
-FUSIONS_BWD: dict[tuple[type, ...], Callable[..., Any]] = {}
-
-Ops = TypeVarTuple("Ops")
-OpsAndCtxs = TypeVarTuple("OpsAndCtxs")
-
-
-def _get_arg_types(f: Callable[..., Any]):
-    annotations = typing.get_type_hints(f)
-    annotations.pop("return", None)
-    arg_type_annotations: tuple[str | type] = tuple(annotations.values())
-    assert all(isinstance(val, (str, type)) for val in arg_type_annotations)
-    arg_types: tuple[type] = tuple(
-        ast.literal_eval(val) if isinstance(val, str) else val
-        for val in arg_type_annotations
-    )
-    return arg_types
-
-
-def register_fusion_inference(f: Callable[[Unpack[Ops], _nvte.Tensor], _nvte.Tensor]):
-    fused_modules = _get_arg_types(f)[:-1]
-    FUSIONS_INF[fused_modules] = f
-    return f
-
-
-def register_fusion_forward(
-    f: Callable[
-        [Unpack[Ops], _nvte.Tensor],
-        tuple[_nvte.Tensor, tuple[Context, ...]],
-    ]
-):
-    fused_modules = _get_arg_types(f)[:-1]
-    FUSIONS_FWD[fused_modules] = f
-    return f
-
-
-def register_fusion_backward(
-    f: Callable[
-        [Unpack[OpsAndCtxs], _nvte.Tensor],
-        tuple[_nvte.Tensor, tuple[Grads, ...]],
-    ]
-):
-    arg_types = _get_arg_types(f)
-    module_count = (len(arg_types) - 1) // 2
-    fused_modules = arg_types[:module_count]
-    FUSIONS_BWD[fused_modules] = f
-    return f
-
-
-class Op(ABC):
-    @abstractmethod
-    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
-        ...
-
-    @abstractmethod
-    def forward(self, x: _nvte.Tensor) -> tuple[_nvte.Tensor, Context]:
-        ...
-
-    @abstractmethod
-    def backward(self, ctx: Context, dy: _nvte.Tensor) -> tuple[_nvte.Tensor, Grads]:
-        ...
-
-    @abstractmethod
-    def args(self) -> list[_nvte.Tensor]:
-        ...
-
-    def __repr__(self):
-        return self.__class__.__name__
-
-
-class MMT(Op):
-    def __init__(
-        self,
-        weight: _nvte.Tensor,
-        x_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        weight_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        dy_dtype: _nvte.DType | None = _nvte.DType.Float8E5M2,
-        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
-        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
-        dweight_dtype: _nvte.DType = _nvte.DType.BFloat16,
-    ):
-        self.weight = weight
-        self.x_dtype = x_dtype
-        self.weight_dtype = weight_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
-        self.dweight_dtype = dweight_dtype
-
-    def inference(self, x: _nvte.Tensor):
-        x = nvte.cast_checked(x, self.x_dtype)
-        weight = nvte.cast_checked(self.weight, self.weight_dtype)
-
-        y = nvte.matmul_transpose(x, weight, self.y_dtype)
-
-        return y
-
-    def forward(self, x: _nvte.Tensor):
-        (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
-            (x, self.x_dtype), (self.weight, self.weight_dtype)
-        )
-
-        y = nvte.matmul_transpose(x, weight, self.y_dtype)
-
-        return y, {"x_t": x_t, "weight_t": weight_t}
-
-    def backward(self, ctx: Context, dy: _nvte.Tensor):
-        x_t, weight_t = ctx["x_t"], ctx["weight_t"]
-        dy, dy_t = nvte.cast_transpose_checked(dy, self.dy_dtype)
-
-        dx = nvte.matmul_transpose(dy, weight_t, self.dx_dtype)
-        dweight = nvte.matmul_transpose(x_t, dy_t, self.dweight_dtype)
-
-        return dx, [dweight]
-
-    def args(self):
-        return [self.weight]
-
-
-class Add(Op):
-    def __init__(
-        self,
-        bias: _nvte.Tensor,
-        x_dtype: _nvte.DType | None = None,
-        bias_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        dy_dtype: _nvte.DType | None = _nvte.DType.Float8E5M2,
-        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
-        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
-        dbias_dtype: _nvte.DType = _nvte.DType.BFloat16,
-    ):
-        self.bias = bias
-        self.x_dtype = x_dtype
-        self.bias_dtype = bias_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
-        self.dbias_dtype = dbias_dtype
-
-    def inference(self, x: _nvte.Tensor):
-        return self.forward(x)[0]
-
-    def forward(self, x: _nvte.Tensor):
-        x = nvte.cast_checked(x, self.x_dtype)
-        bias = nvte.cast_checked(self.bias, self.bias_dtype)
-
-        y = nvte.add(x, bias, self.y_dtype)
-
-        return y, Context()
-
-    def backward(self, ctx: Context, dy: _nvte.Tensor):
-        del ctx
-        dy = nvte.cast_checked(dy, self.dy_dtype)
-
-        dx = nvte.cast_checked(dy, self.dx_dtype)
-        dbias = nvte.dbias(dy, self.dbias_dtype)
-
-        return dx, [dbias]
-
-    def args(self):
-        return [self.bias]
-
-
-class LayerNorm(Op):
-    def __init__(
-        self,
-        eps: float,
-        zero_centered_gamma: bool,
-        weight: _nvte.Tensor,
-        bias: _nvte.Tensor,
-        x_dtype: _nvte.DType | None = _nvte.DType.BFloat16,
-        weight_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        bias_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        dy_dtype: _nvte.DType | None = None,
-        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
-        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
-        dweight_dtype: _nvte.DType = _nvte.DType.BFloat16,
-        dbias_dtype: _nvte.DType = _nvte.DType.BFloat16,
-    ):
-        self.eps = eps
-        self.zero_centered_gamma = zero_centered_gamma
-        self.weight = weight
-        self.bias = bias
-        self.x_dtype = x_dtype
-        self.weight_dtype = weight_dtype
-        self.bias_dtype = bias_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
-        self.dweight_dtype = dweight_dtype
-        self.dbias_dtype = dbias_dtype
-
-    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
-        return self.forward(x)[0]
-
-    def forward(self, x: _nvte.Tensor):
-        x = nvte.cast_checked(x, self.x_dtype)
-        weight = nvte.cast_checked(self.weight, self.weight_dtype)
-        bias = nvte.cast_checked(self.bias, self.bias_dtype)
-
-        y, mu, rsigma = nvte.layernorm(
-            x, self.eps, self.zero_centered_gamma, weight, bias, self.y_dtype
-        )
-
-        return y, {"x": x, "weight": weight, "mu": mu, "rsigma": rsigma}
-
-    def backward(self, ctx: Context, dy: _nvte.Tensor):
-        x, weight, mu, rsigma = ctx["x"], ctx["weight"], ctx["mu"], ctx["rsigma"]
-        dy = nvte.cast_checked(dy, self.dy_dtype)
-
-        dx, dweight, dbias = nvte.dlayernorm(
-            dy,
-            self.zero_centered_gamma,
-            x,
-            weight,
-            mu,
-            rsigma,
-            self.dx_dtype,
-            self.dweight_dtype,
-            self.dbias_dtype,
-        )
-
-        return dx, [dweight, dbias]
-
-    def args(self):
-        return [self.weight, self.bias]
-
-
-@register_fusion_inference
-def mmt_add_inf_fused(mmt: MMT, add: Add, x: _nvte.Tensor):
-    x = nvte.cast_checked(x, mmt.x_dtype)
-    weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
-    bias = nvte.cast_checked(add.bias, add.bias_dtype)
-
-    y = nvte.matmul_transpose_add(x, weight, bias, add.y_dtype)
-
-    return y
-
-
-@register_fusion_forward
-def mmt_add_fwd_fused(mmt: MMT, add: Add, x: _nvte.Tensor):
-    (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
-        (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
-    )
-    bias = nvte.cast_checked(add.bias, add.bias_dtype)
-
-    y = nvte.matmul_transpose_add(x, weight, bias, add.y_dtype)
-
-    return y, ({"x_t": x_t, "weight_t": weight_t}, Context())
-
-
-@register_fusion_backward
-def mmt_add_bwd_fused(
-    mmt: MMT,
-    add: Add,
-    mmt_ctx: Context,
-    add_ctx: Context,
-    dy: _nvte.Tensor,
-):
-    del add_ctx
-    x_t, weight_t = mmt_ctx["x_t"], mmt_ctx["weight_t"]
-    dy, dy_t, dbias = nvte.cast_transpose_dbias_checked(
-        dy, mmt.dy_dtype, add.dbias_dtype
-    )
-
-    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype)
-    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
-
-    return dx, ([dweight], [dbias])
diff --git a/transformer_engine/pytorch/sequential/ops/__init__.py b/transformer_engine/pytorch/sequential/ops/__init__.py
new file mode 100644
index 0000000000..9e5b3d7882
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/__init__.py
@@ -0,0 +1,6 @@
+from .op import Op, Context, Grads
+from .add import Add
+from .mmt import MMT
+from .layernorm import LayerNorm
+
+__all__ = ["Add", "LayerNorm", "MMT", "Op", "Context", "Grads"]
diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/ops/add.py
new file mode 100644
index 0000000000..f4a8047720
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/add.py
@@ -0,0 +1,50 @@
+from __future__ import annotations
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from .. import nvte
+from .op import Op, Context
+
+
+class Add(Op):
+    def __init__(
+        self,
+        bias: _nvte.Tensor,
+        x_dtype: _nvte.DType | None = None,
+        bias_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        dy_dtype: _nvte.DType | None = _nvte.DType.Float8E5M2,
+        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
+        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        dbias_dtype: _nvte.DType = _nvte.DType.BFloat16,
+    ):
+        self.bias = bias
+        self.x_dtype = x_dtype
+        self.bias_dtype = bias_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+        self.dbias_dtype = dbias_dtype
+
+    def inference(self, x: _nvte.Tensor):
+        return self.forward(x)[0]
+
+    def forward(self, x: _nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+        bias = nvte.cast_checked(self.bias, self.bias_dtype)
+
+        y = nvte.add(x, bias, self.y_dtype)
+
+        return y, Context()
+
+    def backward(self, ctx: Context, dy: _nvte.Tensor):
+        del ctx
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+
+        dx = nvte.cast_checked(dy, self.dx_dtype)
+        dbias = nvte.dbias(dy, self.dbias_dtype)
+
+        return dx, [dbias]
+
+    def args(self):
+        return [self.bias]
+
+
+__all__ = ["Add"]
diff --git a/transformer_engine/pytorch/sequential/ops/gelu.py b/transformer_engine/pytorch/sequential/ops/gelu.py
new file mode 100644
index 0000000000..152a4ae0ef
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/gelu.py
@@ -0,0 +1,6 @@
+from __future__ import annotations
+from abc import ABC, abstractmethod
+from typing import Callable
+from typing_extensions import Unpack
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from .. import nvte
diff --git a/transformer_engine/pytorch/sequential/ops/layernorm.py b/transformer_engine/pytorch/sequential/ops/layernorm.py
new file mode 100644
index 0000000000..6184c9059c
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/layernorm.py
@@ -0,0 +1,71 @@
+from __future__ import annotations
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from .. import nvte
+from .op import Op, Context
+
+
+class LayerNorm(Op):
+    def __init__(
+        self,
+        eps: float,
+        zero_centered_gamma: bool,
+        weight: _nvte.Tensor,
+        bias: _nvte.Tensor,
+        x_dtype: _nvte.DType | None = _nvte.DType.BFloat16,
+        weight_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        bias_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        dy_dtype: _nvte.DType | None = None,
+        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
+        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        dweight_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        dbias_dtype: _nvte.DType = _nvte.DType.BFloat16,
+    ):
+        self.eps = eps
+        self.zero_centered_gamma = zero_centered_gamma
+        self.weight = weight
+        self.bias = bias
+        self.x_dtype = x_dtype
+        self.weight_dtype = weight_dtype
+        self.bias_dtype = bias_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+        self.dweight_dtype = dweight_dtype
+        self.dbias_dtype = dbias_dtype
+
+    def inference(self, x: _nvte.Tensor):
+        return self.forward(x)[0]
+
+    def forward(self, x: _nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+        weight = nvte.cast_checked(self.weight, self.weight_dtype)
+        bias = nvte.cast_checked(self.bias, self.bias_dtype)
+
+        y, mu, rsigma = nvte.layernorm(
+            x, self.eps, self.zero_centered_gamma, weight, bias, self.y_dtype
+        )
+
+        return y, {"x": x, "weight": weight, "mu": mu, "rsigma": rsigma}
+
+    def backward(self, ctx: Context, dy: _nvte.Tensor):
+        x, weight, mu, rsigma = ctx["x"], ctx["weight"], ctx["mu"], ctx["rsigma"]
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+
+        dx, dweight, dbias = nvte.dlayernorm(
+            dy,
+            self.zero_centered_gamma,
+            x,
+            weight,
+            mu,
+            rsigma,
+            self.dx_dtype,
+            self.dweight_dtype,
+            self.dbias_dtype,
+        )
+
+        return dx, [dweight, dbias]
+
+    def args(self):
+        return [self.weight, self.bias]
+
+__all__ = ["LayerNorm"]
diff --git a/transformer_engine/pytorch/sequential/ops/mmt.py b/transformer_engine/pytorch/sequential/ops/mmt.py
new file mode 100644
index 0000000000..67a247ab7a
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/mmt.py
@@ -0,0 +1,56 @@
+from __future__ import annotations
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from .. import nvte
+from .op import Op, Context
+
+
+class MMT(Op):
+    def __init__(
+        self,
+        weight: _nvte.Tensor,
+        x_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        weight_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
+        dy_dtype: _nvte.DType | None = _nvte.DType.Float8E5M2,
+        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
+        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        dweight_dtype: _nvte.DType = _nvte.DType.BFloat16,
+    ):
+        self.weight = weight
+        self.x_dtype = x_dtype
+        self.weight_dtype = weight_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+        self.dweight_dtype = dweight_dtype
+
+    def inference(self, x: _nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+        weight = nvte.cast_checked(self.weight, self.weight_dtype)
+
+        y = nvte.matmul_transpose(x, weight, self.y_dtype)
+
+        return y
+
+    def forward(self, x: _nvte.Tensor):
+        (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
+            (x, self.x_dtype), (self.weight, self.weight_dtype)
+        )
+
+        y = nvte.matmul_transpose(x, weight, self.y_dtype)
+
+        return y, {"x_t": x_t, "weight_t": weight_t}
+
+    def backward(self, ctx: Context, dy: _nvte.Tensor):
+        x_t, weight_t = ctx["x_t"], ctx["weight_t"]
+        dy, dy_t = nvte.cast_transpose_checked(dy, self.dy_dtype)
+
+        dx = nvte.matmul_transpose(dy, weight_t, self.dx_dtype)
+        dweight = nvte.matmul_transpose(x_t, dy_t, self.dweight_dtype)
+
+        return dx, [dweight]
+
+    def args(self):
+        return [self.weight]
+
+
+__all__ = ["MMT"]
diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/ops/op.py
new file mode 100644
index 0000000000..50658b4254
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/op.py
@@ -0,0 +1,29 @@
+from __future__ import annotations
+from abc import ABC, abstractmethod
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+
+Context = dict[str, _nvte.Tensor]
+Grads = list[_nvte.Tensor]
+
+class Op(ABC):
+    @abstractmethod
+    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
+        ...
+
+    @abstractmethod
+    def forward(self, x: _nvte.Tensor) -> tuple[_nvte.Tensor, Context]:
+        ...
+
+    @abstractmethod
+    def backward(self, ctx: Context, dy: _nvte.Tensor) -> tuple[_nvte.Tensor, Grads]:
+        ...
+
+    @abstractmethod
+    def args(self) -> list[_nvte.Tensor]:
+        ...
+
+    def __repr__(self):
+        return self.__class__.__name__
+
+
+__all__ = ["Op", "Context", "Grads"]
diff --git a/transformer_engine/pytorch/sequential/ops_types.py b/transformer_engine/pytorch/sequential/ops_types.py
new file mode 100644
index 0000000000..93e3d750e4
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops_types.py
@@ -0,0 +1,22 @@
+from typing import Callable
+import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from typing_extensions import Unpack
+from .ops import Context, Grads
+
+Forward = Callable[[_nvte.Tensor], tuple[_nvte.Tensor, Context]]
+ForwardFused = Callable[[_nvte.Tensor], tuple[_nvte.Tensor, tuple[Context, ...]]]
+Backward = Callable[[Context, _nvte.Tensor], tuple[_nvte.Tensor, Grads]]
+BackwardFused = Callable[
+    [Unpack[tuple[Context, ...]], _nvte.Tensor], tuple[_nvte.Tensor, tuple[Grads, ...]]
+]
+Inference = Callable[[_nvte.Tensor], _nvte.Tensor]
+
+__all__ = [
+    "Forward",
+    "ForwardFused",
+    "Backward",
+    "BackwardFused",
+    "Inference",
+    "Context",
+    "Grads",
+]
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index de5fb2f07a..c3777a0c5b 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -13,6 +13,6 @@ def set_attribute(obj: object, attr: str, value: Any):
         yield
     finally:
         if had_value:
-            setattr(obj, attr, old_value)
+            setattr(obj, attr, old_value)  # type:ignore
         else:
             delattr(obj, attr)

From f4f6cdfa2fc3ed62b54bc9e227de7955a1f910f7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 13:17:53 +0200
Subject: [PATCH 095/535] refactor nvte

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    |  20 +-
 .../sequential/compute_pipeline_function.py   |  25 +-
 .../pytorch/sequential/fusions/_common.py     |  12 +-
 .../pytorch/sequential/fusions/interface.py   |  12 +-
 .../pytorch/sequential/fusions/mmt.py         |   8 +-
 .../pytorch/sequential/nvte/__init__.py       | 661 ++----------------
 .../pytorch/sequential/nvte/_common.py        |  16 +
 .../pytorch/sequential/nvte/_nvte.py          |   1 +
 .../_nvte.pyi}                                |   2 -
 .../pytorch/sequential/nvte/add.py            |  21 +
 .../pytorch/sequential/nvte/cast_transpose.py |  83 +++
 .../pytorch/sequential/nvte/dtype.py          |  92 +++
 .../pytorch/sequential/nvte/empty.py          |  64 ++
 .../pytorch/sequential/nvte/interface.py      |   7 +
 .../pytorch/sequential/nvte/layernorm.py      | 172 +++++
 .../pytorch/sequential/nvte/misc_fusions.py   |  29 +
 .../pytorch/sequential/nvte/mmt.py            | 140 ++++
 .../pytorch/sequential/ops/add.py             |  21 +-
 .../pytorch/sequential/ops/gelu.py            |   6 -
 .../pytorch/sequential/ops/layernorm.py       |  28 +-
 .../pytorch/sequential/ops/mmt.py             |  21 +-
 .../pytorch/sequential/ops/op.py              |  15 +-
 .../pytorch/sequential/ops_types.py           |  12 +-
 23 files changed, 774 insertions(+), 694 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/nvte/_common.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/_nvte.py
 rename transformer_engine/pytorch/sequential/{transformer_engine_cuda.pyi => nvte/_nvte.pyi} (99%)
 create mode 100644 transformer_engine/pytorch/sequential/nvte/add.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/cast_transpose.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/dtype.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/empty.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/interface.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/layernorm.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/misc_fusions.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/mmt.py

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index d6358f07b0..06021f0ddf 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -1,11 +1,11 @@
 import copy
 from functools import reduce
 import operator
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
-from .utils import set_attribute
+from . import nvte
 from .nvte import is_fp8
 from .ops import Op, Grads, Context
 from .fusions import FusedOp, get_fused_op_list
+from .utils import set_attribute
 from .environment import Environment
 
 
@@ -14,10 +14,10 @@ def __init__(self, fwds: list[Op], bwds: list[Op]) -> None:
         self.fwds = fwds
         self.bwds = bwds
 
-    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
+    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
         raise AssertionError("Not used for inference")
 
-    def forward(self, x: _nvte.Tensor):
+    def forward(self, x: nvte.Tensor):
         full_ctx = Context()
         for op in self.fwds:
             x, ctx = op.forward(x)
@@ -27,7 +27,7 @@ def forward(self, x: _nvte.Tensor):
             full_ctx |= ctx
         return x, full_ctx
 
-    def backward(self, ctx: Context, dy: _nvte.Tensor):
+    def backward(self, ctx: Context, dy: nvte.Tensor):
         ctxs = list[Context]()
         for op in self.bwds:
             if isinstance(op, FusedOp):
@@ -49,7 +49,7 @@ def backward(self, ctx: Context, dy: _nvte.Tensor):
         return dy, full_grads
 
     def args(self):
-        return list(sum((op.args() for op in self.fwds), list[_nvte.Tensor]()))
+        return list(sum((op.args() for op in self.fwds), list[nvte.Tensor]()))
 
 
 def force_use_bf16(ops: list[Op]):
@@ -58,8 +58,8 @@ def force_use_bf16(ops: list[Op]):
         dtype_attributes = [attr for attr in attributes if attr.endswith("_dtype")]
         for dtype_attribute in dtype_attributes:
             attr_val = getattr(op, dtype_attribute)
-            if isinstance(attr_val, _nvte.DType) and is_fp8(attr_val):
-                setattr(op, dtype_attribute, _nvte.DType.BFloat16)
+            if isinstance(attr_val, nvte.DType) and is_fp8(attr_val):
+                setattr(op, dtype_attribute, nvte.DType.BFloat16)
 
 
 def model_parallel_transform(ops: list[Op]):
@@ -106,7 +106,7 @@ def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
 
 def copy_op_list(ops: list[Op]):
     "Deep copy ops, except for tensors"
-    with set_attribute(_nvte.Tensor, "__deepcopy__", lambda self, memo: self):  # type: ignore[unknown-lambda-type]
+    with set_attribute(nvte.Tensor, "__deepcopy__", lambda self, memo: self):  # type: ignore[unknown-lambda-type]
         return copy.deepcopy(ops)
 
 
@@ -128,7 +128,7 @@ def __init__(self, ops: list[Op], env: Environment):
         self.forward = tuple(op for f in self.functions for op in f.fwds)
         self.backward = tuple(op for f in self.functions for op in f.bwds)
 
-    def run_inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
+    def run_inference(self, x: nvte.Tensor) -> nvte.Tensor:
         for op in self._inf:
             x = op.inference(x)
         return x
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 1accba6a2c..7543452d57 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,9 +1,8 @@
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from . import nvte
 from .ops import Context, Op
-from .nvte import is_fp8, make_nvte_tensor, set_current_pass
 from .compute_pipeline import ComputePipeline
 
 
@@ -12,7 +11,7 @@ class ComputePipelineFunction(autograd.Function):
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *args: torch.Tensor | Op | list[_nvte.Tensor]
+        *args: torch.Tensor | Op | list[nvte.Tensor]
     ):
         """
         exposed_x is used only to let autograd construct the computation graph
@@ -26,9 +25,9 @@ def forward(  # type: ignore[arg-type]
         assert isinstance(nvte_x_container, list)
         assert len(nvte_x_container) == 1
         nvte_x = nvte_x_container[0]
-        assert isinstance(nvte_x, _nvte.Tensor)
+        assert isinstance(nvte_x, nvte.Tensor)
 
-        set_current_pass("forward")
+        nvte.set_current_pass("forward")
         y, to_save = op.forward(nvte_x)
 
         # Expose backward context for tracing
@@ -64,13 +63,13 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         saved: Context = getattr(ctx, "nvte_ctx")
         op: Op = getattr(ctx, "nvte_op")
 
-        set_current_pass("backward")
-        data_grad, param_grads = op.backward(saved, make_nvte_tensor(grad_output))
+        nvte.set_current_pass("backward")
+        data_grad, param_grads = op.backward(saved, nvte.make_nvte_tensor(grad_output))
 
         # Check that gradients are not fp8 and can be processed by the optimizer
         # TODO: change this when fp8 optimizer comes along
-        assert not is_fp8(data_grad)
-        assert all(not is_fp8(g) for g in param_grads)
+        assert not nvte.is_fp8(data_grad)
+        assert all(not nvte.is_fp8(g) for g in param_grads)
 
         torch_grads = [data_grad.data] + [g.data for g in param_grads]
 
@@ -78,18 +77,18 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
 
 
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
-    nvte_x = make_nvte_tensor(x)
+    nvte_x = nvte.make_nvte_tensor(x)
     if not training:
-        set_current_pass("inference")
+        nvte.set_current_pass("inference")
         y = pipeline.run_inference(nvte_x)
-        assert not is_fp8(y)
+        assert not nvte.is_fp8(y)
         return y.data
     else:
         for contained_op in pipeline.functions:
             nvte_tensors = contained_op.args()
             exposed_tensors = list[torch.Tensor]()
             for nvte_tensor in nvte_tensors:
-                assert not is_fp8(
+                assert not nvte.is_fp8(
                     nvte_tensor
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
diff --git a/transformer_engine/pytorch/sequential/fusions/_common.py b/transformer_engine/pytorch/sequential/fusions/_common.py
index 09dac33e9a..80a0217ab0 100644
--- a/transformer_engine/pytorch/sequential/fusions/_common.py
+++ b/transformer_engine/pytorch/sequential/fusions/_common.py
@@ -4,7 +4,7 @@
 from typing import Callable, Any
 from typing_extensions import TypeVarTuple, Unpack
 from ..ops import Context, Grads
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from .. import nvte
 from ._storage import FUSIONS_FWD, FUSIONS_BWD, FUSIONS_INF
 
 _Ops = TypeVarTuple("_Ops")
@@ -23,7 +23,7 @@ def _get_arg_types(f: Callable[..., Any]):
     return arg_types
 
 
-def register_fusion_inference(f: Callable[[Unpack[_Ops], _nvte.Tensor], _nvte.Tensor]):  # type: ignore[invalid-typevar-use]
+def register_fusion_inference(f: Callable[[Unpack[_Ops], nvte.Tensor], nvte.Tensor]):  # type: ignore[invalid-typevar-use]
     fused_modules = _get_arg_types(f)[:-1]
     FUSIONS_INF[fused_modules] = f
     return f
@@ -31,8 +31,8 @@ def register_fusion_inference(f: Callable[[Unpack[_Ops], _nvte.Tensor], _nvte.Te
 
 def register_fusion_forward(
     f: Callable[
-        [Unpack[_Ops], _nvte.Tensor],  # type: ignore[invalid-typevar-use]
-        tuple[_nvte.Tensor, tuple[Context, ...]],
+        [Unpack[_Ops], nvte.Tensor],  # type: ignore[invalid-typevar-use]
+        tuple[nvte.Tensor, tuple[Context, ...]],
     ]
 ):
     fused_modules = _get_arg_types(f)[:-1]
@@ -42,8 +42,8 @@ def register_fusion_forward(
 
 def register_fusion_backward(
     f: Callable[
-        [Unpack[_OpsAndCtxs], _nvte.Tensor],  # type: ignore[invalid-typevar-use]
-        tuple[_nvte.Tensor, tuple[Grads, ...]],
+        [Unpack[_OpsAndCtxs], nvte.Tensor],  # type: ignore[invalid-typevar-use]
+        tuple[nvte.Tensor, tuple[Grads, ...]],
     ]
 ):
     arg_types = _get_arg_types(f)
diff --git a/transformer_engine/pytorch/sequential/fusions/interface.py b/transformer_engine/pytorch/sequential/fusions/interface.py
index cce230b123..ad75ddcb91 100644
--- a/transformer_engine/pytorch/sequential/fusions/interface.py
+++ b/transformer_engine/pytorch/sequential/fusions/interface.py
@@ -2,7 +2,7 @@
 from functools import partial
 from ..ops import Op
 from typing import Literal
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from .. import nvte
 from ..ops_types import (
     BackwardFused,
     ForwardFused,
@@ -12,6 +12,7 @@
 )
 from ._storage import FUSIONS_FWD, FUSIONS_BWD, FUSIONS_INF
 
+
 class FusedOp(Op):
     def __init__(
         self,
@@ -25,11 +26,11 @@ def __init__(
         self.inference_ = inference
         self.ops = ops
 
-    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
+    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
         assert self.inference_ is not None
         return self.inference_(x)
 
-    def forward(self, x: _nvte.Tensor):
+    def forward(self, x: nvte.Tensor):
         assert self.forward_ is not None
         y, ctxs = self.forward_(x)
         full_ctx = Context()
@@ -39,7 +40,7 @@ def forward(self, x: _nvte.Tensor):
             full_ctx |= ctx
         return y, full_ctx
 
-    def backward(self, ctx: Context, dy: _nvte.Tensor):
+    def backward(self, ctx: Context, dy: nvte.Tensor):
         assert self.backward_ is not None
         ctxs = list[Context]()
         for op in self.ops:
@@ -57,7 +58,7 @@ def backward(self, ctx: Context, dy: _nvte.Tensor):
         return dx, grads_total
 
     def args(self):
-        return list(sum((op.args() for op in self.ops), list[_nvte.Tensor]()))
+        return list(sum((op.args() for op in self.ops), list[nvte.Tensor]()))
 
     def __repr__(self):
         return f"""FusedOp{self.ops}"""
@@ -86,4 +87,5 @@ def get_fused_op_list(
             startPos += 1
     return ops
 
+
 __all__ = ["FusedOp", "get_fused_op_list"]
diff --git a/transformer_engine/pytorch/sequential/fusions/mmt.py b/transformer_engine/pytorch/sequential/fusions/mmt.py
index 1a931b702f..e806084a1d 100644
--- a/transformer_engine/pytorch/sequential/fusions/mmt.py
+++ b/transformer_engine/pytorch/sequential/fusions/mmt.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from .. import nvte
 from ..ops import Context, MMT, Add
 from .. import nvte
 from ._common import (
@@ -10,7 +10,7 @@
 
 
 @register_fusion_inference
-def mmt_add_inf_fused(mmt: MMT, add: Add, x: _nvte.Tensor):
+def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     x = nvte.cast_checked(x, mmt.x_dtype)
     weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
     bias = nvte.cast_checked(add.bias, add.bias_dtype)
@@ -21,7 +21,7 @@ def mmt_add_inf_fused(mmt: MMT, add: Add, x: _nvte.Tensor):
 
 
 @register_fusion_forward
-def mmt_add_fwd_fused(mmt: MMT, add: Add, x: _nvte.Tensor):
+def mmt_add_fwd_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
         (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
     )
@@ -38,7 +38,7 @@ def mmt_add_bwd_fused(
     add: Add,
     mmt_ctx: Context,
     add_ctx: Context,
-    dy: _nvte.Tensor,
+    dy: nvte.Tensor,
 ):
     del add_ctx
     x_t, weight_t = mmt_ctx["x_t"], mmt_ctx["weight_t"]
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index 8da1990889..28191a5472 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -1,599 +1,62 @@
-from contextlib import contextmanager
-from functools import cache
-import os
-import subprocess
-from typing import Literal, Sequence
-import torch
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
-
-
-@cache
-def _is_hopper():
-    gpu_name = (
-        subprocess.check_output(
-            "nvidia-smi --query-gpu=name --format=csv,noheader", shell=True
-        )
-        .decode("utf-8")
-        .strip()
-    )
-    return "H100" in gpu_name
-
-
-@cache
-def _cublas_workspace():
-    workspace_size = 33_554_432 if _is_hopper() else 4_194_304
-    data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
-    return _nvte.Tensor(
-        _nvte.DType.Byte, data, torch.Tensor(), torch.Tensor(), torch.Tensor()
-    )
-
-
-@cache
-def _fwd_ln_sm_margin():
-    return int(os.getenv("NVTE_FWD_LAYERNORM_SM_MARGIN", "0"))
-
-
-@cache
-def _bwd_ln_sm_margin():
-    return int(os.getenv("NVTE_BWD_LAYERNORM_SM_MARGIN", "0"))
-
-
-@cache
-def _sm_total_count() -> int:
-    return torch.cuda.get_device_properties(  # type: ignore
-        torch.cuda.current_device()
-    ).multi_processor_count
-
-
-def _sm_margin():
-    if _pass == "backward":
-        return _bwd_ln_sm_margin()
-    elif _pass == "forward":
-        return _fwd_ln_sm_margin()
-    else:
-        return 0
-
-
-def _to_cublas_args(A: _nvte.Tensor, B: _nvte.Tensor, transA: bool, transB: bool):
-    return B, A, not transA, not transB
-
-
-def set_current_pass(pass_: Literal["forward", "backward", "inference"]):
-    global _pass
-    _pass = pass_
-
-
-def make_nvte_tensor(t: torch.Tensor):
-    return _nvte.Tensor(
-        torch_to_te_dtype(t.dtype),
-        t.data,
-        torch.Tensor(),
-        torch.Tensor(),
-        torch.Tensor(),
-    )
-
-
-# DTYPES
-def te_to_torch_dtype(dtype: _nvte.DType):
-    match dtype:
-        case _nvte.DType.Byte:
-            return torch.uint8
-        case _nvte.DType.Int32:
-            return torch.int32
-        case _nvte.DType.Int64:
-            return torch.int64
-        case _nvte.DType.Float32:
-            return torch.float32
-        case _nvte.DType.Float16:
-            return torch.float16
-        case _nvte.DType.BFloat16:
-            return torch.bfloat16
-        case _nvte.DType.Float8E4M3:
-            return torch.int8
-        case _nvte.DType.Float8E5M2:
-            return torch.int8
-
-
-def torch_to_te_dtype(dtype: torch.dtype):
-    match dtype:
-        case torch.int:
-            return _nvte.DType.Int32
-        case torch.int32:
-            return _nvte.DType.Int32
-        case torch.int64:
-            return _nvte.DType.Int64
-        case torch.float:
-            return _nvte.DType.Float32
-        case torch.float32:
-            return _nvte.DType.Float32
-        case torch.half:
-            return _nvte.DType.Float16
-        case torch.float16:
-            return _nvte.DType.Float16
-        case torch.bfloat16:
-            return _nvte.DType.BFloat16
-        case _:
-            raise ValueError(f"Unsupported dtype: {dtype}")
-
-
-def bit_width(dtype: _nvte.DType):
-    match dtype:
-        case _nvte.DType.Byte:
-            return 8
-        case _nvte.DType.Int32:
-            return 32
-        case _nvte.DType.Int64:
-            return 64
-        case _nvte.DType.Float32:
-            return 32
-        case _nvte.DType.Float16:
-            return 16
-        case _nvte.DType.BFloat16:
-            return 16
-        case _nvte.DType.Float8E4M3:
-            return 8
-        case _nvte.DType.Float8E5M2:
-            return 8
-
-
-def _type_name(dtype: _nvte.DType):
-    match dtype:
-        case _nvte.DType.Byte:
-            return "byte"
-        case _nvte.DType.Int32:
-            return "int32"
-        case _nvte.DType.Int64:
-            return "int64"
-        case _nvte.DType.Float32:
-            return "fp32"
-        case _nvte.DType.Float16:
-            return "fp16"
-        case _nvte.DType.BFloat16:
-            return "bf16"
-        case _nvte.DType.Float8E4M3:
-            return "fp8e4m3"
-        case _nvte.DType.Float8E5M2:
-            return "fp8e5m2"
-
-
-def is_fp8(t: _nvte.Tensor | _nvte.DType):
-    if isinstance(t, _nvte.Tensor):
-        dtype = t.dtype
-    else:
-        dtype = t
-    return dtype == _nvte.DType.Float8E4M3 or dtype == _nvte.DType.Float8E5M2
-
-
-# ADD
-def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
-    if is_fp8(A) or is_fp8(B):
-        raise NotImplementedError()
-    else:
-        output = torch.empty(A.shape, dtype=te_to_torch_dtype(out_dtype), device="cuda")
-        torch.add(A.data, B.data, out=output)
-        return make_nvte_tensor(output)
-
-
-def dbias(grad: _nvte.Tensor, out_dtype: _nvte.DType):
-    if is_fp8(grad):
-        raise NotImplementedError()
-    else:
-        output = torch.sum(grad.data, dtype=te_to_torch_dtype(out_dtype), dim=0)
-        return make_nvte_tensor(output)
-
-
-# CREATE
-_AMAX_HISTORY_LEN = 512
-
-
-def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
-    if shape == ():
-        return _nvte.Tensor(
-            dtype,
-            torch.Tensor(),
-            torch.Tensor(),
-            torch.Tensor(),
-            torch.Tensor(),
-        )
-    if is_fp8(dtype):
-        return _nvte.Tensor(
-            dtype,
-            torch.empty(
-                _AMAX_HISTORY_LEN, dtype=te_to_torch_dtype(dtype), device="cuda"
-            ),
-            torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda"),
-            torch.empty(1, dtype=torch.float32, device="cuda"),
-            torch.empty(1, dtype=torch.float32, device="cuda"),
-        )
-    else:
-        return _nvte.Tensor(
-            dtype,
-            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.Tensor(),
-            torch.Tensor(),
-            torch.Tensor(),
-        )
-
-
-def empty_like(t: _nvte.Tensor):
-    return empty(t.shape, t.dtype)
-
-
-def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]):
-    amax = torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda")
-    scale = torch.empty(1, dtype=torch.float32, device="cuda")
-    scale_inv = torch.empty(1, dtype=torch.float32, device="cuda")
-
-    return tuple(
-        _nvte.Tensor(
-            dtype,
-            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            amax,
-            scale,
-            scale_inv,
-        )
-        if is_fp8(dtype)
-        else _nvte.Tensor(
-            dtype,
-            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.Tensor(),
-            torch.Tensor(),
-            torch.Tensor(),
-        )
-        for shape, dtype in shapes_dtypes
-    )
-
-
-# CAST + TRANPOSE
-def cast(t: _nvte.Tensor, dtype: _nvte.DType):
-    assert t.dtype != dtype
-    if is_fp8(t):
-        assert not is_fp8(dtype)
-
-    output = empty(t.shape, dtype)
-    if is_fp8(dtype):
-        _nvte.fp8_quantize(t, output)
-    elif is_fp8(t):
-        _nvte.fp8_dequantize(t, output)
-    else:
-        output.data.copy_(t.data)
-
-    return output
-
-
-def cast_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
-    if dtype is None or t.dtype == dtype:
-        return t
-    else:
-        return cast(t, dtype)
-
-
-def transpose(t: _nvte.Tensor):
-    output = empty(t.shape[::-1], t.dtype)
-    _nvte.transpose(t, output)
-    return output
-
-
-def cast_transpose(t: _nvte.Tensor, dtype: _nvte.DType):
-    assert t.dtype != dtype
-    assert is_fp8(t) != is_fp8(dtype)
-
-    out_cast, out_transpose = multi_empty_share_metadata(
-        (t.shape, dtype), (t.shape[::-1], dtype)
-    )
-
-    _nvte.cast_transpose(t, out_cast, out_transpose)
-    return out_cast, out_transpose
-
-
-def cast_transpose_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
-    if dtype is None or t.dtype == dtype:
-        return t, transpose(t)
-    else:
-        return cast_transpose(t, dtype)
-
-
-def multi_cast_transpose(*desc: tuple[_nvte.Tensor, _nvte.DType]):
-    outs = [
-        multi_empty_share_metadata((t.shape, dtype), (t.shape[::-1], dtype))
-        for t, dtype in desc
-    ]
-    out_cast_list, out_transpose_list = zip(*outs)
-    input_list, _ = zip(*desc)
-    _nvte.multi_cast_transpose(input_list, out_cast_list, out_transpose_list)  # type: ignore
-    return outs
-
-
-def multi_cast_transpose_checked(*desc: tuple[_nvte.Tensor, _nvte.DType | None]):
-    transpose_results = list[tuple[_nvte.Tensor, _nvte.Tensor] | None]()
-    to_cast_transpose = list[tuple[_nvte.Tensor, _nvte.DType]]()
-    for t, dtype in desc:
-        if dtype is None or t.dtype == dtype:
-            transpose_results.append((t, transpose(t)))
-        else:
-            to_cast_transpose.append((t, dtype))
-            transpose_results.append(None)
-    cast_transpose_results = multi_cast_transpose(*to_cast_transpose)
-    results = list[tuple[_nvte.Tensor, _nvte.Tensor]]()
-    i = 0
-    for result in transpose_results:
-        if result is None:
-            results.append(cast_transpose_results[i])
-            i += 1
-        else:
-            results.append(result)
-    return results
-
-
-def cast_transpose_dbias_checked(
-    grad: _nvte.Tensor, cast_dtype: _nvte.DType | None, dbias_dtype: _nvte.DType
-):
-    if (
-        dbias_dtype == grad.dtype
-        and cast_dtype is not None
-        and cast_dtype != grad.dtype
-    ):
-        out_cast, out_transpose = multi_empty_share_metadata(
-            (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
-        )
-        out_dbias = empty((grad.shape[1],), dbias_dtype)
-        workspace = empty()
-        for _ in range(2):
-            _nvte.cast_transpose_dbias(
-                grad, out_cast, out_transpose, out_dbias, workspace
-            )
-            workspace = empty_like(workspace)
-        return out_cast, out_transpose, out_dbias
-    else:
-        out_cast, out_transpose = cast_transpose_checked(grad, cast_dtype)
-        out_dbias = dbias(grad, dbias_dtype)
-        return out_cast, out_transpose, out_dbias
-
-
-# MATMUL TRANSPOSE
-def matmul_transpose(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
-    "returns mat @ mul^T"
-    # TODO: this should be allowed, though cublaslt_gemm cannot be used in this case
-    assert mat.dtype == mul.dtype
-    return matmul_transpose_add(mat, mul, empty(), out_dtype)
-
-
-def matmul_transpose_gelu(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
-    "returns mat @ mul^T, GELU(mat @ mul^T)"
-    assert mat.dtype == mul.dtype
-    return matmul_transpose_add_gelu(mat, mul, empty(), out_dtype)
-
-
-def matmul_transpose_add(
-    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
-):
-    "returns mat @ mul^T + add"
-    assert mat.dtype == mul.dtype
-    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
-    out = empty((b.shape[0], a.shape[0]), out_dtype)
-    _nvte.cublas_gemm(
-        a,
-        b,
-        out,
-        add,
-        empty(),
-        trans_a,
-        trans_b,
-        _pass == "backward",
-        _cublas_workspace(),
-        False,
-        _pass == "backward",
-        0,
-    )
-    return out
-
-
-def matmul_transpose_add_gelu(
-    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
-):
-    "returns mat @ mul^T + add, GELU(mat @ mul^T + add)"
-    assert mat.dtype == mul.dtype
-    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
-    out = empty((b.shape[0], a.shape[0]), out_dtype)
-    pre_gelu = empty(out.shape, add.dtype)
-    _nvte.cublas_gemm(
-        a,
-        b,
-        out,
-        add,
-        pre_gelu,
-        trans_a,
-        trans_b,
-        _pass == "backward",
-        _cublas_workspace(),
-        False,
-        _pass == "backward",
-        0,
-    )
-    return pre_gelu, out
-
-
-def matmul_transpose_add_add(
-    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
-):
-    "returns mat @ mul^T + add1 + add2"
-    assert mat.dtype == mul.dtype
-    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
-    _nvte.cublas_gemm(
-        a,
-        b,
-        add2,
-        add1,
-        empty(),
-        trans_a,
-        trans_b,
-        _pass == "backward",
-        _cublas_workspace(),
-        True,
-        _pass == "backward",
-        0,
-    )
-    return add2
-
-
-def matmul_transpose_add_gelu_add(
-    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
-):
-    "returns mat @ mul^T + add1, GELU(mat @ mul^T + add1) + add2"
-    assert mat.dtype == mul.dtype
-    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
-    pre_gelu = empty(add2.shape, add1.dtype)
-    _nvte.cublas_gemm(
-        a,
-        b,
-        add2,
-        add1,
-        pre_gelu,
-        trans_a,
-        trans_b,
-        _pass == "backward",
-        _cublas_workspace(),
-        True,
-        _pass == "backward",
-        0,
-    )
-    return pre_gelu, add2
-
-
-# LAYERNORM
-class _LayerNormConfig:
-    def __init__(
-        self, hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
-    ):
-        self.hidden_size = hidden_size
-        self.gamma_dtype_name = _type_name(gamma.dtype)
-        self.x_dtype_name = _type_name(x.dtype)
-        self.out_dtype_name = _type_name(out.dtype)
-
-    def __str__(self):
-        return str(
-            (
-                self.hidden_size,
-                self.gamma_dtype_name,
-                self.x_dtype_name,
-                self.out_dtype_name,
-            )
-        )
-
-
-@contextmanager
-def _handle_unsupported_layernorm_config(
-    hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
-):
-    try:
-        yield
-    except RuntimeError as error:
-        config = _LayerNormConfig(hidden_size, gamma, x, out)
-        if "in function get_fwd_launcher: FWD: Unsupported types." in str(error):
-            raise ValueError(
-                "This configuration for layernorm is not supported. "
-                "(Regex) Search for REGISTER_FWD_(TUNED|GENERAL)_LAUNCHER to see possible options. "
-                f"Used configuration: {config}"
-            ) from error
-        elif "in function get_bwd_launcher: BWD: Unsupported types." in str(error):
-            raise ValueError(
-                "This configuration for layernorm is not supported. "
-                "(Regex) Search for REGISTER_BWD_(TUNED|GENERAL)_LAUNCHER to see possible options. "
-                f"Used configuration: {config}"
-            ) from error
-        else:
-            raise
-
-
-def layernorm(
-    x: _nvte.Tensor,
-    eps: float,
-    zero_centered_gamma: bool,
-    gamma: _nvte.Tensor,
-    beta: _nvte.Tensor,
-    out_dtype: _nvte.DType,
-):
-    "returns (x - mean(x)) / sqrt(var(x) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
-
-    assert len(x.shape) == 2
-    n, hidden_size = x.shape
-    mu = empty((n,), _nvte.DType.Float32)
-    rsigma = empty((n,), _nvte.DType.Float32)
-    out = empty(x.shape, out_dtype)
-
-    if zero_centered_gamma:
-        func = _nvte.layernorm1p_fwd
-    else:
-        func = _nvte.layernorm_fwd
-
-    with _handle_unsupported_layernorm_config(hidden_size, gamma, x, out):
-        workspace = empty()
-        barrier = empty()
-        for _ in range(2):
-            func(
-                x,
-                gamma,
-                beta,
-                eps,
-                out,
-                mu,
-                rsigma,
-                _sm_total_count() - _sm_margin(),
-                workspace,
-                barrier,
-            )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
-
-    return out, mu, rsigma
-
-
-def dlayernorm(
-    grad: _nvte.Tensor,
-    zero_centered_gamma: bool,
-    x: _nvte.Tensor,
-    gamma: _nvte.Tensor,
-    mu: _nvte.Tensor,
-    rsigma: _nvte.Tensor,
-    dx_dtype: _nvte.DType,
-    dgamma_dtype: _nvte.DType,
-    dbeta_dtype: _nvte.DType,
-):
-    "returns dx, dgamma, dbeta"
-
-    dx = empty(x.shape, dx_dtype)
-    dgamma = empty(gamma.shape, dgamma_dtype)
-    dbeta = empty(gamma.shape, dbeta_dtype)
-
-    if zero_centered_gamma:
-        func = _nvte.layernorm1p_bwd
-    else:
-        func = _nvte.layernorm_bwd
-
-    with _handle_unsupported_layernorm_config(x.shape[1], gamma, x, dx):
-        workspace = empty()
-        barrier = empty()
-        dgamma_part = empty()
-        dbeta_part = empty()
-        for _ in range(2):
-            func(
-                grad,
-                x,
-                mu,
-                rsigma,
-                gamma,
-                dx,
-                dgamma,
-                dbeta,
-                dgamma_part,
-                dbeta_part,
-                _sm_total_count() - _sm_margin(),
-                workspace,
-                barrier,
-            )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
-            dgamma_part = empty_like(dgamma_part)
-            dbeta_part = empty_like(dbeta_part)
-
-    return dx, dgamma, dbeta
+from ._common import make_nvte_tensor
+from ._nvte import QKVLayout, BiasType, MaskType, FusedAttnBackend, DType, Tensor
+from .add import add, dbias
+from .cast_transpose import (
+    cast,
+    cast_checked,
+    transpose,
+    cast_transpose,
+    cast_transpose_checked,
+    multi_cast_transpose,
+    multi_cast_transpose_checked,
+)
+from .dtype import te_to_torch_dtype, torch_to_te_dtype, bit_width, dtype_name, is_fp8
+from .empty import empty, empty_like, multi_empty_share_metadata
+from .interface import set_current_pass
+from .layernorm import layernorm, dlayernorm
+from .misc_fusions import cast_transpose_dbias_checked
+from .mmt import (
+    matmul_transpose,
+    matmul_transpose_gelu,
+    matmul_transpose_add,
+    matmul_transpose_add_gelu,
+    matmul_transpose_add_add,
+    matmul_transpose_add_gelu_add,
+)
+
+__all__ = [
+    "add",
+    "BiasType",
+    "bit_width",
+    "cast_checked",
+    "cast_transpose_checked",
+    "cast_transpose_dbias_checked",
+    "cast_transpose",
+    "cast",
+    "dbias",
+    "dlayernorm",
+    "dtype_name",
+    "DType",
+    "empty_like",
+    "empty",
+    "FusedAttnBackend",
+    "is_fp8",
+    "layernorm",
+    "make_nvte_tensor",
+    "MaskType",
+    "matmul_transpose_add_add",
+    "matmul_transpose_add_gelu_add",
+    "matmul_transpose_add_gelu",
+    "matmul_transpose_add",
+    "matmul_transpose_gelu",
+    "matmul_transpose",
+    "multi_cast_transpose_checked",
+    "multi_cast_transpose",
+    "multi_empty_share_metadata",
+    "QKVLayout",
+    "set_current_pass",
+    "te_to_torch_dtype",
+    "Tensor",
+    "torch_to_te_dtype",
+    "transpose",
+]
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
new file mode 100644
index 0000000000..85e42a4c9f
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -0,0 +1,16 @@
+from typing import Literal
+import torch
+from . import _nvte
+from .dtype import torch_to_te_dtype
+
+pass_: Literal["forward", "backward", "inference"]
+
+
+def make_nvte_tensor(t: torch.Tensor):
+    return _nvte.Tensor(
+        torch_to_te_dtype(t.dtype),
+        t.data,
+        torch.Tensor(),
+        torch.Tensor(),
+        torch.Tensor(),
+    )
diff --git a/transformer_engine/pytorch/sequential/nvte/_nvte.py b/transformer_engine/pytorch/sequential/nvte/_nvte.py
new file mode 100644
index 0000000000..5dccd89c78
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/_nvte.py
@@ -0,0 +1 @@
+from transformer_engine_cuda import *  # type: ignore
diff --git a/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi b/transformer_engine/pytorch/sequential/nvte/_nvte.pyi
similarity index 99%
rename from transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
rename to transformer_engine/pytorch/sequential/nvte/_nvte.pyi
index d927161675..16f3a8c00f 100644
--- a/transformer_engine/pytorch/sequential/transformer_engine_cuda.pyi
+++ b/transformer_engine/pytorch/sequential/nvte/_nvte.pyi
@@ -1,5 +1,3 @@
-# pylint: skip-file
-
 import torch
 from enum import Enum
 from typing import Sequence
diff --git a/transformer_engine/pytorch/sequential/nvte/add.py b/transformer_engine/pytorch/sequential/nvte/add.py
new file mode 100644
index 0000000000..b01d352965
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/add.py
@@ -0,0 +1,21 @@
+import torch
+from . import _nvte
+from ._common import make_nvte_tensor
+from .dtype import is_fp8, te_to_torch_dtype
+
+
+def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
+    if is_fp8(A) or is_fp8(B):
+        raise NotImplementedError()
+    else:
+        output = torch.empty(A.shape, dtype=te_to_torch_dtype(out_dtype), device="cuda")
+        torch.add(A.data, B.data, out=output)
+        return make_nvte_tensor(output)
+
+
+def dbias(grad: _nvte.Tensor, out_dtype: _nvte.DType):
+    if is_fp8(grad):
+        raise NotImplementedError()
+    else:
+        output = torch.sum(grad.data, dtype=te_to_torch_dtype(out_dtype), dim=0)
+        return make_nvte_tensor(output)
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
new file mode 100644
index 0000000000..4751aac4bf
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -0,0 +1,83 @@
+from . import _nvte
+from .dtype import is_fp8
+from .empty import empty, multi_empty_share_metadata
+
+
+def cast(t: _nvte.Tensor, dtype: _nvte.DType):
+    assert t.dtype != dtype
+    if is_fp8(t):
+        assert not is_fp8(dtype)
+
+    output = empty(t.shape, dtype)
+    if is_fp8(dtype):
+        _nvte.fp8_quantize(t, output)
+    elif is_fp8(t):
+        _nvte.fp8_dequantize(t, output)
+    else:
+        output.data.copy_(t.data)
+
+    return output
+
+
+def cast_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
+    if dtype is None or t.dtype == dtype:
+        return t
+    else:
+        return cast(t, dtype)
+
+
+def transpose(t: _nvte.Tensor):
+    output = empty(t.shape[::-1], t.dtype)
+    _nvte.transpose(t, output)
+    return output
+
+
+def cast_transpose(t: _nvte.Tensor, dtype: _nvte.DType):
+    assert t.dtype != dtype
+    assert is_fp8(t) != is_fp8(dtype)
+
+    out_cast, out_transpose = multi_empty_share_metadata(
+        (t.shape, dtype), (t.shape[::-1], dtype)
+    )
+
+    _nvte.cast_transpose(t, out_cast, out_transpose)
+    return out_cast, out_transpose
+
+
+def cast_transpose_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
+    if dtype is None or t.dtype == dtype:
+        return t, transpose(t)
+    else:
+        return cast_transpose(t, dtype)
+
+
+def multi_cast_transpose(*desc: tuple[_nvte.Tensor, _nvte.DType]):
+    outs = [
+        multi_empty_share_metadata((t.shape, dtype), (t.shape[::-1], dtype))
+        for t, dtype in desc
+    ]
+    out_cast_list, out_transpose_list = zip(*outs)
+    input_list, _ = zip(*desc)
+    _nvte.multi_cast_transpose(input_list, out_cast_list, out_transpose_list)  # type: ignore
+    return outs
+
+
+def multi_cast_transpose_checked(*desc: tuple[_nvte.Tensor, _nvte.DType | None]):
+    transpose_results = list[tuple[_nvte.Tensor, _nvte.Tensor] | None]()
+    to_cast_transpose = list[tuple[_nvte.Tensor, _nvte.DType]]()
+    for t, dtype in desc:
+        if dtype is None or t.dtype == dtype:
+            transpose_results.append((t, transpose(t)))
+        else:
+            to_cast_transpose.append((t, dtype))
+            transpose_results.append(None)
+    cast_transpose_results = multi_cast_transpose(*to_cast_transpose)
+    results = list[tuple[_nvte.Tensor, _nvte.Tensor]]()
+    i = 0
+    for result in transpose_results:
+        if result is None:
+            results.append(cast_transpose_results[i])
+            i += 1
+        else:
+            results.append(result)
+    return results
diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
new file mode 100644
index 0000000000..eff22936f0
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -0,0 +1,92 @@
+import torch
+from . import _nvte
+
+
+def te_to_torch_dtype(dtype: _nvte.DType):
+    match dtype:
+        case _nvte.DType.Byte:
+            return torch.uint8
+        case _nvte.DType.Int32:
+            return torch.int32
+        case _nvte.DType.Int64:
+            return torch.int64
+        case _nvte.DType.Float32:
+            return torch.float32
+        case _nvte.DType.Float16:
+            return torch.float16
+        case _nvte.DType.BFloat16:
+            return torch.bfloat16
+        case _nvte.DType.Float8E4M3:
+            return torch.int8
+        case _nvte.DType.Float8E5M2:
+            return torch.int8
+
+
+def torch_to_te_dtype(dtype: torch.dtype):
+    match dtype:
+        case torch.int:
+            return _nvte.DType.Int32
+        case torch.int32:
+            return _nvte.DType.Int32
+        case torch.int64:
+            return _nvte.DType.Int64
+        case torch.float:
+            return _nvte.DType.Float32
+        case torch.float32:
+            return _nvte.DType.Float32
+        case torch.half:
+            return _nvte.DType.Float16
+        case torch.float16:
+            return _nvte.DType.Float16
+        case torch.bfloat16:
+            return _nvte.DType.BFloat16
+        case _:
+            raise ValueError(f"Unsupported dtype: {dtype}")
+
+
+def bit_width(dtype: _nvte.DType):
+    match dtype:
+        case _nvte.DType.Byte:
+            return 8
+        case _nvte.DType.Int32:
+            return 32
+        case _nvte.DType.Int64:
+            return 64
+        case _nvte.DType.Float32:
+            return 32
+        case _nvte.DType.Float16:
+            return 16
+        case _nvte.DType.BFloat16:
+            return 16
+        case _nvte.DType.Float8E4M3:
+            return 8
+        case _nvte.DType.Float8E5M2:
+            return 8
+
+
+def dtype_name(dtype: _nvte.DType):
+    match dtype:
+        case _nvte.DType.Byte:
+            return "byte"
+        case _nvte.DType.Int32:
+            return "int32"
+        case _nvte.DType.Int64:
+            return "int64"
+        case _nvte.DType.Float32:
+            return "fp32"
+        case _nvte.DType.Float16:
+            return "fp16"
+        case _nvte.DType.BFloat16:
+            return "bf16"
+        case _nvte.DType.Float8E4M3:
+            return "fp8e4m3"
+        case _nvte.DType.Float8E5M2:
+            return "fp8e5m2"
+
+
+def is_fp8(t: _nvte.Tensor | _nvte.DType):
+    if isinstance(t, _nvte.Tensor):
+        dtype = t.dtype
+    else:
+        dtype = t
+    return dtype == _nvte.DType.Float8E4M3 or dtype == _nvte.DType.Float8E5M2
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
new file mode 100644
index 0000000000..db9d477be3
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -0,0 +1,64 @@
+from typing import Sequence
+import torch
+from . import _nvte
+from .dtype import te_to_torch_dtype, is_fp8
+
+_AMAX_HISTORY_LEN = 512
+
+
+def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
+    if shape == ():
+        return _nvte.Tensor(
+            dtype,
+            torch.Tensor(),
+            torch.Tensor(),
+            torch.Tensor(),
+            torch.Tensor(),
+        )
+    if is_fp8(dtype):
+        return _nvte.Tensor(
+            dtype,
+            torch.empty(
+                _AMAX_HISTORY_LEN, dtype=te_to_torch_dtype(dtype), device="cuda"
+            ),
+            torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda"),
+            torch.empty(1, dtype=torch.float32, device="cuda"),
+            torch.empty(1, dtype=torch.float32, device="cuda"),
+        )
+    else:
+        return _nvte.Tensor(
+            dtype,
+            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
+            torch.Tensor(),
+            torch.Tensor(),
+            torch.Tensor(),
+        )
+
+
+def empty_like(t: _nvte.Tensor):
+    return empty(t.shape, t.dtype)
+
+
+def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]):
+    amax = torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda")
+    scale = torch.empty(1, dtype=torch.float32, device="cuda")
+    scale_inv = torch.empty(1, dtype=torch.float32, device="cuda")
+
+    return tuple(
+        _nvte.Tensor(
+            dtype,
+            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
+            amax,
+            scale,
+            scale_inv,
+        )
+        if is_fp8(dtype)
+        else _nvte.Tensor(
+            dtype,
+            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
+            torch.Tensor(),
+            torch.Tensor(),
+            torch.Tensor(),
+        )
+        for shape, dtype in shapes_dtypes
+    )
diff --git a/transformer_engine/pytorch/sequential/nvte/interface.py b/transformer_engine/pytorch/sequential/nvte/interface.py
new file mode 100644
index 0000000000..2d81e1432c
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/interface.py
@@ -0,0 +1,7 @@
+from typing import Literal
+from . import _common
+
+
+
+def set_current_pass(pass__: Literal["forward", "backward", "inference"]):
+    _common.pass_ = pass__
diff --git a/transformer_engine/pytorch/sequential/nvte/layernorm.py b/transformer_engine/pytorch/sequential/nvte/layernorm.py
new file mode 100644
index 0000000000..8782a46faa
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/layernorm.py
@@ -0,0 +1,172 @@
+import os
+from functools import cache
+from contextlib import contextmanager
+import torch
+from . import _nvte
+from ._common import pass_
+from .dtype import dtype_name
+from .empty import empty, empty_like
+
+
+@cache
+def _fwd_ln_sm_margin():
+    return int(os.getenv("NVTE_FWD_LAYERNORM_SM_MARGIN", "0"))
+
+
+@cache
+def _bwd_ln_sm_margin():
+    return int(os.getenv("NVTE_BWD_LAYERNORM_SM_MARGIN", "0"))
+
+
+@cache
+def _sm_total_count() -> int:
+    return torch.cuda.get_device_properties(  # type: ignore
+        torch.cuda.current_device()
+    ).multi_processor_count
+
+
+def _sm_margin():
+    if pass_ == "backward":
+        return _bwd_ln_sm_margin()
+    elif pass_ == "forward":
+        return _fwd_ln_sm_margin()
+    else:
+        return 0
+
+
+class _LayerNormConfig:
+    def __init__(
+        self, hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
+    ):
+        self.hidden_size = hidden_size
+        self.gamma_dtype_name = dtype_name(gamma.dtype)
+        self.x_dtype_name = dtype_name(x.dtype)
+        self.out_dtype_name = dtype_name(out.dtype)
+
+    def __str__(self):
+        return str(
+            (
+                self.hidden_size,
+                self.gamma_dtype_name,
+                self.x_dtype_name,
+                self.out_dtype_name,
+            )
+        )
+
+
+@contextmanager
+def _handle_unsupported_layernorm_config(
+    hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
+):
+    try:
+        yield
+    except RuntimeError as error:
+        config = _LayerNormConfig(hidden_size, gamma, x, out)
+        if "in function get_fwd_launcher: FWD: Unsupported types." in str(error):
+            raise ValueError(
+                "This configuration for layernorm is not supported. "
+                "(Regex) Search for REGISTER_FWD_(TUNED|GENERAL)_LAUNCHER to see possible options. "
+                f"Used configuration: {config}"
+            ) from error
+        elif "in function get_bwd_launcher: BWD: Unsupported types." in str(error):
+            raise ValueError(
+                "This configuration for layernorm is not supported. "
+                "(Regex) Search for REGISTER_BWD_(TUNED|GENERAL)_LAUNCHER to see possible options. "
+                f"Used configuration: {config}"
+            ) from error
+        else:
+            raise
+
+
+def layernorm(
+    x: _nvte.Tensor,
+    eps: float,
+    zero_centered_gamma: bool,
+    gamma: _nvte.Tensor,
+    beta: _nvte.Tensor,
+    out_dtype: _nvte.DType,
+):
+    "returns (x - mean(x)) / sqrt(var(x) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
+
+    assert len(x.shape) == 2
+    n, hidden_size = x.shape
+    mu = empty((n,), _nvte.DType.Float32)
+    rsigma = empty((n,), _nvte.DType.Float32)
+    out = empty(x.shape, out_dtype)
+
+    if zero_centered_gamma:
+        func = _nvte.layernorm1p_fwd
+    else:
+        func = _nvte.layernorm_fwd
+
+    with _handle_unsupported_layernorm_config(hidden_size, gamma, x, out):
+        workspace = empty()
+        barrier = empty()
+        for _ in range(2):
+            func(
+                x,
+                gamma,
+                beta,
+                eps,
+                out,
+                mu,
+                rsigma,
+                _sm_total_count() - _sm_margin(),
+                workspace,
+                barrier,
+            )
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
+
+    return out, mu, rsigma
+
+
+def dlayernorm(
+    grad: _nvte.Tensor,
+    zero_centered_gamma: bool,
+    x: _nvte.Tensor,
+    gamma: _nvte.Tensor,
+    mu: _nvte.Tensor,
+    rsigma: _nvte.Tensor,
+    dx_dtype: _nvte.DType,
+    dgamma_dtype: _nvte.DType,
+    dbeta_dtype: _nvte.DType,
+):
+    "returns dx, dgamma, dbeta"
+
+    dx = empty(x.shape, dx_dtype)
+    dgamma = empty(gamma.shape, dgamma_dtype)
+    dbeta = empty(gamma.shape, dbeta_dtype)
+
+    if zero_centered_gamma:
+        func = _nvte.layernorm1p_bwd
+    else:
+        func = _nvte.layernorm_bwd
+
+    with _handle_unsupported_layernorm_config(x.shape[1], gamma, x, dx):
+        workspace = empty()
+        barrier = empty()
+        dgamma_part = empty()
+        dbeta_part = empty()
+        for _ in range(2):
+            func(
+                grad,
+                x,
+                mu,
+                rsigma,
+                gamma,
+                dx,
+                dgamma,
+                dbeta,
+                dgamma_part,
+                dbeta_part,
+                _sm_total_count() - _sm_margin(),
+                workspace,
+                barrier,
+            )
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
+            dgamma_part = empty_like(dgamma_part)
+            dbeta_part = empty_like(dbeta_part)
+
+    return dx, dgamma, dbeta
diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
new file mode 100644
index 0000000000..cd040c1a30
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -0,0 +1,29 @@
+from . import _nvte
+from .cast_transpose import cast_transpose_checked
+from .empty import multi_empty_share_metadata, empty, empty_like
+from .add import dbias
+
+
+def cast_transpose_dbias_checked(
+    grad: _nvte.Tensor, cast_dtype: _nvte.DType | None, dbias_dtype: _nvte.DType
+):
+    if (
+        dbias_dtype == grad.dtype
+        and cast_dtype is not None
+        and cast_dtype != grad.dtype
+    ):
+        out_cast, out_transpose = multi_empty_share_metadata(
+            (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
+        )
+        out_dbias = empty((grad.shape[1],), dbias_dtype)
+        workspace = empty()
+        for _ in range(2):
+            _nvte.cast_transpose_dbias(
+                grad, out_cast, out_transpose, out_dbias, workspace
+            )
+            workspace = empty_like(workspace)
+        return out_cast, out_transpose, out_dbias
+    else:
+        out_cast, out_transpose = cast_transpose_checked(grad, cast_dtype)
+        out_dbias = dbias(grad, dbias_dtype)
+        return out_cast, out_transpose, out_dbias
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
new file mode 100644
index 0000000000..50901dba72
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -0,0 +1,140 @@
+import subprocess
+from functools import cache
+import torch
+from . import _nvte
+from .empty import empty
+from ._common import pass_
+
+
+@cache
+def _is_hopper():
+    gpu_name = (
+        subprocess.check_output(
+            "nvidia-smi --query-gpu=name --format=csv,noheader", shell=True
+        )
+        .decode("utf-8")
+        .strip()
+    )
+    return "H100" in gpu_name
+
+
+@cache
+def _cublas_workspace():
+    workspace_size = 33_554_432 if _is_hopper() else 4_194_304
+    data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
+    return _nvte.Tensor(
+        _nvte.DType.Byte, data, torch.Tensor(), torch.Tensor(), torch.Tensor()
+    )
+
+
+def _to_cublas_args(A: _nvte.Tensor, B: _nvte.Tensor, transA: bool, transB: bool):
+    return B, A, not transA, not transB
+
+
+def matmul_transpose(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
+    "returns mat @ mul^T"
+    # TODO: this should be allowed, though cublaslt_gemm cannot be used in this case
+    assert mat.dtype == mul.dtype
+    return matmul_transpose_add(mat, mul, empty(), out_dtype)
+
+
+def matmul_transpose_gelu(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
+    "returns mat @ mul^T, GELU(mat @ mul^T)"
+    assert mat.dtype == mul.dtype
+    return matmul_transpose_add_gelu(mat, mul, empty(), out_dtype)
+
+
+def matmul_transpose_add(
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
+):
+    "returns mat @ mul^T + add"
+    assert mat.dtype == mul.dtype
+    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
+    out = empty((b.shape[0], a.shape[0]), out_dtype)
+    _nvte.cublas_gemm(
+        a,
+        b,
+        out,
+        add,
+        empty(),
+        trans_a,
+        trans_b,
+        pass_ == "backward",
+        _cublas_workspace(),
+        False,
+        pass_ == "backward",
+        0,
+    )
+    return out
+
+
+def matmul_transpose_add_gelu(
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
+):
+    "returns mat @ mul^T + add, GELU(mat @ mul^T + add)"
+    assert mat.dtype == mul.dtype
+    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
+    out = empty((b.shape[0], a.shape[0]), out_dtype)
+    pre_gelu = empty(out.shape, add.dtype)
+    _nvte.cublas_gemm(
+        a,
+        b,
+        out,
+        add,
+        pre_gelu,
+        trans_a,
+        trans_b,
+        pass_ == "backward",
+        _cublas_workspace(),
+        False,
+        pass_ == "backward",
+        0,
+    )
+    return pre_gelu, out
+
+
+def matmul_transpose_add_add(
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
+):
+    "returns mat @ mul^T + add1 + add2"
+    assert mat.dtype == mul.dtype
+    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
+    _nvte.cublas_gemm(
+        a,
+        b,
+        add2,
+        add1,
+        empty(),
+        trans_a,
+        trans_b,
+        pass_ == "backward",
+        _cublas_workspace(),
+        True,
+        pass_ == "backward",
+        0,
+    )
+    return add2
+
+
+def matmul_transpose_add_gelu_add(
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
+):
+    "returns mat @ mul^T + add1, GELU(mat @ mul^T + add1) + add2"
+    assert mat.dtype == mul.dtype
+    a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
+    pre_gelu = empty(add2.shape, add1.dtype)
+    _nvte.cublas_gemm(
+        a,
+        b,
+        add2,
+        add1,
+        pre_gelu,
+        trans_a,
+        trans_b,
+        pass_ == "backward",
+        _cublas_workspace(),
+        True,
+        pass_ == "backward",
+        0,
+    )
+    return pre_gelu, add2
diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/ops/add.py
index f4a8047720..a3f4652af8 100644
--- a/transformer_engine/pytorch/sequential/ops/add.py
+++ b/transformer_engine/pytorch/sequential/ops/add.py
@@ -1,5 +1,4 @@
 from __future__ import annotations
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
 from .. import nvte
 from .op import Op, Context
 
@@ -7,13 +6,13 @@
 class Add(Op):
     def __init__(
         self,
-        bias: _nvte.Tensor,
-        x_dtype: _nvte.DType | None = None,
-        bias_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        dy_dtype: _nvte.DType | None = _nvte.DType.Float8E5M2,
-        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
-        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
-        dbias_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        bias: nvte.Tensor,
+        x_dtype: nvte.DType | None = None,
+        bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+        dbias_dtype: nvte.DType = nvte.DType.BFloat16,
     ):
         self.bias = bias
         self.x_dtype = x_dtype
@@ -23,10 +22,10 @@ def __init__(
         self.dx_dtype = dx_dtype
         self.dbias_dtype = dbias_dtype
 
-    def inference(self, x: _nvte.Tensor):
+    def inference(self, x: nvte.Tensor):
         return self.forward(x)[0]
 
-    def forward(self, x: _nvte.Tensor):
+    def forward(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
         bias = nvte.cast_checked(self.bias, self.bias_dtype)
 
@@ -34,7 +33,7 @@ def forward(self, x: _nvte.Tensor):
 
         return y, Context()
 
-    def backward(self, ctx: Context, dy: _nvte.Tensor):
+    def backward(self, ctx: Context, dy: nvte.Tensor):
         del ctx
         dy = nvte.cast_checked(dy, self.dy_dtype)
 
diff --git a/transformer_engine/pytorch/sequential/ops/gelu.py b/transformer_engine/pytorch/sequential/ops/gelu.py
index 152a4ae0ef..e69de29bb2 100644
--- a/transformer_engine/pytorch/sequential/ops/gelu.py
+++ b/transformer_engine/pytorch/sequential/ops/gelu.py
@@ -1,6 +0,0 @@
-from __future__ import annotations
-from abc import ABC, abstractmethod
-from typing import Callable
-from typing_extensions import Unpack
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
-from .. import nvte
diff --git a/transformer_engine/pytorch/sequential/ops/layernorm.py b/transformer_engine/pytorch/sequential/ops/layernorm.py
index 6184c9059c..3f7bdc9904 100644
--- a/transformer_engine/pytorch/sequential/ops/layernorm.py
+++ b/transformer_engine/pytorch/sequential/ops/layernorm.py
@@ -1,5 +1,4 @@
 from __future__ import annotations
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
 from .. import nvte
 from .op import Op, Context
 
@@ -9,16 +8,16 @@ def __init__(
         self,
         eps: float,
         zero_centered_gamma: bool,
-        weight: _nvte.Tensor,
-        bias: _nvte.Tensor,
-        x_dtype: _nvte.DType | None = _nvte.DType.BFloat16,
-        weight_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        bias_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        dy_dtype: _nvte.DType | None = None,
-        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
-        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
-        dweight_dtype: _nvte.DType = _nvte.DType.BFloat16,
-        dbias_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        weight: nvte.Tensor,
+        bias: nvte.Tensor,
+        x_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dy_dtype: nvte.DType | None = None,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
+        dbias_dtype: nvte.DType = nvte.DType.BFloat16,
     ):
         self.eps = eps
         self.zero_centered_gamma = zero_centered_gamma
@@ -33,10 +32,10 @@ def __init__(
         self.dweight_dtype = dweight_dtype
         self.dbias_dtype = dbias_dtype
 
-    def inference(self, x: _nvte.Tensor):
+    def inference(self, x: nvte.Tensor):
         return self.forward(x)[0]
 
-    def forward(self, x: _nvte.Tensor):
+    def forward(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
         weight = nvte.cast_checked(self.weight, self.weight_dtype)
         bias = nvte.cast_checked(self.bias, self.bias_dtype)
@@ -47,7 +46,7 @@ def forward(self, x: _nvte.Tensor):
 
         return y, {"x": x, "weight": weight, "mu": mu, "rsigma": rsigma}
 
-    def backward(self, ctx: Context, dy: _nvte.Tensor):
+    def backward(self, ctx: Context, dy: nvte.Tensor):
         x, weight, mu, rsigma = ctx["x"], ctx["weight"], ctx["mu"], ctx["rsigma"]
         dy = nvte.cast_checked(dy, self.dy_dtype)
 
@@ -68,4 +67,5 @@ def backward(self, ctx: Context, dy: _nvte.Tensor):
     def args(self):
         return [self.weight, self.bias]
 
+
 __all__ = ["LayerNorm"]
diff --git a/transformer_engine/pytorch/sequential/ops/mmt.py b/transformer_engine/pytorch/sequential/ops/mmt.py
index 67a247ab7a..69f5594578 100644
--- a/transformer_engine/pytorch/sequential/ops/mmt.py
+++ b/transformer_engine/pytorch/sequential/ops/mmt.py
@@ -1,5 +1,4 @@
 from __future__ import annotations
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
 from .. import nvte
 from .op import Op, Context
 
@@ -7,13 +6,13 @@
 class MMT(Op):
     def __init__(
         self,
-        weight: _nvte.Tensor,
-        x_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        weight_dtype: _nvte.DType | None = _nvte.DType.Float8E4M3,
-        dy_dtype: _nvte.DType | None = _nvte.DType.Float8E5M2,
-        y_dtype: _nvte.DType = _nvte.DType.Float8E4M3,
-        dx_dtype: _nvte.DType = _nvte.DType.BFloat16,
-        dweight_dtype: _nvte.DType = _nvte.DType.BFloat16,
+        weight: nvte.Tensor,
+        x_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
     ):
         self.weight = weight
         self.x_dtype = x_dtype
@@ -23,7 +22,7 @@ def __init__(
         self.dx_dtype = dx_dtype
         self.dweight_dtype = dweight_dtype
 
-    def inference(self, x: _nvte.Tensor):
+    def inference(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
         weight = nvte.cast_checked(self.weight, self.weight_dtype)
 
@@ -31,7 +30,7 @@ def inference(self, x: _nvte.Tensor):
 
         return y
 
-    def forward(self, x: _nvte.Tensor):
+    def forward(self, x: nvte.Tensor):
         (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
             (x, self.x_dtype), (self.weight, self.weight_dtype)
         )
@@ -40,7 +39,7 @@ def forward(self, x: _nvte.Tensor):
 
         return y, {"x_t": x_t, "weight_t": weight_t}
 
-    def backward(self, ctx: Context, dy: _nvte.Tensor):
+    def backward(self, ctx: Context, dy: nvte.Tensor):
         x_t, weight_t = ctx["x_t"], ctx["weight_t"]
         dy, dy_t = nvte.cast_transpose_checked(dy, self.dy_dtype)
 
diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/ops/op.py
index 50658b4254..19796e951d 100644
--- a/transformer_engine/pytorch/sequential/ops/op.py
+++ b/transformer_engine/pytorch/sequential/ops/op.py
@@ -1,25 +1,26 @@
 from __future__ import annotations
 from abc import ABC, abstractmethod
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
+from .. import nvte
+
+Context = dict[str, nvte.Tensor]
+Grads = list[nvte.Tensor]
 
-Context = dict[str, _nvte.Tensor]
-Grads = list[_nvte.Tensor]
 
 class Op(ABC):
     @abstractmethod
-    def inference(self, x: _nvte.Tensor) -> _nvte.Tensor:
+    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
         ...
 
     @abstractmethod
-    def forward(self, x: _nvte.Tensor) -> tuple[_nvte.Tensor, Context]:
+    def forward(self, x: nvte.Tensor) -> tuple[nvte.Tensor, Context]:
         ...
 
     @abstractmethod
-    def backward(self, ctx: Context, dy: _nvte.Tensor) -> tuple[_nvte.Tensor, Grads]:
+    def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
         ...
 
     @abstractmethod
-    def args(self) -> list[_nvte.Tensor]:
+    def args(self) -> list[nvte.Tensor]:
         ...
 
     def __repr__(self):
diff --git a/transformer_engine/pytorch/sequential/ops_types.py b/transformer_engine/pytorch/sequential/ops_types.py
index 93e3d750e4..a1fa721a80 100644
--- a/transformer_engine/pytorch/sequential/ops_types.py
+++ b/transformer_engine/pytorch/sequential/ops_types.py
@@ -1,15 +1,15 @@
 from typing import Callable
-import transformer_engine_cuda as _nvte  # pylint: disable=import-error
 from typing_extensions import Unpack
+from . import nvte
 from .ops import Context, Grads
 
-Forward = Callable[[_nvte.Tensor], tuple[_nvte.Tensor, Context]]
-ForwardFused = Callable[[_nvte.Tensor], tuple[_nvte.Tensor, tuple[Context, ...]]]
-Backward = Callable[[Context, _nvte.Tensor], tuple[_nvte.Tensor, Grads]]
+Forward = Callable[[nvte.Tensor], tuple[nvte.Tensor, Context]]
+ForwardFused = Callable[[nvte.Tensor], tuple[nvte.Tensor, tuple[Context, ...]]]
+Backward = Callable[[Context, nvte.Tensor], tuple[nvte.Tensor, Grads]]
 BackwardFused = Callable[
-    [Unpack[tuple[Context, ...]], _nvte.Tensor], tuple[_nvte.Tensor, tuple[Grads, ...]]
+    [Unpack[tuple[Context, ...]], nvte.Tensor], tuple[nvte.Tensor, tuple[Grads, ...]]
 ]
-Inference = Callable[[_nvte.Tensor], _nvte.Tensor]
+Inference = Callable[[nvte.Tensor], nvte.Tensor]
 
 __all__ = [
     "Forward",

From 8a2811bb2a3471a695607b5e0d5939360ef8da4b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 16:34:56 +0200
Subject: [PATCH 096/535] add gelu and doc

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/README.md              | 256 ++++++++++++++++++
 .../pytorch/sequential/fusions/mmt.py         |   5 +-
 .../pytorch/sequential/module/__init__.py     |   2 +
 .../pytorch/sequential/module/_common.py      |   4 +
 .../pytorch/sequential/module/gelu.py         |   9 +
 .../pytorch/sequential/module/linear.py       |  12 +-
 .../pytorch/sequential/nvte/__init__.py       |   3 +
 .../pytorch/sequential/nvte/gelu.py           |  13 +
 .../pytorch/sequential/ops/__init__.py        |   3 +-
 .../pytorch/sequential/ops/gelu.py            |  41 +++
 10 files changed, 338 insertions(+), 10 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/README.md
 create mode 100644 transformer_engine/pytorch/sequential/module/_common.py
 create mode 100644 transformer_engine/pytorch/sequential/module/gelu.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/gelu.py

diff --git a/transformer_engine/pytorch/sequential/README.md b/transformer_engine/pytorch/sequential/README.md
new file mode 100644
index 0000000000..8246dcc7fb
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/README.md
@@ -0,0 +1,256 @@
+# Extending `te.Sequential`
+## Recipe: Adding a new `module`
+
+Let's say you're adding `awesomeLU`:
+1. In `modules` create `awesomelu.py`.
+2. In `modules`/`awesomelu.py` create `class AwesomeLU(BaseModule)`.
+3. In `modules`/`awesomelu.py` implement `AwesomeLU`, analogically to existing modules.
+    1. `AwesomeLU.__init__` must follow this schema:
+        ```
+        def __init__(self, ...):
+        ```
+        Initialize the (indirect) `nn.Module` superclass explicitly, to be able to assign `nn.Parameter`s to `self`:
+        ```
+            nn.Module.__init__(self)  # type: ignore
+        ```
+        Assign `nn.Parameter`s to `self`, save configurable state, perform other necessary initialization:
+        ```
+            ...
+        ```
+        Initialize the (direct) `BaseModule` superclass, with a list of operations that this module is to be converted to:
+        ```
+            super().__init__(
+                ops.ABC(...),
+                ops.XYZ(...),
+                ...
+            )
+        ```
+    2. If your module contains trainable parameters, and (at least some of) these parameters are randomly initialied (like `weight` and `bias` in `Linear`, but not `gamma` or `beta` in `LayerNorm`), allow the user to specify a custom initializer for these parameters, but provide a default one, if possible:
+        ```
+        def __init__(
+            self,
+            weight_init_method: ParameterInitMethod = _default_weight_init_method,
+            ...
+        ):
+            ...
+            self.weight = nn.Parameter(
+                weight_init_method(torch.empty(...))
+            )
+            ...
+        ```
+    3. If (at least some of) the operations are to be executed conditionally (like adding bias in a `Linear`), you can pass `None` to `BaseModule.__init__` instead:
+        ```
+        def __init__(self, do_xyz: bool, ...):
+            nn.Module.__init__(self)  # type: ignore
+
+            ...
+
+            super().__init__(
+                ops.ABC(...),
+                ops.XYZ(...) if do_xyz else None,
+                ...
+            )
+        ```
+    4. If (at least some of) the operations are not unary and use trainable parameters, pass them to their initializer (the parameters must be owned by the module object), converted to `nvte.Tensor` objects:
+        ```
+            super().__init__(
+                ops.ABC(make_nvte_tensor(self.weight)),
+                ...
+            )
+        ```
+    5. If your module is stateful, expose all configurable state through `extra_repl`:
+        ```
+        def extra_repr(self):
+            return f"do_xyz={self.do_xyz}"
+        ```
+4. In `modules`/`__init__.py` add `from awesomelu import AwesomeLU`.
+5. In `modules`/`__init__.py` insert `AwesomeLU` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
+
+
+## Recipe: Adding a new `Op`
+
+Let's say you're adding `awesomeLU`:
+1. In `ops` create `awesomelu.py`.
+2. In `ops`/`awesomelu.py` create `class AwesomeLU(Op)`.
+3. In `ops`/`awesomelu.py` implement `AwesomeLU`, analogically to existing operation implementations
+    1. In `AwesomeLU.__init__`:
+        1. Take any secondary inputs to the forward pass as arguments:
+            ```
+            def __init__(
+                weight: nvte.Tensor,
+            ```
+        2. Allow for configuring the type of:
+            * The primary input to the operation in the forward pass `x` (input activation).
+            * The input to the operation in the backward pass `dy` (partial derivative of the loss over the operation's activation `∂L/∂y`).
+            * The output of the operation in the forward pass `y` (activation).
+            * The primary output of the operation in the backward pass `dx` (partial derivative of the loss over the operation's input activation `∂L/∂x`).
+            * The parametrized inputs to the operation in the forward pass (ex. `weight`, `bias`)
+            * The secondary outputs of the operation in the backward pass (partial derivative of the loss over the operation's parametrized inputs, ex. `dweight`, `dbias`)
+                ```
+                    x_dtype: nvte.DType | None = ...,
+                    weight_dtype: nvte.DType | None = ...,
+                    dy_dtype: nvte.DType | None = ...,
+                    y_dtype: nvte.DType = ...,
+                    dx_dtype: nvte.DType = ...,
+                    dweight_dtype: nvte.DType = ...,
+                ):
+                ```
+        3. Note that if `x`, `dy` or (at least some of) the parameters can be processed by the operation's computations, without changing their type, this is to be signalled by using `None`:
+            > ```
+            >     x_dtype: nvte.DType | None = ...,
+            >     weight_dtype: nvte.DType | None = ...,
+            >     dy_dtype: nvte.DType | None = ...,
+            > ```
+        4. Provide defaults for these types to allow for constructing the operation object `AwesomeLu` without having to explicitly specify the types. Choose such default types that will result in optimal performance in the FP8 computational regime.
+    2. In `AwesomeLU.args` return the list of all tensor attributes of `AwesomeLU` that require gradients.
+    3. In `AwesomeLU.forward` provide the implementation of the forward pass of the operation:
+        1. The input activation is to be taken as an argument to the `forward` function. _Note: Contrary to Pytorch, any parameters or configuration, can be conveniently accessed using the `self` object._
+            ```
+            def forward(self, x: nvte.Tensor):
+            ```
+        2. Remember to cast all `Tensor`-typed inputs to their requested types before performing computations on them, ex.:
+            ```
+                x = nvte.cast_checked(x, self.x_dtype)
+                weight = nvte.cast_checked(self.weight, self.weight_dtype)
+                bias = nvte.cast_checked(self.bias, self.bias_dtype)
+            ```
+        3. Return all auxilary tensors needed for the backward pass in a `Context` (`dict[Tensor]`) object. **Do not** store auxilary tensors in the `self` object. **Do not** return non-`Tensor` objects. These **may** be stored in the `self` object, and will remain accessible in the backward pass. **Do not** rely on the context being the same object. The dictionary keys **must** be valid Python identifier names. Example:
+            ```
+                return y, {"x": x, "weight": weight, "mu": mu, "rsigma": rsigma}
+            ```
+        4. If no auxilary tensors are needed for the backward pass, return an empty context.
+    4. In `AwesomeLU.inference` provide the implementation of the forward pass of the operation, optimized for inference-time use.
+    5. In `AwesomeLU.backward` provide the implementation of the backward pass of the operation:
+        1. Retrieve the tensors stored in the forward pass inside the context, by using their keys. **Do not** attempt to access other keys of the dictionary. Example:
+            ```
+            def backward(self, ctx: Context, dy: nvte.Tensor):
+                x, weight, mu, rsigma = ctx["x"], ctx["weight"], ctx["mu"], ctx["rsigma"]
+            ```
+        2. Remember to cast `dy` to its request type, before performing computations on it:
+            ```
+                dy = nvte.cast_checked(dy, self.dy_dtype)
+            ```
+        3. Return `dy` and a list of the gradients of all tensors returned by `AwesomeLU.args` in **the same order** (if `args` returns `[weight, bias]`, `backward` **must** return `dy, [dweight, dbias]`).
+        4. If `AwesomeLU.args` returns `[]`, return `dy, []`.
+    6. Remember to use fused implementations, when possible. For example, in some cases, using a sequence of `nvte.cast_checked` calls may be suboptimal, when, for example, `nvte.multi_cast_transpose` could be used instead, if the tensors are to be later transposed.
+4. In `ops`/`__init__.py` add `from awesomelu import AwesomeLU`.
+5. In `ops`/`__init__.py` insert `AwesomeLU` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
+6. Remember to implement fusions concerning `AwesomeLU`.
+
+## Recipe: Adding a new `nvte.` function
+
+Let's say you're adding support for `nvte_awesomelu`.
+1. If `awesome_lu` is not present in `nvte`/`_nvte.pyi`:
+    * If all parameters of `nvte_awesomelu` have one of these types...
+        * `NVTEDType`
+        * `NVTE_Fused_Attn_Backed`
+        * `NVTE_QKV_Layout`
+        * `NVTE_BiasType`
+        * `NVTE_Mask_Type`
+        * `NVTETensorPack`
+        * `NVTETensor`
+        * [the types automatically converted by Pybind11](https://pybind11.readthedocs.io/en/stable/advanced/cast/overview.html#conversion-table)
+    * ...then:
+        * In `cpp_extensions`/`pybind.cpp` register `nvte_awesomelu`:
+            ```
+            m.def("nvte_awesomelu", wrap(nvte_awesomelu));
+            ```
+    * ...else if the mapping of C++ arguments to Python arguments is a bijection, and the semantic meaning of the arguments is preserved, and the order of the arguments is preserved, and the mapping of C++ arguments' types to their their Python-side equivalents' types is a bijection, then, assuming an argument to `nvte_awesomelu` has a C type `c_type` that is to be exposed to the Python side as `PyType` that is to be converted by Pybind to `conv_type` then:
+        1. If necessary, implement a C++ wrapper `conv_type` type over `c_type` to expose to the Python side as `PyType` and register it in Pybind using `py::class_<conv_type>(m, "PyType", py::module_local())` or similar.
+        2. Specialize the `wrapped_arg` template:
+            ```
+            template <> struct wrapped_arg<c_type> : trait<conv_type> {};
+            ```
+        3. Register `nvte_awesomelu`:
+            ```
+            m.def("nvte_awesomelu", wrap(nvte_awesomelu));
+            ```
+    * ...else:
+        * Manually implement a C++ wrapper over `nvte_awesomelu`
+        * Register the wrapper to pybind using `m.def`.
+    * In `nvte`/`_nvte.pyi` describe the Python-side interface to `nvte_awesomelu`, by replacing the C++ types with their Python-side equivalents - either types defined in `nvte`/`_nvte.pyi` or according to [builtin Pybind11 conversions](https://pybind11.readthedocs.io/en/stable/advanced/cast/overview.html#conversion-table) or your custom `PyType`s. Change `NVTETensorPack` into `typing.Sequence[Tensor]`.
+2. In `nvte` create `awesomelu.py` importing `_nvte` using `from . import _nvte`.
+3. In `nvte`/`awesomelu.py` implement function `awesomelu`.
+    * Note: usually, if `nvte_awesomelu` requires temporary tensors, such as `workspace` or `barrier`, construct them inside of `awesomelu`, rather than take them as parameters.
+    * Note: allow the user to specify the type of the output, if `nvte_awesome` supports that.
+    * Note: the current computational pass (`forward`, `backward`, or `inference`) can be accessed through `_common.pass_`.
+4. In `nvte`/`__init__.py` add `from awesomelu import awesomelu`.
+5. In `nvte`/`__init__.py` insert `awesomelu` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
+
+## Recipe: Adding a new fusion
+
+A fusions is an optimized implementation of a sequence of operations.
+
+There are three types of fusions:
+* fusions of inference passes
+* fusions of the forward passes
+* fusions of the backward passes
+
+Specifically, there may be a fusion of forward passes that does not have a backward counterpart, and vice-versa.
+
+To implement a fusion of the inference passes of operations `A`, `B`, and `C`:
+1. In an appropriate existing or new file in `fusions` declare a function:
+    ```
+    @register_fusion_inference
+    def a_b_c_inf_fused(a: A, b: B, c: C, x: nvte.Tensor):
+    ```
+2. The fusion must be equivalent to the sequence of inference passes it replaces.
+
+To implement a fusion of the forward passes of operations `A`, `B`, and `C`:
+1. In an appropriate existing or new file in `fusions` declare a function:
+    ```
+    @register_fusion_forward
+    def a_b_c_fwd_fused(a: A, b: B, c: C, x: nvte.Tensor):
+    ```
+2. From `a_b_c_fwd_fused`, return:
+    ```
+    y, (a_ctx, b_ctx, c_ctx)
+    ```
+    Where `a_ctx`, `b_ctx`, and `c_ctx` are valid contexts of the corresponding `Op`s. Specifically:
+    ```
+    y, (a_ctx, b_ctx, c_ctx) = a_b_c_fwd_fused(a, b, c, x)
+    dy = ... # ∂L/∂y
+    dx2, a_grads = a.backward(a, a_ctx, dy)
+    dx1, b_grads = b.backward(b, b_ctx, dx2)
+    dx, c_grads = c.backward(c, c_ctx, dx1)
+    ```
+    **Must** be equivalent to:
+    ```
+    x1, a_ctx = a.forward(x)
+    x2, b_ctx = b.forward(x1)
+    y, c_ctx = c.forward(x2)
+    dy = ... # `∂L/∂y`
+    dx2, a_grads = a.backward(a, a_ctx, dy)
+    dx1, b_grads = b.backward(b, b_ctx, dx2)
+    dx, c_grads = c.backward(c, c_ctx, dy1)
+    ```
+
+To implement a fusion of the backward passes of operations `A`, `B`, and `C`:
+1. In an appropriate existing or new file in `fusions` declare a function:
+    ```
+    @register_fusion_backward
+    def a_b_c_bwd_fused(a: A, b: B, c: C, a_ctx: Context, b_ctx: Context, c_ctx: Context, dy: nvte.Tensor):
+    ```
+    Where `a_ctx`, `b_ctx`, and `c_ctx` are valid contexts of the corresponding `Op`s.
+2. From `a_b_c_bwd_fused`, return:
+    ```
+    y, (a_grads, b_grads, c_cgrads)
+    ```
+    Where `a_grads`, `b_grads`, and `c_grads` are valid gradients of the corresponding `Op`s. Specifically:
+    ```
+    x1, a_ctx = a.forward(x)
+    x2, b_ctx = b.forward(x1)
+    y, c_ctx = c.forward(x2)
+    dy = ... # `∂L/∂y`
+    dx, (a_grads, b_grads, c_grads) = a_b_c_bwd_fused(a, b, c, a_ctx, b_ctx, c_ctx, dy)
+    ```
+    **Must** be equivalent to:
+    ```
+    x1, a_ctx = a.forward(x)
+    x2, b_ctx = b.forward(x1)
+    y, c_ctx = c.forward(x2)
+    dy = ... # `∂L/∂y`
+    dx2, a_grads = a.backward(a, a_ctx, dy)
+    dx1, b_grads = b.backward(b, b_ctx, dx2)
+    dx, c_grads = c.backward(c, c_ctx, dy1)
+    ```
diff --git a/transformer_engine/pytorch/sequential/fusions/mmt.py b/transformer_engine/pytorch/sequential/fusions/mmt.py
index e806084a1d..fe5fb7d346 100644
--- a/transformer_engine/pytorch/sequential/fusions/mmt.py
+++ b/transformer_engine/pytorch/sequential/fusions/mmt.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 from .. import nvte
-from ..ops import Context, MMT, Add
+from ..ops import Context, MMT, Add, GELU
 from .. import nvte
 from ._common import (
     register_fusion_inference,
@@ -52,5 +52,8 @@ def mmt_add_bwd_fused(
     return dx, ([dweight], [dbias])
 
 
+# TODO: implement gelu fusions
+
+
 # fusion function names (ex. mmt_add_bwd_fused) are for debugging only, as they are called from a dictionary like FUSIONS_FWD
 __all__ = []
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
index 2cd3a66dc6..ec13cf9b6a 100644
--- a/transformer_engine/pytorch/sequential/module/__init__.py
+++ b/transformer_engine/pytorch/sequential/module/__init__.py
@@ -1,8 +1,10 @@
 from .linear import Linear
 from .sequential import Sequential
 from .layernorm import LayerNorm
+from .gelu import GELU
 
 __all__ = [
+    "GELU",
     "LayerNorm",
     "Linear",
     "Sequential",
diff --git a/transformer_engine/pytorch/sequential/module/_common.py b/transformer_engine/pytorch/sequential/module/_common.py
new file mode 100644
index 0000000000..f76c6309f0
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/_common.py
@@ -0,0 +1,4 @@
+from typing import Callable
+import torch
+
+ParameterInitMethod = Callable[[torch.Tensor], torch.Tensor]
diff --git a/transformer_engine/pytorch/sequential/module/gelu.py b/transformer_engine/pytorch/sequential/module/gelu.py
new file mode 100644
index 0000000000..24e0125e2c
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/gelu.py
@@ -0,0 +1,9 @@
+from torch import nn
+from .base import BaseModule
+from .. import ops
+
+
+class GELU(BaseModule):
+    def __init__(self):
+        nn.Module.__init__(self)  # type: ignore
+        super().__init__(ops.GELU())
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 6202bef2af..f3577afe06 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -1,10 +1,10 @@
-from typing import Callable
 from math import sqrt
 import torch
 from torch import nn
-from .base import BaseModule
 from .. import ops
 from ..nvte import make_nvte_tensor
+from ._common import ParameterInitMethod
+from .base import BaseModule
 
 
 def _default_weight_init_method(weight: torch.Tensor):
@@ -26,12 +26,8 @@ def __init__(
         out_features: int,
         use_bias: bool = True,
         param_dtype: torch.dtype = torch.get_default_dtype(),
-        weight_init_method: Callable[
-            [torch.Tensor], torch.Tensor
-        ] = _default_weight_init_method,
-        bias_init_method: Callable[
-            [torch.Tensor], torch.Tensor
-        ] = _default_bias_init_method,
+        weight_init_method: ParameterInitMethod = _default_weight_init_method,
+        bias_init_method: ParameterInitMethod = _default_bias_init_method,
     ):
         nn.Module.__init__(self)  # type: ignore
 
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index 28191a5472..8df8b66fc1 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -12,6 +12,7 @@
 )
 from .dtype import te_to_torch_dtype, torch_to_te_dtype, bit_width, dtype_name, is_fp8
 from .empty import empty, empty_like, multi_empty_share_metadata
+from .gelu import gelu, dgelu
 from .interface import set_current_pass
 from .layernorm import layernorm, dlayernorm
 from .misc_fusions import cast_transpose_dbias_checked
@@ -34,12 +35,14 @@
     "cast_transpose",
     "cast",
     "dbias",
+    "dgelu",
     "dlayernorm",
     "dtype_name",
     "DType",
     "empty_like",
     "empty",
     "FusedAttnBackend",
+    "gelu",
     "is_fp8",
     "layernorm",
     "make_nvte_tensor",
diff --git a/transformer_engine/pytorch/sequential/nvte/gelu.py b/transformer_engine/pytorch/sequential/nvte/gelu.py
new file mode 100644
index 0000000000..91324ce354
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/gelu.py
@@ -0,0 +1,13 @@
+from . import _nvte
+from .empty import empty
+
+
+def gelu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.gelu(x, output)
+    return output
+
+def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.dgelu(grad, x, output)
+    return output
diff --git a/transformer_engine/pytorch/sequential/ops/__init__.py b/transformer_engine/pytorch/sequential/ops/__init__.py
index 9e5b3d7882..94ba1de904 100644
--- a/transformer_engine/pytorch/sequential/ops/__init__.py
+++ b/transformer_engine/pytorch/sequential/ops/__init__.py
@@ -1,6 +1,7 @@
 from .op import Op, Context, Grads
 from .add import Add
+from .gelu import GELU
 from .mmt import MMT
 from .layernorm import LayerNorm
 
-__all__ = ["Add", "LayerNorm", "MMT", "Op", "Context", "Grads"]
+__all__ = ["Add", "GELU", "LayerNorm", "MMT", "Op", "Context", "Grads"]
diff --git a/transformer_engine/pytorch/sequential/ops/gelu.py b/transformer_engine/pytorch/sequential/ops/gelu.py
index e69de29bb2..32da02d992 100644
--- a/transformer_engine/pytorch/sequential/ops/gelu.py
+++ b/transformer_engine/pytorch/sequential/ops/gelu.py
@@ -0,0 +1,41 @@
+from __future__ import annotations
+from .. import nvte
+from .op import Grads, Op, Context
+
+
+class GELU(Op):
+    def __init__(
+        self,
+        x_dtype: nvte.DType | None = None,
+        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+    ):
+        self.x_dtype = x_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+
+    def inference(self, x: nvte.Tensor):
+        return self.forward(x)[0]
+
+    def forward(self, x: nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+
+        y = nvte.gelu(x, self.y_dtype)
+
+        return y, {"x": x}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        x = ctx["x"]
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+
+        dx = nvte.dgelu(dy, x, self.dx_dtype)
+
+        return dx, Grads()
+
+    def args(self):
+        return list[nvte.Tensor]()
+
+
+__all__ = ["GELU"]

From 9b3258f25b5f8d49c4b69176b46cc27ec16fda23 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 16:48:56 +0200
Subject: [PATCH 097/535] expose gelu

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/README.md   | 3 ++-
 transformer_engine/pytorch/sequential/__init__.py | 3 ++-
 2 files changed, 4 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/README.md b/transformer_engine/pytorch/sequential/README.md
index 8246dcc7fb..a34de184e7 100644
--- a/transformer_engine/pytorch/sequential/README.md
+++ b/transformer_engine/pytorch/sequential/README.md
@@ -65,7 +65,8 @@ Let's say you're adding `awesomeLU`:
         ```
 4. In `modules`/`__init__.py` add `from awesomelu import AwesomeLU`.
 5. In `modules`/`__init__.py` insert `AwesomeLU` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
-
+6. in `__init__.py` add `from .modules import AwesomeLU`.
+7. In `__init__.py` insert `AwesomeLU` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
 
 ## Recipe: Adding a new `Op`
 
diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index 332d315cd6..7a9da70ad9 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -1,6 +1,7 @@
-from .module import LayerNorm, Linear, Sequential
+from .module import GELU, LayerNorm, Linear, Sequential
 
 __all__ = [
+    "GELU",
     "LayerNorm",
     "Linear",
     "Sequential",

From 1df394eb25d338cac4da3f2fe89d075442e61428 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 16:51:31 +0200
Subject: [PATCH 098/535] materialize pass_

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 85e42a4c9f..405b693016 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -3,7 +3,7 @@
 from . import _nvte
 from .dtype import torch_to_te_dtype
 
-pass_: Literal["forward", "backward", "inference"]
+pass_: Literal["forward", "backward", "inference"] = None  # type: ignore
 
 
 def make_nvte_tensor(t: torch.Tensor):

From 4c44cfd037c199503b659d89d8c422c60ac72593 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 18:17:02 +0200
Subject: [PATCH 099/535] preserve x

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py           | 4 +---
 transformer_engine/pytorch/sequential/module/linear.py        | 4 ++--
 2 files changed, 3 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 7543452d57..90d0ae1af5 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -49,9 +49,6 @@ def forward(  # type: ignore[arg-type]
         # Actually store the result
         nvte_x_container[0] = y
 
-        # Preserve computation graph
-        exposed_x.data = y.data
-
         return exposed_x
 
     @staticmethod
@@ -97,4 +94,5 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 x, *exposed_tensors, contained_op, nvte_x_container
             )
             nvte_x = nvte_x_container[0]
+        x.data = nvte_x.data
         return x
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index f3577afe06..200efbb869 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -24,7 +24,7 @@ def __init__(
         self,
         in_features: int,
         out_features: int,
-        use_bias: bool = True,
+        bias: bool = True,
         param_dtype: torch.dtype = torch.get_default_dtype(),
         weight_init_method: ParameterInitMethod = _default_weight_init_method,
         bias_init_method: ParameterInitMethod = _default_bias_init_method,
@@ -45,7 +45,7 @@ def __init__(
                     torch.empty(out_features, dtype=param_dtype, device="cuda")
                 )
             )
-            if use_bias
+            if bias
             else None
         )
 

From 6b72bd8bb873a1e434df7e0d33dad5203101e089 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 18:20:35 +0200
Subject: [PATCH 100/535] fix fp8 check

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/cast_transpose.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index 4751aac4bf..23071501a9 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -34,7 +34,8 @@ def transpose(t: _nvte.Tensor):
 
 def cast_transpose(t: _nvte.Tensor, dtype: _nvte.DType):
     assert t.dtype != dtype
-    assert is_fp8(t) != is_fp8(dtype)
+    if is_fp8(t):
+        assert not is_fp8(dtype)
 
     out_cast, out_transpose = multi_empty_share_metadata(
         (t.shape, dtype), (t.shape[::-1], dtype)

From 41395a4d4b8bace579c8adc40b8e303f7430e489 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 18:40:06 +0200
Subject: [PATCH 101/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py       | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 90d0ae1af5..23a3910465 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -49,7 +49,12 @@ def forward(  # type: ignore[arg-type]
         # Actually store the result
         nvte_x_container[0] = y
 
-        return exposed_x
+        # Expose result for Pytorch
+        exposed_y = torch.Tensor()
+        exposed_y.shape = torch.Size(y.shape)  # needed for autograd to not complain
+        exposed_y.grad_fn = exposed_x.grad_fn  # needed to preserve computation graph
+
+        return exposed_y
 
     @staticmethod
     def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
@@ -94,5 +99,4 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 x, *exposed_tensors, contained_op, nvte_x_container
             )
             nvte_x = nvte_x_container[0]
-        x.data = nvte_x.data
         return x

From 3a0ed67cda8b63d1722ff3f4491db7180284a9c4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 18:42:29 +0200
Subject: [PATCH 102/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py        | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 23a3910465..dd2ad22216 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -50,9 +50,10 @@ def forward(  # type: ignore[arg-type]
         nvte_x_container[0] = y
 
         # Expose result for Pytorch
-        exposed_y = torch.Tensor()
-        exposed_y.shape = torch.Size(y.shape)  # needed for autograd to not complain
-        exposed_y.grad_fn = exposed_x.grad_fn  # needed to preserve computation graph
+        x_data = exposed_x.data
+        exposed_x.data = torch.Tensor()  # avoid copy
+        exposed_y = exposed_x.clone()
+        exposed_x.data = x_data
 
         return exposed_y
 

From 73460808f3f2e30c66303174af4b64abba4330b5 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 18:46:04 +0200
Subject: [PATCH 103/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py        | 7 +++----
 1 file changed, 3 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index dd2ad22216..e48766ea94 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -50,10 +50,9 @@ def forward(  # type: ignore[arg-type]
         nvte_x_container[0] = y
 
         # Expose result for Pytorch
-        x_data = exposed_x.data
-        exposed_x.data = torch.Tensor()  # avoid copy
-        exposed_y = exposed_x.clone()
-        exposed_x.data = x_data
+        exposed_y = torch.Tensor()
+        exposed_y.data = y.data
+        exposed_y.grad_fn = exposed_x.grad_fn
 
         return exposed_y
 

From bc0f4c2bce65e566a17d4bc78638934e401c4fdb Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 14 Aug 2023 18:51:50 +0200
Subject: [PATCH 104/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py         | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index e48766ea94..d241b0d254 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -50,9 +50,11 @@ def forward(  # type: ignore[arg-type]
         nvte_x_container[0] = y
 
         # Expose result for Pytorch
-        exposed_y = torch.Tensor()
+        x_data = exposed_x.data
+        exposed_x.data = torch.Tensor()  # avoid copy
+        exposed_y = exposed_x.clone()
+        exposed_x.data = x_data
         exposed_y.data = y.data
-        exposed_y.grad_fn = exposed_x.grad_fn
 
         return exposed_y
 

From 37c5a8d4f8b18ff84c57ae3c6322942a93b823c6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 09:26:53 +0200
Subject: [PATCH 105/535] check that tensor is contiguous

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/pybind.cpp              | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
index 98989edb04..79ffd5a772 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
@@ -81,6 +81,10 @@ struct Tensor {
         throw std::runtime_error(
             "Cannot create NVTE Tensor: !tensor.is_cuda()");
       }
+      if (!t.is_contiguous()) {
+        throw std::runtime_error(
+            "Cannot create NVTE Tensor: !tensor.is_contiguous()");
+      }
       return reinterpret_cast<float *>(t.data_ptr());
     } else {
       return nullptr;

From a6ee1dc945f41248cce9af72ea8bc4837a30af6b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 15:08:07 +0200
Subject: [PATCH 106/535] use fp8_transpose_dbias

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/misc_fusions.py              | 9 +++++++++
 1 file changed, 9 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index cd040c1a30..67e66d1d8d 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -1,3 +1,4 @@
+from .dtype import is_fp8
 from . import _nvte
 from .cast_transpose import cast_transpose_checked
 from .empty import multi_empty_share_metadata, empty, empty_like
@@ -23,6 +24,14 @@ def cast_transpose_dbias_checked(
             )
             workspace = empty_like(workspace)
         return out_cast, out_transpose, out_dbias
+    elif is_fp8(grad.dtype) and cast_dtype is None or cast_dtype == grad.dtype:
+        out_transpose = empty(grad.shape[::-1], grad.dtype)
+        out_dbias = empty((grad.shape[1],), dbias_dtype)
+        workspace = empty()
+        for _ in range(2):
+            _nvte.fp8_transpose_dbias(grad, out_transpose, out_dbias, workspace)
+            workspace = empty_like(workspace)
+        return grad, out_transpose, out_dbias
     else:
         out_cast, out_transpose = cast_transpose_checked(grad, cast_dtype)
         out_dbias = dbias(grad, dbias_dtype)

From bf52660e5ac0af7e8264dfa23a925e501c5680a4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 16:24:58 +0200
Subject: [PATCH 107/535] Add fusion for gelu

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/fusions/mmt.py         | 156 +++++++++++++++++-
 .../pytorch/sequential/nvte/__init__.py       |  24 ++-
 .../pytorch/sequential/nvte/misc_fusions.py   |  45 ++++-
 .../pytorch/sequential/nvte/mmt.py            |   6 +
 4 files changed, 212 insertions(+), 19 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/fusions/mmt.py b/transformer_engine/pytorch/sequential/fusions/mmt.py
index fe5fb7d346..2df4466285 100644
--- a/transformer_engine/pytorch/sequential/fusions/mmt.py
+++ b/transformer_engine/pytorch/sequential/fusions/mmt.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 from .. import nvte
-from ..ops import Context, MMT, Add, GELU
+from ..ops import Context, MMT, Add, GELU, Grads
 from .. import nvte
 from ._common import (
     register_fusion_inference,
@@ -9,6 +9,7 @@
 )
 
 
+# MMT, Add
 @register_fusion_inference
 def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     x = nvte.cast_checked(x, mmt.x_dtype)
@@ -52,7 +53,158 @@ def mmt_add_bwd_fused(
     return dx, ([dweight], [dbias])
 
 
-# TODO: implement gelu fusions
+# MMT, Add, GELU
+@register_fusion_inference
+def mmt_add_gelu_inf_fused(mmt: MMT, add: Add, gelu: GELU, x: nvte.Tensor):
+    x = nvte.cast_checked(x, mmt.x_dtype)
+    weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
+    bias = nvte.cast_checked(add.bias, add.bias_dtype)
+
+    _, y = nvte.matmul_transpose_add_gelu(x, weight, bias, gelu.y_dtype)
+
+    return y
+
+
+@register_fusion_forward
+def mmt_add_gelu_fwd_fused(mmt: MMT, add: Add, gelu: GELU, x: nvte.Tensor):
+    (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
+        (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
+    )
+    bias = nvte.cast_checked(add.bias, add.bias_dtype)
+
+    pre_gelu, y = nvte.matmul_transpose_add_gelu(x, weight, bias, gelu.y_dtype)
+
+    return y, ({"x_t": x_t, "weight_t": weight_t}, Context(), {"x": pre_gelu})
+
+
+@register_fusion_backward
+def mmt_add_gelu_bwd_fused(
+    mmt: MMT,
+    add: Add,
+    gelu: GELU,
+    mmt_ctx: Context,
+    add_ctx: Context,
+    gelu_ctx: Context,
+    dy: nvte.Tensor,
+):
+    del gelu
+    del add_ctx
+    x_t, weight_t, pre_gelu = mmt_ctx["x_t"], mmt_ctx["weight_t"], gelu_ctx["x"]
+    dy, dy_t, dbias = nvte.cast_transpose_dbias_dgelu_checked(
+        dy, pre_gelu, mmt.dy_dtype, add.dbias_dtype
+    )
+
+    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype)
+    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
+
+    return dx, ([dweight], [dbias], Grads())
+
+
+# MMT, GELU
+@register_fusion_inference
+def mmt_gelu_inf_fused(mmt: MMT, gelu: GELU, x: nvte.Tensor):
+    x = nvte.cast_checked(x, mmt.x_dtype)
+    weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
+
+    _, y = nvte.matmul_transpose_gelu(x, weight, gelu.y_dtype)
+
+    return y
+
+
+@register_fusion_forward
+def mmt_gelu_fwd_fused(mmt: MMT, gelu: GELU, x: nvte.Tensor):
+    (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
+        (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
+    )
+
+    pre_gelu, y = nvte.matmul_transpose_gelu(x, weight, gelu.y_dtype)
+
+    return y, ({"x_t": x_t, "weight_t": weight_t}, {"x": pre_gelu})
+
+
+# MMT, GELU, Add
+@register_fusion_inference
+def mmt_gelu_add_inf_fused(mmt: MMT, gelu: GELU, add: Add, x: nvte.Tensor):
+    x = nvte.cast_checked(x, mmt.x_dtype)
+    weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
+    bias = nvte.cast_checked(add.bias, add.bias_dtype)
+
+    _, y = nvte.matmul_transpose_gelu_add(x, weight, bias)
+
+    return y
+
+
+@register_fusion_forward
+def mmt_gelu_add_fwd_fused(mmt: MMT, gelu: GELU, add: Add, x: nvte.Tensor):
+    (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
+        (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
+    )
+    bias = nvte.cast_checked(add.bias, add.bias_dtype)
+
+    pre_gelu, y = nvte.matmul_transpose_gelu_add(x, weight, bias)
+
+    return y, ({"x_t": x_t, "weight_t": weight_t}, {"x": pre_gelu})
+
+
+# MMT, Add, Add
+@register_fusion_inference
+def mmt_add_add_inf_fused(mmt: MMT, add1: Add, add2: Add, x: nvte.Tensor):
+    x = nvte.cast_checked(x, mmt.x_dtype)
+    weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
+    bias1 = nvte.cast_checked(add1.bias, add1.bias_dtype)
+    bias2 = nvte.cast_checked(add2.bias, add2.bias_dtype)
+
+    y = nvte.matmul_transpose_add_add(x, weight, bias1, bias2)
+
+    return y
+
+
+@register_fusion_forward
+def mmt_add_add_fwd_fused(mmt: MMT, add1: Add, add2: Add, x: nvte.Tensor):
+    (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
+        (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
+    )
+    bias1 = nvte.cast_checked(add1.bias, add1.bias_dtype)
+    bias2 = nvte.cast_checked(add2.bias, add2.bias_dtype)
+
+    y = nvte.matmul_transpose_add_add(x, weight, bias1, bias2)
+
+    return y, ({"x_t": x_t, "weight_t": weight_t}, Context(), Context())
+
+
+# MMT, Add, GELU, Add
+@register_fusion_inference
+def mmt_add_gelu_add_inf_fused(
+    mmt: MMT, add1: Add, gelu: GELU, add2: Add, x: nvte.Tensor
+):
+    x = nvte.cast_checked(x, mmt.x_dtype)
+    weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
+    bias1 = nvte.cast_checked(add1.bias, add1.bias_dtype)
+    bias2 = nvte.cast_checked(add2.bias, add2.bias_dtype)
+
+    _, y = nvte.matmul_transpose_add_gelu_add(x, weight, bias1, bias2)
+
+    return y
+
+
+@register_fusion_forward
+def mmt_add_gelu_add_fwd_fused(
+    mmt: MMT, add1: Add, gelu: GELU, add2: Add, x: nvte.Tensor
+):
+    (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
+        (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
+    )
+    bias1 = nvte.cast_checked(add1.bias, add1.bias_dtype)
+    bias2 = nvte.cast_checked(add2.bias, add2.bias_dtype)
+
+    pre_gelu, y = nvte.matmul_transpose_add_gelu_add(x, weight, bias1, bias2)
+
+    return y, (
+        {"x_t": x_t, "weight_t": weight_t},
+        Context(),
+        {"x": pre_gelu},
+        Context(),
+    )
 
 
 # fusion function names (ex. mmt_add_bwd_fused) are for debugging only, as they are called from a dictionary like FUSIONS_FWD
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index 8df8b66fc1..2f282ffc66 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -2,27 +2,31 @@
 from ._nvte import QKVLayout, BiasType, MaskType, FusedAttnBackend, DType, Tensor
 from .add import add, dbias
 from .cast_transpose import (
-    cast,
     cast_checked,
-    transpose,
-    cast_transpose,
     cast_transpose_checked,
-    multi_cast_transpose,
+    cast_transpose,
+    cast,
     multi_cast_transpose_checked,
+    multi_cast_transpose,
+    transpose,
 )
 from .dtype import te_to_torch_dtype, torch_to_te_dtype, bit_width, dtype_name, is_fp8
 from .empty import empty, empty_like, multi_empty_share_metadata
 from .gelu import gelu, dgelu
 from .interface import set_current_pass
 from .layernorm import layernorm, dlayernorm
-from .misc_fusions import cast_transpose_dbias_checked
+from .misc_fusions import (
+    cast_transpose_dbias_checked,
+    cast_transpose_dbias_dgelu_checked,
+)
 from .mmt import (
-    matmul_transpose,
-    matmul_transpose_gelu,
-    matmul_transpose_add,
-    matmul_transpose_add_gelu,
     matmul_transpose_add_add,
     matmul_transpose_add_gelu_add,
+    matmul_transpose_add_gelu,
+    matmul_transpose_add,
+    matmul_transpose_gelu_add,
+    matmul_transpose_gelu,
+    matmul_transpose,
 )
 
 __all__ = [
@@ -32,6 +36,7 @@
     "cast_checked",
     "cast_transpose_checked",
     "cast_transpose_dbias_checked",
+    "cast_transpose_dbias_dgelu_checked",
     "cast_transpose",
     "cast",
     "dbias",
@@ -51,6 +56,7 @@
     "matmul_transpose_add_gelu_add",
     "matmul_transpose_add_gelu",
     "matmul_transpose_add",
+    "matmul_transpose_gelu_add",
     "matmul_transpose_gelu",
     "matmul_transpose",
     "multi_cast_transpose_checked",
diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index 67e66d1d8d..8a80d7c618 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -13,26 +13,55 @@ def cast_transpose_dbias_checked(
         and cast_dtype is not None
         and cast_dtype != grad.dtype
     ):
-        out_cast, out_transpose = multi_empty_share_metadata(
+        grad_cast, grad_transpose = multi_empty_share_metadata(
             (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
         )
         out_dbias = empty((grad.shape[1],), dbias_dtype)
         workspace = empty()
         for _ in range(2):
             _nvte.cast_transpose_dbias(
-                grad, out_cast, out_transpose, out_dbias, workspace
+                grad, grad_cast, grad_transpose, out_dbias, workspace
             )
             workspace = empty_like(workspace)
-        return out_cast, out_transpose, out_dbias
+        return grad_cast, grad_transpose, out_dbias
     elif is_fp8(grad.dtype) and cast_dtype is None or cast_dtype == grad.dtype:
-        out_transpose = empty(grad.shape[::-1], grad.dtype)
+        grad_transpose = empty(grad.shape[::-1], grad.dtype)
         out_dbias = empty((grad.shape[1],), dbias_dtype)
         workspace = empty()
         for _ in range(2):
-            _nvte.fp8_transpose_dbias(grad, out_transpose, out_dbias, workspace)
+            _nvte.fp8_transpose_dbias(grad, grad_transpose, out_dbias, workspace)
             workspace = empty_like(workspace)
-        return grad, out_transpose, out_dbias
+        return grad, grad_transpose, out_dbias
     else:
-        out_cast, out_transpose = cast_transpose_checked(grad, cast_dtype)
+        grad_cast, grad_transpose = cast_transpose_checked(grad, cast_dtype)
         out_dbias = dbias(grad, dbias_dtype)
-        return out_cast, out_transpose, out_dbias
+        return grad_cast, grad_transpose, out_dbias
+
+
+def cast_transpose_dbias_dgelu_checked(
+    grad: _nvte.Tensor,
+    pre_gelu: _nvte.Tensor,
+    cast_dtype: _nvte.DType | None,
+    dbias_dtype: _nvte.DType,
+):
+    if (
+        dbias_dtype == grad.dtype
+        and cast_dtype is not None
+        and cast_dtype != grad.dtype
+        and grad.dtype == pre_gelu.dtype
+    ):
+        dgelu_cast, dgelu_transpose = multi_empty_share_metadata(
+            (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
+        )
+        out_dbias = empty((grad.shape[1],), dbias_dtype)
+        workspace = empty()
+        for _ in range(2):
+            _nvte.cast_transpose_dbias_dgelu(
+                grad, pre_gelu, dgelu_cast, dgelu_transpose, out_dbias, workspace
+            )
+            workspace = empty_like(workspace)
+        return dgelu_cast, dgelu_transpose, out_dbias
+    else:
+        dgelu = empty(grad.shape, cast_dtype or grad.dtype)
+        _nvte.dgelu(grad, pre_gelu, dgelu)
+        return cast_transpose_dbias_checked(dgelu, cast_dtype, dbias_dtype)
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 50901dba72..85be102d2f 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -44,6 +44,12 @@ def matmul_transpose_gelu(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte
     return matmul_transpose_add_gelu(mat, mul, empty(), out_dtype)
 
 
+def matmul_transpose_gelu_add(mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor):
+    "returns mat @ mul^T, GELU(mat @ mul^T) + add"
+    assert mat.dtype == mul.dtype
+    return matmul_transpose_add_gelu_add(mat, mul, empty(), add)
+
+
 def matmul_transpose_add(
     mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
 ):

From cce08a84e648e07e8797885c08280017ca95c3f1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 16:26:06 +0200
Subject: [PATCH 108/535] sidestep problem with not contiguous gradient

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py           | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index d241b0d254..9c7f3a7ae9 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -68,7 +68,9 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         op: Op = getattr(ctx, "nvte_op")
 
         nvte.set_current_pass("backward")
-        data_grad, param_grads = op.backward(saved, nvte.make_nvte_tensor(grad_output))
+        data_grad, param_grads = op.backward(
+            saved, nvte.make_nvte_tensor(grad_output.contiguous())
+        )  # TODO: avoid this call to contiguous
 
         # Check that gradients are not fp8 and can be processed by the optimizer
         # TODO: change this when fp8 optimizer comes along

From 00ca5ea3c88cdfb5ede552ab2f43006ed321a28b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 16:43:26 +0200
Subject: [PATCH 109/535] add relu, reglu, swiglu

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/__init__.py            |  5 +-
 .../pytorch/sequential/module/__init__.py     | 10 +++-
 .../pytorch/sequential/module/reglu.py        |  9 ++++
 .../pytorch/sequential/module/relu.py         |  9 ++++
 .../pytorch/sequential/module/swiglu.py       |  9 ++++
 .../pytorch/sequential/nvte/__init__.py       |  8 ++-
 .../pytorch/sequential/nvte/activations.py    | 50 +++++++++++++++++++
 .../pytorch/sequential/nvte/gelu.py           | 13 -----
 .../pytorch/sequential/ops/__init__.py        | 20 ++++++--
 .../pytorch/sequential/ops/reglu.py           | 41 +++++++++++++++
 .../pytorch/sequential/ops/relu.py            | 41 +++++++++++++++
 .../pytorch/sequential/ops/swiglu.py          | 41 +++++++++++++++
 12 files changed, 236 insertions(+), 20 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/module/reglu.py
 create mode 100644 transformer_engine/pytorch/sequential/module/relu.py
 create mode 100644 transformer_engine/pytorch/sequential/module/swiglu.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/activations.py
 delete mode 100644 transformer_engine/pytorch/sequential/nvte/gelu.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/reglu.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/relu.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/swiglu.py

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index 7a9da70ad9..c49a3973bc 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -1,8 +1,11 @@
-from .module import GELU, LayerNorm, Linear, Sequential
+from .module import GELU, LayerNorm, Linear, Sequential, ReGLU, ReLU, SwiGLU
 
 __all__ = [
     "GELU",
     "LayerNorm",
     "Linear",
+    "ReGLU",
+    "ReLU",
     "Sequential",
+    "SwiGLU",
 ]
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
index ec13cf9b6a..b3d211743e 100644
--- a/transformer_engine/pytorch/sequential/module/__init__.py
+++ b/transformer_engine/pytorch/sequential/module/__init__.py
@@ -1,11 +1,17 @@
+from .gelu import GELU
+from .layernorm import LayerNorm
 from .linear import Linear
+from .reglu import ReGLU
+from .relu import ReLU
 from .sequential import Sequential
-from .layernorm import LayerNorm
-from .gelu import GELU
+from .swiglu import SwiGLU
 
 __all__ = [
     "GELU",
     "LayerNorm",
     "Linear",
+    "ReGLU",
+    "ReLU",
     "Sequential",
+    "SwiGLU",
 ]
diff --git a/transformer_engine/pytorch/sequential/module/reglu.py b/transformer_engine/pytorch/sequential/module/reglu.py
new file mode 100644
index 0000000000..1bc4d16a25
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/reglu.py
@@ -0,0 +1,9 @@
+from torch import nn
+from .base import BaseModule
+from .. import ops
+
+
+class ReGLU(BaseModule):
+    def __init__(self):
+        nn.Module.__init__(self)  # type: ignore
+        super().__init__(ops.ReGLU())
diff --git a/transformer_engine/pytorch/sequential/module/relu.py b/transformer_engine/pytorch/sequential/module/relu.py
new file mode 100644
index 0000000000..e41068fe4a
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/relu.py
@@ -0,0 +1,9 @@
+from torch import nn
+from .base import BaseModule
+from .. import ops
+
+
+class ReLU(BaseModule):
+    def __init__(self):
+        nn.Module.__init__(self)  # type: ignore
+        super().__init__(ops.ReLU())
diff --git a/transformer_engine/pytorch/sequential/module/swiglu.py b/transformer_engine/pytorch/sequential/module/swiglu.py
new file mode 100644
index 0000000000..7a0f67937c
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/swiglu.py
@@ -0,0 +1,9 @@
+from torch import nn
+from .base import BaseModule
+from .. import ops
+
+
+class SwiGLU(BaseModule):
+    def __init__(self):
+        nn.Module.__init__(self)  # type: ignore
+        super().__init__(ops.SwiGLU())
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index 2f282ffc66..aa0fd32b46 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -12,7 +12,7 @@
 )
 from .dtype import te_to_torch_dtype, torch_to_te_dtype, bit_width, dtype_name, is_fp8
 from .empty import empty, empty_like, multi_empty_share_metadata
-from .gelu import gelu, dgelu
+from .activations import relu, drelu, reglu, dreglu, gelu, dgelu, swiglu, dswiglu
 from .interface import set_current_pass
 from .layernorm import layernorm, dlayernorm
 from .misc_fusions import (
@@ -42,8 +42,11 @@
     "dbias",
     "dgelu",
     "dlayernorm",
+    "dreglu",
+    "drelu",
     "dtype_name",
     "DType",
+    "dswiglu",
     "empty_like",
     "empty",
     "FusedAttnBackend",
@@ -63,7 +66,10 @@
     "multi_cast_transpose",
     "multi_empty_share_metadata",
     "QKVLayout",
+    "reglu",
+    "relu",
     "set_current_pass",
+    "swiglu",
     "te_to_torch_dtype",
     "Tensor",
     "torch_to_te_dtype",
diff --git a/transformer_engine/pytorch/sequential/nvte/activations.py b/transformer_engine/pytorch/sequential/nvte/activations.py
new file mode 100644
index 0000000000..c98ec8e07a
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/activations.py
@@ -0,0 +1,50 @@
+from . import _nvte
+from .empty import empty
+
+
+def gelu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.gelu(x, output)
+    return output
+
+
+def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.dgelu(grad, x, output)
+    return output
+
+
+def relu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.relu(x, output)
+    return output
+
+
+def drelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.drelu(grad, x, output)
+    return output
+
+
+def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.reglu(x, output)
+    return output
+
+
+def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.dreglu(grad, x, output)
+    return output
+
+
+def swiglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.swiglu(x, output)
+    return output
+
+
+def dswiglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.dswiglu(grad, x, output)
+    return output
diff --git a/transformer_engine/pytorch/sequential/nvte/gelu.py b/transformer_engine/pytorch/sequential/nvte/gelu.py
deleted file mode 100644
index 91324ce354..0000000000
--- a/transformer_engine/pytorch/sequential/nvte/gelu.py
+++ /dev/null
@@ -1,13 +0,0 @@
-from . import _nvte
-from .empty import empty
-
-
-def gelu(x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty(x.shape, out_dtype)
-    _nvte.gelu(x, output)
-    return output
-
-def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty(x.shape, out_dtype)
-    _nvte.dgelu(grad, x, output)
-    return output
diff --git a/transformer_engine/pytorch/sequential/ops/__init__.py b/transformer_engine/pytorch/sequential/ops/__init__.py
index 94ba1de904..a7426bf2bb 100644
--- a/transformer_engine/pytorch/sequential/ops/__init__.py
+++ b/transformer_engine/pytorch/sequential/ops/__init__.py
@@ -1,7 +1,21 @@
-from .op import Op, Context, Grads
 from .add import Add
 from .gelu import GELU
-from .mmt import MMT
 from .layernorm import LayerNorm
+from .mmt import MMT
+from .op import Op, Context, Grads
+from .reglu import ReGLU
+from .relu import ReLU
+from .swiglu import SwiGLU
 
-__all__ = ["Add", "GELU", "LayerNorm", "MMT", "Op", "Context", "Grads"]
+__all__ = [
+    "Add",
+    "Context",
+    "GELU",
+    "Grads",
+    "LayerNorm",
+    "MMT",
+    "Op",
+    "ReGLU",
+    "ReLU",
+    "SwiGLU",
+]
diff --git a/transformer_engine/pytorch/sequential/ops/reglu.py b/transformer_engine/pytorch/sequential/ops/reglu.py
new file mode 100644
index 0000000000..40dbe70ec3
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/reglu.py
@@ -0,0 +1,41 @@
+from __future__ import annotations
+from .. import nvte
+from .op import Grads, Op, Context
+
+
+class ReGLU(Op):
+    def __init__(
+        self,
+        x_dtype: nvte.DType | None = None,
+        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+    ):
+        self.x_dtype = x_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+
+    def inference(self, x: nvte.Tensor):
+        return self.forward(x)[0]
+
+    def forward(self, x: nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+
+        y = nvte.reglu(x, self.y_dtype)
+
+        return y, {"x": x}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        x = ctx["x"]
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+
+        dx = nvte.dreglu(dy, x, self.dx_dtype)
+
+        return dx, Grads()
+
+    def args(self):
+        return list[nvte.Tensor]()
+
+
+__all__ = ["ReGLU"]
diff --git a/transformer_engine/pytorch/sequential/ops/relu.py b/transformer_engine/pytorch/sequential/ops/relu.py
new file mode 100644
index 0000000000..b0b2560c79
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/relu.py
@@ -0,0 +1,41 @@
+from __future__ import annotations
+from .. import nvte
+from .op import Grads, Op, Context
+
+
+class ReLU(Op):
+    def __init__(
+        self,
+        x_dtype: nvte.DType | None = None,
+        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+    ):
+        self.x_dtype = x_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+
+    def inference(self, x: nvte.Tensor):
+        return self.forward(x)[0]
+
+    def forward(self, x: nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+
+        y = nvte.relu(x, self.y_dtype)
+
+        return y, {"x": x}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        x = ctx["x"]
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+
+        dx = nvte.drelu(dy, x, self.dx_dtype)
+
+        return dx, Grads()
+
+    def args(self):
+        return list[nvte.Tensor]()
+
+
+__all__ = ["ReLU"]
diff --git a/transformer_engine/pytorch/sequential/ops/swiglu.py b/transformer_engine/pytorch/sequential/ops/swiglu.py
new file mode 100644
index 0000000000..fdf8b57ac0
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/swiglu.py
@@ -0,0 +1,41 @@
+from __future__ import annotations
+from .. import nvte
+from .op import Grads, Op, Context
+
+
+class SwiGLU(Op):
+    def __init__(
+        self,
+        x_dtype: nvte.DType | None = None,
+        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+    ):
+        self.x_dtype = x_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+
+    def inference(self, x: nvte.Tensor):
+        return self.forward(x)[0]
+
+    def forward(self, x: nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+
+        y = nvte.swiglu(x, self.y_dtype)
+
+        return y, {"x": x}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        x = ctx["x"]
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+
+        dx = nvte.dswiglu(dy, x, self.dx_dtype)
+
+        return dx, Grads()
+
+    def args(self):
+        return list[nvte.Tensor]()
+
+
+__all__ = ["SwiGLU"]

From 83721a484e5e8f44e6bc53c033534c6c2878d279 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 16:51:38 +0200
Subject: [PATCH 110/535] fix operator precedence

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/misc_fusions.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index 8a80d7c618..3a2fbee3c5 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -24,7 +24,7 @@ def cast_transpose_dbias_checked(
             )
             workspace = empty_like(workspace)
         return grad_cast, grad_transpose, out_dbias
-    elif is_fp8(grad.dtype) and cast_dtype is None or cast_dtype == grad.dtype:
+    elif is_fp8(grad) and (cast_dtype is None or cast_dtype == grad.dtype):
         grad_transpose = empty(grad.shape[::-1], grad.dtype)
         out_dbias = empty((grad.shape[1],), dbias_dtype)
         workspace = empty()

From 92fb6d1ed2fa5ac699ba9eb3703fe3525659448b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 17:37:10 +0200
Subject: [PATCH 111/535] allow change precision

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    | 22 +++++++++++----
 .../pytorch/sequential/environment.py         | 28 ++++++++++++++++++-
 .../pytorch/sequential/module/base.py         |  4 +--
 3 files changed, 44 insertions(+), 10 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 06021f0ddf..d58c4f025b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -2,7 +2,6 @@
 from functools import reduce
 import operator
 from . import nvte
-from .nvte import is_fp8
 from .ops import Op, Grads, Context
 from .fusions import FusedOp, get_fused_op_list
 from .utils import set_attribute
@@ -52,14 +51,26 @@ def args(self):
         return list(sum((op.args() for op in self.fwds), list[nvte.Tensor]()))
 
 
-def force_use_bf16(ops: list[Op]):
+def force_use_precision(ops: list[Op], allowed: nvte.DType):
+    PRECISION = {
+        nvte.DType.Float8E4M3: 0,
+        nvte.DType.Float8E5M2: 0,
+        nvte.DType.BFloat16: 1,
+        nvte.DType.Float16: 2,
+        nvte.DType.Float32: 3,
+        nvte.DType.Int64: 4,
+    }
+
     for op in ops:
         attributes = dir(op)
         dtype_attributes = [attr for attr in attributes if attr.endswith("_dtype")]
         for dtype_attribute in dtype_attributes:
             attr_val = getattr(op, dtype_attribute)
-            if isinstance(attr_val, nvte.DType) and is_fp8(attr_val):
-                setattr(op, dtype_attribute, nvte.DType.BFloat16)
+            if (
+                isinstance(attr_val, nvte.DType)
+                and PRECISION[attr_val] < PRECISION[allowed]
+            ):
+                setattr(op, dtype_attribute, allowed)
 
 
 def model_parallel_transform(ops: list[Op]):
@@ -115,8 +126,7 @@ def __init__(self, ops: list[Op], env: Environment):
         ops = copy_op_list(ops)
 
         name_ops(ops)
-        if not env.fp8_enabled:
-            force_use_bf16(ops)
+        force_use_precision(ops, nvte.torch_to_te_dtype(env.lowp))
         if env.world_size > 1:
             model_parallel_transform(ops)
 
diff --git a/transformer_engine/pytorch/sequential/environment.py b/transformer_engine/pytorch/sequential/environment.py
index fe92cd67b6..9161b45388 100644
--- a/transformer_engine/pytorch/sequential/environment.py
+++ b/transformer_engine/pytorch/sequential/environment.py
@@ -1,7 +1,33 @@
+import torch
 from dataclasses import dataclass
+from contextlib import contextmanager
+
+_lowp: torch.dtype = torch.float32
+_world_size: int = 1
 
 
 @dataclass
 class Environment:
-    fp8_enabled: bool
+    lowp: torch.dtype
     world_size: int
+
+    @staticmethod
+    def current():
+        return Environment(_lowp, _world_size)
+
+
+@contextmanager
+def environment(lowp: torch.dtype = torch.float32, world_size: int = 1):
+    global _lowp, _world_size
+
+    prev_lowp = _lowp
+    prev_world_size = _world_size
+
+    _lowp = lowp
+    _world_size = world_size
+
+    try:
+        yield
+    finally:
+        _lowp = prev_lowp
+        _world_size = prev_world_size
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index ec69382a13..e345e10547 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -1,7 +1,5 @@
 import torch
 from torch import nn
-from ...distributed import get_distributed_world_size
-from ...fp8 import is_fp8_enabled
 from ..ops import Op
 from ..environment import Environment
 from ..compute_pipeline import ComputePipeline
@@ -28,4 +26,4 @@ def forward(self, x: torch.Tensor) -> torch.Tensor:
         return apply(x, self.pipeline, self.training)
 
     def _current_env(self) -> Environment:
-        return Environment(is_fp8_enabled(), get_distributed_world_size())
+        return Environment.current()

From 9b5e7190e87affd45d9da02f1a22e8b45a3b47c3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 17:39:30 +0200
Subject: [PATCH 112/535] allow empty list

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/cast_transpose.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index 23071501a9..6a8445d99b 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -72,7 +72,9 @@ def multi_cast_transpose_checked(*desc: tuple[_nvte.Tensor, _nvte.DType | None])
         else:
             to_cast_transpose.append((t, dtype))
             transpose_results.append(None)
-    cast_transpose_results = multi_cast_transpose(*to_cast_transpose)
+    cast_transpose_results = (
+        multi_cast_transpose(*to_cast_transpose) if to_cast_transpose else []
+    )
     results = list[tuple[_nvte.Tensor, _nvte.Tensor]]()
     i = 0
     for result in transpose_results:

From 7fcf7999529e5659e042aa423a85f68ac5599545 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 18:04:37 +0200
Subject: [PATCH 113/535] add geglu

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/__init__.py            | 18 ++++++--
 .../pytorch/sequential/fusions/mmt.py         | 18 +++++++-
 .../pytorch/sequential/module/__init__.py     | 14 ++++---
 .../pytorch/sequential/module/geglu.py        |  9 ++++
 .../pytorch/sequential/nvte/__init__.py       | 19 ++++++++-
 .../pytorch/sequential/nvte/activations.py    | 27 ++++++++----
 .../pytorch/sequential/nvte/misc_fusions.py   | 19 +++++++++
 .../pytorch/sequential/ops/__init__.py        | 24 ++++++-----
 .../pytorch/sequential/ops/geglu.py           | 41 +++++++++++++++++++
 9 files changed, 156 insertions(+), 33 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/module/geglu.py
 create mode 100644 transformer_engine/pytorch/sequential/ops/geglu.py

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index c49a3973bc..58a788eda8 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -1,11 +1,21 @@
-from .module import GELU, LayerNorm, Linear, Sequential, ReGLU, ReLU, SwiGLU
+from .module import (
+    ReLU,
+    GELU,
+    ReGLU,
+    GeGLU,
+    SwiGLU,
+    LayerNorm,
+    Linear,
+    Sequential,
+)
 
 __all__ = [
+    "ReLU",
     "GELU",
+    "ReGLU",
+    "GeGLU",
+    "SwiGLU",
     "LayerNorm",
     "Linear",
-    "ReGLU",
-    "ReLU",
     "Sequential",
-    "SwiGLU",
 ]
diff --git a/transformer_engine/pytorch/sequential/fusions/mmt.py b/transformer_engine/pytorch/sequential/fusions/mmt.py
index 2df4466285..8715d1174a 100644
--- a/transformer_engine/pytorch/sequential/fusions/mmt.py
+++ b/transformer_engine/pytorch/sequential/fusions/mmt.py
@@ -1,6 +1,7 @@
 from __future__ import annotations
+
 from .. import nvte
-from ..ops import Context, MMT, Add, GELU, Grads
+from ..ops import Context, Grads, MMT, Add, GELU, GeGLU
 from .. import nvte
 from ._common import (
     register_fusion_inference,
@@ -207,5 +208,20 @@ def mmt_add_gelu_add_fwd_fused(
     )
 
 
+# MMT, GEGLU
+@register_fusion_backward
+def mmt_geglu_bwd_fused(
+    mmt: MMT, geglu: GeGLU, mmt_ctx: Context, geglu_ctx: Context, grad: nvte.Tensor
+):
+    del geglu
+    x_t, weight_t, pre_geglu = mmt_ctx["x_t"], mmt_ctx["weight_t"], geglu_ctx["x"]
+    dy, dy_t = nvte.cast_transpose_dgeglu_checked(grad, pre_geglu, mmt.dy_dtype)
+
+    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype)
+    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
+
+    return dx, ([dweight], Grads())
+
+
 # fusion function names (ex. mmt_add_bwd_fused) are for debugging only, as they are called from a dictionary like FUSIONS_FWD
 __all__ = []
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
index b3d211743e..a7b13ff5cf 100644
--- a/transformer_engine/pytorch/sequential/module/__init__.py
+++ b/transformer_engine/pytorch/sequential/module/__init__.py
@@ -1,17 +1,19 @@
+from .relu import ReLU
 from .gelu import GELU
+from .reglu import ReGLU
+from .geglu import GeGLU
+from .swiglu import SwiGLU
 from .layernorm import LayerNorm
 from .linear import Linear
-from .reglu import ReGLU
-from .relu import ReLU
 from .sequential import Sequential
-from .swiglu import SwiGLU
 
 __all__ = [
+    "ReLU",
     "GELU",
+    "ReGLU",
+    "GeGLU",
+    "SwiGLU",
     "LayerNorm",
     "Linear",
-    "ReGLU",
-    "ReLU",
     "Sequential",
-    "SwiGLU",
 ]
diff --git a/transformer_engine/pytorch/sequential/module/geglu.py b/transformer_engine/pytorch/sequential/module/geglu.py
new file mode 100644
index 0000000000..a594c3ff8a
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/geglu.py
@@ -0,0 +1,9 @@
+from torch import nn
+from .base import BaseModule
+from .. import ops
+
+
+class GeGLU(BaseModule):
+    def __init__(self):
+        nn.Module.__init__(self)  # type: ignore
+        super().__init__(ops.GeGLU())
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index aa0fd32b46..eb7dcaa5bf 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -12,12 +12,24 @@
 )
 from .dtype import te_to_torch_dtype, torch_to_te_dtype, bit_width, dtype_name, is_fp8
 from .empty import empty, empty_like, multi_empty_share_metadata
-from .activations import relu, drelu, reglu, dreglu, gelu, dgelu, swiglu, dswiglu
+from .activations import (
+    relu,
+    drelu,
+    reglu,
+    dreglu,
+    gelu,
+    dgelu,
+    geglu,
+    dgeglu,
+    swiglu,
+    dswiglu,
+)
 from .interface import set_current_pass
 from .layernorm import layernorm, dlayernorm
 from .misc_fusions import (
     cast_transpose_dbias_checked,
     cast_transpose_dbias_dgelu_checked,
+    cast_transpose_dgeglu_checked,
 )
 from .mmt import (
     matmul_transpose_add_add,
@@ -37,19 +49,22 @@
     "cast_transpose_checked",
     "cast_transpose_dbias_checked",
     "cast_transpose_dbias_dgelu_checked",
+    "cast_transpose_dgeglu_checked",
     "cast_transpose",
     "cast",
     "dbias",
+    "dgeglu",
     "dgelu",
     "dlayernorm",
     "dreglu",
     "drelu",
+    "dswiglu",
     "dtype_name",
     "DType",
-    "dswiglu",
     "empty_like",
     "empty",
     "FusedAttnBackend",
+    "geglu",
     "gelu",
     "is_fp8",
     "layernorm",
diff --git a/transformer_engine/pytorch/sequential/nvte/activations.py b/transformer_engine/pytorch/sequential/nvte/activations.py
index c98ec8e07a..64a66a0b48 100644
--- a/transformer_engine/pytorch/sequential/nvte/activations.py
+++ b/transformer_engine/pytorch/sequential/nvte/activations.py
@@ -1,6 +1,16 @@
 from . import _nvte
 from .empty import empty
 
+def relu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.relu(x, output)
+    return output
+
+
+def drelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+    output = empty(x.shape, out_dtype)
+    _nvte.drelu(grad, x, output)
+    return output
 
 def gelu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
@@ -14,27 +24,26 @@ def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
     return output
 
 
-def relu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
-    _nvte.relu(x, output)
+    _nvte.reglu(x, output)
     return output
 
 
-def drelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
-    _nvte.drelu(grad, x, output)
+    _nvte.dreglu(grad, x, output)
     return output
 
-
-def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+def geglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
-    _nvte.reglu(x, output)
+    _nvte.geglu(x, output)
     return output
 
 
-def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+def dgeglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
-    _nvte.dreglu(grad, x, output)
+    _nvte.dgeglu(grad, x, output)
     return output
 
 
diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index 3a2fbee3c5..b87266f023 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -65,3 +65,22 @@ def cast_transpose_dbias_dgelu_checked(
         dgelu = empty(grad.shape, cast_dtype or grad.dtype)
         _nvte.dgelu(grad, pre_gelu, dgelu)
         return cast_transpose_dbias_checked(dgelu, cast_dtype, dbias_dtype)
+
+
+def cast_transpose_dgeglu_checked(
+    grad: _nvte.Tensor, pre_geglu: _nvte.Tensor, cast_dtype: _nvte.DType | None
+):
+    if (
+        grad.dtype == pre_geglu.dtype
+        and cast_dtype is not None
+        and cast_dtype != grad.dtype
+    ):
+        dgeglu_cast, dgeglu_transpose = multi_empty_share_metadata(
+            (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
+        )
+        _nvte.dgeglu_cast_transpose(grad, pre_geglu, dgeglu_cast, dgeglu_transpose)
+        return dgeglu_cast, dgeglu_transpose
+    else:
+        dgeglu = empty(grad.shape, cast_dtype or grad.dtype)
+        _nvte.dgeglu(grad, pre_geglu, dgeglu)
+        return cast_transpose_checked(dgeglu, cast_dtype)
diff --git a/transformer_engine/pytorch/sequential/ops/__init__.py b/transformer_engine/pytorch/sequential/ops/__init__.py
index a7426bf2bb..a094715b14 100644
--- a/transformer_engine/pytorch/sequential/ops/__init__.py
+++ b/transformer_engine/pytorch/sequential/ops/__init__.py
@@ -1,21 +1,23 @@
-from .add import Add
-from .gelu import GELU
-from .layernorm import LayerNorm
-from .mmt import MMT
 from .op import Op, Context, Grads
-from .reglu import ReGLU
 from .relu import ReLU
+from .gelu import GELU
+from .reglu import ReGLU
+from .geglu import GeGLU
 from .swiglu import SwiGLU
+from .layernorm import LayerNorm
+from .mmt import MMT
+from .add import Add
 
 __all__ = [
-    "Add",
+    "Op",
     "Context",
-    "GELU",
     "Grads",
-    "LayerNorm",
-    "MMT",
-    "Op",
-    "ReGLU",
     "ReLU",
+    "GELU",
+    "ReGLU",
+    "GeGLU",
     "SwiGLU",
+    "LayerNorm",
+    "MMT",
+    "Add",
 ]
diff --git a/transformer_engine/pytorch/sequential/ops/geglu.py b/transformer_engine/pytorch/sequential/ops/geglu.py
new file mode 100644
index 0000000000..8fb5122b28
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/geglu.py
@@ -0,0 +1,41 @@
+from __future__ import annotations
+from .. import nvte
+from .op import Grads, Op, Context
+
+
+class GeGLU(Op):
+    def __init__(
+        self,
+        x_dtype: nvte.DType | None = None,
+        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+    ):
+        self.x_dtype = x_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+
+    def inference(self, x: nvte.Tensor):
+        return self.forward(x)[0]
+
+    def forward(self, x: nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+
+        y = nvte.geglu(x, self.y_dtype)
+
+        return y, {"x": x}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        x = ctx["x"]
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+
+        dx = nvte.dgeglu(dy, x, self.dx_dtype)
+
+        return dx, Grads()
+
+    def args(self):
+        return list[nvte.Tensor]()
+
+
+__all__ = ["GeGLU"]

From 2de1302a9e331ff245ddcf8833dab6051b7fe297 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 18:29:23 +0200
Subject: [PATCH 114/535] add rmsnorm

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/__init__.py            |   2 +
 .../pytorch/sequential/module/__init__.py     |   2 +
 .../pytorch/sequential/module/rmsnorm.py      |  33 +++++
 .../pytorch/sequential/nvte/__init__.py       |   4 +-
 .../nvte/{layernorm.py => normalization.py}   | 117 +++++++++++++++---
 .../pytorch/sequential/ops/__init__.py        |   2 +
 .../pytorch/sequential/ops/rmsnorm.py         |  62 ++++++++++
 7 files changed, 203 insertions(+), 19 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/module/rmsnorm.py
 rename transformer_engine/pytorch/sequential/nvte/{layernorm.py => normalization.py} (59%)
 create mode 100644 transformer_engine/pytorch/sequential/ops/rmsnorm.py

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index 58a788eda8..768fb8232b 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -5,6 +5,7 @@
     GeGLU,
     SwiGLU,
     LayerNorm,
+    RMSNorm,
     Linear,
     Sequential,
 )
@@ -16,6 +17,7 @@
     "GeGLU",
     "SwiGLU",
     "LayerNorm",
+    "RMSNorm",
     "Linear",
     "Sequential",
 ]
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
index a7b13ff5cf..7cbedb5ce1 100644
--- a/transformer_engine/pytorch/sequential/module/__init__.py
+++ b/transformer_engine/pytorch/sequential/module/__init__.py
@@ -4,6 +4,7 @@
 from .geglu import GeGLU
 from .swiglu import SwiGLU
 from .layernorm import LayerNorm
+from .rmsnorm import RMSNorm
 from .linear import Linear
 from .sequential import Sequential
 
@@ -14,6 +15,7 @@
     "GeGLU",
     "SwiGLU",
     "LayerNorm",
+    "RMSNorm",
     "Linear",
     "Sequential",
 ]
diff --git a/transformer_engine/pytorch/sequential/module/rmsnorm.py b/transformer_engine/pytorch/sequential/module/rmsnorm.py
new file mode 100644
index 0000000000..eb7528a7ab
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/rmsnorm.py
@@ -0,0 +1,33 @@
+import torch
+from torch import nn
+from .base import BaseModule
+from .. import ops
+from ..nvte import make_nvte_tensor
+
+
+class RMSNorm(BaseModule):
+    def __init__(
+        self,
+        features: int,
+        eps: float = 1e-5,
+        zero_centered_gamma: bool = False,
+        param_dtype: torch.dtype = torch.get_default_dtype(),
+    ):
+        nn.Module.__init__(self)  # type: ignore
+
+        self.features = features
+        self.eps = eps
+        self.zero_centered_gamma = zero_centered_gamma
+
+        self.weight = nn.Parameter(
+            torch.zeros(features, dtype=param_dtype, device="cuda")
+            if zero_centered_gamma
+            else torch.ones(features, dtype=param_dtype, device="cuda")
+        )
+
+        super().__init__(
+            ops.RMSNorm(eps, zero_centered_gamma, make_nvte_tensor(self.weight))
+        )
+
+    def extra_repr(self):
+        return f"features={self.features}, eps={self.eps}, zero_centered_gamma={self.zero_centered_gamma}"
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index eb7dcaa5bf..01b33be8ab 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -25,7 +25,7 @@
     dswiglu,
 )
 from .interface import set_current_pass
-from .layernorm import layernorm, dlayernorm
+from .normalization import layernorm, dlayernorm, rmsnorm, drmsnorm
 from .misc_fusions import (
     cast_transpose_dbias_checked,
     cast_transpose_dbias_dgelu_checked,
@@ -58,6 +58,7 @@
     "dlayernorm",
     "dreglu",
     "drelu",
+    "drmsnorm",
     "dswiglu",
     "dtype_name",
     "DType",
@@ -83,6 +84,7 @@
     "QKVLayout",
     "reglu",
     "relu",
+    "rmsnorm",
     "set_current_pass",
     "swiglu",
     "te_to_torch_dtype",
diff --git a/transformer_engine/pytorch/sequential/nvte/layernorm.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
similarity index 59%
rename from transformer_engine/pytorch/sequential/nvte/layernorm.py
rename to transformer_engine/pytorch/sequential/nvte/normalization.py
index 8782a46faa..dc81a5ef94 100644
--- a/transformer_engine/pytorch/sequential/nvte/layernorm.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -9,12 +9,12 @@
 
 
 @cache
-def _fwd_ln_sm_margin():
+def _fwd_sm_margin():
     return int(os.getenv("NVTE_FWD_LAYERNORM_SM_MARGIN", "0"))
 
 
 @cache
-def _bwd_ln_sm_margin():
+def _bwd_sm_margin():
     return int(os.getenv("NVTE_BWD_LAYERNORM_SM_MARGIN", "0"))
 
 
@@ -27,14 +27,14 @@ def _sm_total_count() -> int:
 
 def _sm_margin():
     if pass_ == "backward":
-        return _bwd_ln_sm_margin()
+        return _bwd_sm_margin()
     elif pass_ == "forward":
-        return _fwd_ln_sm_margin()
+        return _fwd_sm_margin()
     else:
         return 0
 
 
-class _LayerNormConfig:
+class _NormConfig:
     def __init__(
         self, hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
     ):
@@ -55,25 +55,23 @@ def __str__(self):
 
 
 @contextmanager
-def _handle_unsupported_layernorm_config(
-    hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
+def _handle_unsupported_config(
+    func_name: str,
+    hidden_size: int,
+    gamma: _nvte.Tensor,
+    x: _nvte.Tensor,
+    out: _nvte.Tensor,
 ):
     try:
         yield
     except RuntimeError as error:
-        config = _LayerNormConfig(hidden_size, gamma, x, out)
-        if "in function get_fwd_launcher: FWD: Unsupported types." in str(error):
+        config = _NormConfig(hidden_size, gamma, x, out)
+        if "Unsupported types." in str(error):
             raise ValueError(
-                "This configuration for layernorm is not supported. "
+                f"This configuration for {func_name} is not supported. "
                 "(Regex) Search for REGISTER_FWD_(TUNED|GENERAL)_LAUNCHER to see possible options. "
                 f"Used configuration: {config}"
             ) from error
-        elif "in function get_bwd_launcher: BWD: Unsupported types." in str(error):
-            raise ValueError(
-                "This configuration for layernorm is not supported. "
-                "(Regex) Search for REGISTER_BWD_(TUNED|GENERAL)_LAUNCHER to see possible options. "
-                f"Used configuration: {config}"
-            ) from error
         else:
             raise
 
@@ -99,7 +97,7 @@ def layernorm(
     else:
         func = _nvte.layernorm_fwd
 
-    with _handle_unsupported_layernorm_config(hidden_size, gamma, x, out):
+    with _handle_unsupported_config("layernorm", hidden_size, gamma, x, out):
         workspace = empty()
         barrier = empty()
         for _ in range(2):
@@ -143,7 +141,7 @@ def dlayernorm(
     else:
         func = _nvte.layernorm_bwd
 
-    with _handle_unsupported_layernorm_config(x.shape[1], gamma, x, dx):
+    with _handle_unsupported_config("dlayernorm",x.shape[1], gamma, x, dx):
         workspace = empty()
         barrier = empty()
         dgamma_part = empty()
@@ -170,3 +168,86 @@ def dlayernorm(
             dbeta_part = empty_like(dbeta_part)
 
     return dx, dgamma, dbeta
+
+
+def rmsnorm(
+    x: _nvte.Tensor,
+    eps: float,
+    zero_centered_gamma: bool,
+    gamma: _nvte.Tensor,
+    out_dtype: _nvte.DType,
+):
+    "returns x / sqrt(var(x) + eps) * gamma, rsigma (for bwd)"
+
+    assert len(x.shape) == 2
+
+    n, hidden_size = x.shape
+    rsigma = empty((n,), _nvte.DType.Float32)
+    out = empty(x.shape, out_dtype)
+
+    if zero_centered_gamma:
+        raise NotImplementedError()
+    else:
+        func = _nvte.rmsnorm_fwd
+
+    with _handle_unsupported_config("rmsnorm",hidden_size, gamma, x, out):
+        workspace = empty()
+        barrier = empty()
+        for _ in range(2):
+            func(
+                x,
+                gamma,
+                eps,
+                out,
+                rsigma,
+                _sm_total_count() - _sm_margin(),
+                workspace,
+                barrier,
+            )
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
+
+    return out, rsigma
+
+
+def drmsnorm(
+    grad: _nvte.Tensor,
+    zero_centered_gamma: bool,
+    x: _nvte.Tensor,
+    gamma: _nvte.Tensor,
+    rsigma: _nvte.Tensor,
+    dx_dtype: _nvte.DType,
+    dgamma_dtype: _nvte.DType,
+):
+    "returns dx, dgamma"
+
+    dx = empty(x.shape, dx_dtype)
+    dgamma = empty(gamma.shape, dgamma_dtype)
+
+    if zero_centered_gamma:
+        raise NotImplementedError()
+    else:
+        func = _nvte.rmsnorm_bwd
+
+    with _handle_unsupported_config("drmsnorm",x.shape[1], gamma, x, dx):
+        workspace = empty()
+        barrier = empty()
+        dgamma_part = empty()
+        for _ in range(2):
+            func(
+                grad,
+                x,
+                rsigma,
+                gamma,
+                dx,
+                dgamma,
+                dgamma_part,
+                _sm_total_count() - _sm_margin(),
+                workspace,
+                barrier,
+            )
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
+            dgamma_part = empty_like(dgamma_part)
+
+    return dx, dgamma
diff --git a/transformer_engine/pytorch/sequential/ops/__init__.py b/transformer_engine/pytorch/sequential/ops/__init__.py
index a094715b14..bb2e87e718 100644
--- a/transformer_engine/pytorch/sequential/ops/__init__.py
+++ b/transformer_engine/pytorch/sequential/ops/__init__.py
@@ -5,6 +5,7 @@
 from .geglu import GeGLU
 from .swiglu import SwiGLU
 from .layernorm import LayerNorm
+from .rmsnorm import RMSNorm
 from .mmt import MMT
 from .add import Add
 
@@ -18,6 +19,7 @@
     "GeGLU",
     "SwiGLU",
     "LayerNorm",
+    "RMSNorm",
     "MMT",
     "Add",
 ]
diff --git a/transformer_engine/pytorch/sequential/ops/rmsnorm.py b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
new file mode 100644
index 0000000000..142bd681e5
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
@@ -0,0 +1,62 @@
+from __future__ import annotations
+from .. import nvte
+from .op import Op, Context
+
+
+class RMSNorm(Op):
+    def __init__(
+        self,
+        eps: float,
+        zero_centered_gamma: bool,
+        weight: nvte.Tensor,
+        x_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dy_dtype: nvte.DType | None = None,
+        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
+    ):
+        self.eps = eps
+        self.zero_centered_gamma = zero_centered_gamma
+        self.weight = weight
+        self.x_dtype = x_dtype
+        self.weight_dtype = weight_dtype
+        self.dy_dtype = dy_dtype
+        self.y_dtype = y_dtype
+        self.dx_dtype = dx_dtype
+        self.dweight_dtype = dweight_dtype
+
+    def inference(self, x: nvte.Tensor):
+        return self.forward(x)[0]
+
+    def forward(self, x: nvte.Tensor):
+        x = nvte.cast_checked(x, self.x_dtype)
+        weight = nvte.cast_checked(self.weight, self.weight_dtype)
+
+        y, rsigma = nvte.rmsnorm(
+            x, self.eps, self.zero_centered_gamma, weight, self.y_dtype
+        )
+
+        return y, {"x": x, "weight": weight, "rsigma": rsigma}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor):
+        x, weight, rsigma = ctx["x"], ctx["weight"], ctx["rsigma"]
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+
+        dx, dweight = nvte.drmsnorm(
+            dy,
+            self.zero_centered_gamma,
+            x,
+            weight,
+            rsigma,
+            self.dx_dtype,
+            self.dweight_dtype,
+        )
+
+        return dx, [dweight]
+
+    def args(self):
+        return [self.weight]
+
+
+__all__ = ["RMSNorm"]

From 1d1911468467f1bbd2f4c49433be6c6b1f092818 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 15 Aug 2023 19:09:37 +0200
Subject: [PATCH 115/535] add test

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/compare_pt_te_seq.py | 156 ++++++++++++++++++++++++++
 1 file changed, 156 insertions(+)
 create mode 100644 tests/sequential/compare_pt_te_seq.py

diff --git a/tests/sequential/compare_pt_te_seq.py b/tests/sequential/compare_pt_te_seq.py
new file mode 100644
index 0000000000..81a793fe7e
--- /dev/null
+++ b/tests/sequential/compare_pt_te_seq.py
@@ -0,0 +1,156 @@
+import torch
+import transformer_engine.pytorch.sequential as seq
+from torch import nn
+import transformer_engine.pytorch as te
+from math import sqrt
+
+import torch
+import torch.nn as nn
+
+
+class RMSNorm(nn.Module):
+    def __init__(self, hidden_dim: int, eps: float = 1e-5):
+        super().__init__()
+        self.hidden_dim = hidden_dim
+        self.eps = eps
+        self.weight = nn.Parameter(torch.ones(hidden_dim))
+
+    def forward(self, x: torch.Tensor):
+        x_norm = x.norm(2, dim=-1, keepdim=True)
+        rms_x = x_norm / sqrt(self.hidden_dim)
+        y = x / (rms_x + self.eps)
+        return y * self.weight
+
+
+torch.set_default_device("cuda")
+
+SEQ_LEN = 128
+HIDDEN_DIM = 768
+
+
+def max_abs_diff(a: torch.Tensor, b: torch.Tensor):
+    return (a - b).abs().max().item()
+
+
+def cpy(dst: torch.Tensor, src: torch.Tensor):
+    dst.data = torch.as_tensor(src.data.clone().detach(), dtype=dst.dtype).detach()
+
+
+def cmp_modules(te: nn.Module, seq: nn.Module, pt: nn.Module):
+    x_te = x_src.detach().clone().requires_grad_()
+    x_seq = x_src.detach().clone().requires_grad_()
+    x_pt = x_src.detach().clone().requires_grad_()
+
+    y_te = te(x_te)
+    y_seq = seq(x_seq)
+    y_pt = pt(x_pt)
+
+    y_te.sum().backward()
+    y_seq.sum().backward()
+    y_pt.sum().backward()
+
+    print(f"mad(dx_te, dx_seq): {max_abs_diff(x_te.grad, x_seq.grad):12.10f}")
+    print(f"mad(dx_te,  dx_pt): {max_abs_diff(x_te.grad, x_pt.grad):12.10f}")
+    print(f"mad(dx_seq, dx_pt): {max_abs_diff(x_seq.grad,x_pt.grad):12.10f}")
+
+    print(f"mad( y_te,  y_seq): {max_abs_diff(y_te, y_seq):12.10f}")
+    print(f"mad( y_te,   y_pt): {max_abs_diff(y_te, y_pt):12.10f}")
+    print(f"mad( y_seq,  y_pt): {max_abs_diff(y_seq,y_pt):12.10f}")
+
+
+def cmp_layernorm_mlp(norm: str, act: str):
+    m_seq = seq.Sequential(
+        seq.LayerNorm(HIDDEN_DIM) if norm == "LayerNorm" else seq.RMSNorm(HIDDEN_DIM),
+        seq.Linear(HIDDEN_DIM, 3 * HIDDEN_DIM),
+        seq.GELU() if act == "gelu" else seq.ReLU(),
+        seq.Linear(3 * HIDDEN_DIM, HIDDEN_DIM),
+    )
+    m_te = te.LayerNormMLP(
+        HIDDEN_DIM, 3 * HIDDEN_DIM, activation=act, normalization=norm
+    )
+    m_pt = nn.Sequential(
+        nn.LayerNorm(HIDDEN_DIM) if norm == "LayerNorm" else RMSNorm(HIDDEN_DIM),
+        nn.Linear(HIDDEN_DIM, 3 * HIDDEN_DIM),
+        nn.GELU() if act == "gelu" else nn.ReLU(),
+        nn.Linear(3 * HIDDEN_DIM, HIDDEN_DIM),
+    )
+
+    cpy(m_te.layer_norm_weight, m_seq._modules["0"].weight)
+    if norm == "LayerNorm":
+        cpy(m_te.layer_norm_bias, m_seq._modules["0"].bias)
+    cpy(m_te.fc1_weight, m_seq._modules["1"].weight)
+    cpy(m_te.fc1_bias, m_seq._modules["1"].bias)
+    cpy(m_te.fc2_weight, m_seq._modules["3"].weight)
+    cpy(m_te.fc2_bias, m_seq._modules["3"].bias)
+
+    cpy(m_pt[0].weight, m_seq._modules["0"].weight)
+    if norm == "LayerNorm":
+        cpy(m_pt[0].bias, m_seq._modules["0"].bias)
+    cpy(m_pt[1].weight, m_seq._modules["1"].weight)
+    cpy(m_pt[1].bias, m_seq._modules["1"].bias)
+    cpy(m_pt[3].weight, m_seq._modules["3"].weight)
+    cpy(m_pt[3].bias, m_seq._modules["3"].bias)
+
+    cmp_modules(m_te, m_seq, m_pt)
+
+
+def cmp_layernorm():
+    m_seq = seq.LayerNorm(HIDDEN_DIM)
+    m_te = te.LayerNorm(HIDDEN_DIM)
+    m_pt = nn.LayerNorm(HIDDEN_DIM)
+
+    cpy(m_te.weight, m_seq.weight)
+    cpy(m_te.bias, m_seq.bias)
+    cpy(m_pt.weight, m_seq.weight)
+    cpy(m_pt.bias, m_seq.bias)
+
+    cmp_modules(m_te, m_seq, m_pt)
+
+
+def cmp_linear():
+    m_seq = seq.Linear(HIDDEN_DIM, HIDDEN_DIM)
+    m_te = te.Linear(HIDDEN_DIM, HIDDEN_DIM)
+    m_pt = nn.Linear(HIDDEN_DIM, HIDDEN_DIM)
+
+    cpy(m_te.weight, m_seq.weight)
+    cpy(m_te.bias, m_seq.bias)
+    cpy(m_pt.weight, m_seq.weight)
+    cpy(m_pt.bias, m_seq.bias)
+
+    cmp_modules(m_te, m_seq, m_pt)
+
+
+def cmp_linear_no_bias():
+    m_seq = seq.Linear(HIDDEN_DIM, HIDDEN_DIM, bias=False)
+    m_te = te.Linear(HIDDEN_DIM, HIDDEN_DIM, bias=False)
+    m_pt = nn.Linear(HIDDEN_DIM, HIDDEN_DIM, bias=False)
+
+    cpy(m_te.weight, m_seq.weight)
+    cpy(m_pt.weight, m_seq.weight)
+
+    cmp_modules(m_te, m_seq, m_pt)
+
+
+print("\n ----- FP32 INPUT & WEIGHTS ------")
+x_src = torch.rand(SEQ_LEN, HIDDEN_DIM, device="cuda")
+
+print("\n### Comparing LayerNormMPL (gelu) ###")
+cmp_layernorm_mlp("LayerNorm", "gelu")
+
+print("\n### Comparing LayerNormMPL (relu) ###")
+cmp_layernorm_mlp("LayerNorm", "relu")
+
+print("\n### Comparing RMSNormMPL (gelu) ###")
+cmp_layernorm_mlp("RMSNorm", "gelu")
+
+print("\n### Comparing RMSNormMPL (relu) ###")
+cmp_layernorm_mlp("RMSNorm", "relu")
+
+print("\n### Comparing LayerNorm ###")
+cmp_layernorm()
+
+print("\n### Comparing Linear ###")
+cmp_linear()
+
+print("\n### Comparing Linear (no bias) ###")
+cmp_linear_no_bias()

From d9ce79c63c0030edb75b5617b961fade6358bc1f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 11:09:32 +0200
Subject: [PATCH 116/535] rename args to require_grad

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/transformer.py               | 21 +++++++++++++++++++
 .../pytorch/sequential/README.md              |  6 +++---
 .../pytorch/sequential/compute_pipeline.py    |  4 ++--
 .../sequential/compute_pipeline_function.py   |  2 +-
 .../pytorch/sequential/fusions/interface.py   |  4 ++--
 .../pytorch/sequential/ops/add.py             |  2 +-
 .../pytorch/sequential/ops/geglu.py           |  2 +-
 .../pytorch/sequential/ops/gelu.py            |  2 +-
 .../pytorch/sequential/ops/layernorm.py       |  2 +-
 .../pytorch/sequential/ops/mmt.py             |  2 +-
 .../pytorch/sequential/ops/op.py              |  2 +-
 .../pytorch/sequential/ops/reglu.py           |  2 +-
 .../pytorch/sequential/ops/relu.py            |  2 +-
 .../pytorch/sequential/ops/rmsnorm.py         |  2 +-
 .../pytorch/sequential/ops/swiglu.py          |  2 +-
 15 files changed, 39 insertions(+), 18 deletions(-)
 create mode 100644 tests/sequential/transformer.py

diff --git a/tests/sequential/transformer.py b/tests/sequential/transformer.py
new file mode 100644
index 0000000000..6582385fc1
--- /dev/null
+++ b/tests/sequential/transformer.py
@@ -0,0 +1,21 @@
+import torch
+import transformer_engine.pytorch.sequential as seq
+
+SEQ_LEN = 128
+HIDDEN_DIM = 768
+FFN_DIM = 4 * HIDDEN_DIM
+
+seq.Sequential(
+    seq.Residual(
+        seq.RMSNorm(HIDDEN_DIM),
+        seq.Linear(HIDDEN_DIM, 3 * HIDDEN_DIM),
+        seq.DotProductAttention(),
+        seq.Linear(3 * HIDDEN_DIM, HIDDEN_DIM),
+    ),
+    seq.Residual(
+        seq.RMSNorm(HIDDEN_DIM),
+        seq.Linear(HIDDEN_DIM, FFN_DIM),
+        seq.GELU(),
+        seq.Linear(FFN_DIM, HIDDEN_DIM),
+    ),
+)
diff --git a/transformer_engine/pytorch/sequential/README.md b/transformer_engine/pytorch/sequential/README.md
index a34de184e7..682a3b2938 100644
--- a/transformer_engine/pytorch/sequential/README.md
+++ b/transformer_engine/pytorch/sequential/README.md
@@ -103,7 +103,7 @@ Let's say you're adding `awesomeLU`:
             >     dy_dtype: nvte.DType | None = ...,
             > ```
         4. Provide defaults for these types to allow for constructing the operation object `AwesomeLu` without having to explicitly specify the types. Choose such default types that will result in optimal performance in the FP8 computational regime.
-    2. In `AwesomeLU.args` return the list of all tensor attributes of `AwesomeLU` that require gradients.
+    2. In `AwesomeLU.require_grad` return the list of all tensor attributes of `AwesomeLU` that require gradients.
     3. In `AwesomeLU.forward` provide the implementation of the forward pass of the operation:
         1. The input activation is to be taken as an argument to the `forward` function. _Note: Contrary to Pytorch, any parameters or configuration, can be conveniently accessed using the `self` object._
             ```
@@ -131,8 +131,8 @@ Let's say you're adding `awesomeLU`:
             ```
                 dy = nvte.cast_checked(dy, self.dy_dtype)
             ```
-        3. Return `dy` and a list of the gradients of all tensors returned by `AwesomeLU.args` in **the same order** (if `args` returns `[weight, bias]`, `backward` **must** return `dy, [dweight, dbias]`).
-        4. If `AwesomeLU.args` returns `[]`, return `dy, []`.
+        3. Return `dy` and a list of the gradients of all tensors returned by `AwesomeLU.require_grad` in **the same order** (if `require_grad` returns `[weight, bias]`, `backward` **must** return `dy, [dweight, dbias]`).
+        4. If `AwesomeLU.require_grad` returns `[]`, return `dy, []`.
     6. Remember to use fused implementations, when possible. For example, in some cases, using a sequence of `nvte.cast_checked` calls may be suboptimal, when, for example, `nvte.multi_cast_transpose` could be used instead, if the tensors are to be later transposed.
 4. In `ops`/`__init__.py` add `from awesomelu import AwesomeLU`.
 5. In `ops`/`__init__.py` insert `AwesomeLU` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index d58c4f025b..da0c0c812b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -47,8 +47,8 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
             full_grads += grads
         return dy, full_grads
 
-    def args(self):
-        return list(sum((op.args() for op in self.fwds), list[nvte.Tensor]()))
+    def require_grad(self):
+        return list(sum((op.require_grad() for op in self.fwds), list[nvte.Tensor]()))
 
 
 def force_use_precision(ops: list[Op], allowed: nvte.DType):
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 9c7f3a7ae9..2c9b6c71e5 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -91,7 +91,7 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return y.data
     else:
         for contained_op in pipeline.functions:
-            nvte_tensors = contained_op.args()
+            nvte_tensors = contained_op.require_grad()
             exposed_tensors = list[torch.Tensor]()
             for nvte_tensor in nvte_tensors:
                 assert not nvte.is_fp8(
diff --git a/transformer_engine/pytorch/sequential/fusions/interface.py b/transformer_engine/pytorch/sequential/fusions/interface.py
index ad75ddcb91..ecf0de330c 100644
--- a/transformer_engine/pytorch/sequential/fusions/interface.py
+++ b/transformer_engine/pytorch/sequential/fusions/interface.py
@@ -57,8 +57,8 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         grads_total: Grads = [grad for op_grads in grads for grad in op_grads]
         return dx, grads_total
 
-    def args(self):
-        return list(sum((op.args() for op in self.ops), list[nvte.Tensor]()))
+    def require_grad(self):
+        return list(sum((op.require_grad() for op in self.ops), list[nvte.Tensor]()))
 
     def __repr__(self):
         return f"""FusedOp{self.ops}"""
diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/ops/add.py
index a3f4652af8..1be851cf18 100644
--- a/transformer_engine/pytorch/sequential/ops/add.py
+++ b/transformer_engine/pytorch/sequential/ops/add.py
@@ -42,7 +42,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, [dbias]
 
-    def args(self):
+    def require_grad(self):
         return [self.bias]
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/geglu.py b/transformer_engine/pytorch/sequential/ops/geglu.py
index 8fb5122b28..b42dd1f28c 100644
--- a/transformer_engine/pytorch/sequential/ops/geglu.py
+++ b/transformer_engine/pytorch/sequential/ops/geglu.py
@@ -34,7 +34,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, Grads()
 
-    def args(self):
+    def require_grad(self):
         return list[nvte.Tensor]()
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/gelu.py b/transformer_engine/pytorch/sequential/ops/gelu.py
index 32da02d992..660e7b621a 100644
--- a/transformer_engine/pytorch/sequential/ops/gelu.py
+++ b/transformer_engine/pytorch/sequential/ops/gelu.py
@@ -34,7 +34,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, Grads()
 
-    def args(self):
+    def require_grad(self):
         return list[nvte.Tensor]()
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/layernorm.py b/transformer_engine/pytorch/sequential/ops/layernorm.py
index 3f7bdc9904..377b353612 100644
--- a/transformer_engine/pytorch/sequential/ops/layernorm.py
+++ b/transformer_engine/pytorch/sequential/ops/layernorm.py
@@ -64,7 +64,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, [dweight, dbias]
 
-    def args(self):
+    def require_grad(self):
         return [self.weight, self.bias]
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/mmt.py b/transformer_engine/pytorch/sequential/ops/mmt.py
index 69f5594578..06727c2060 100644
--- a/transformer_engine/pytorch/sequential/ops/mmt.py
+++ b/transformer_engine/pytorch/sequential/ops/mmt.py
@@ -48,7 +48,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, [dweight]
 
-    def args(self):
+    def require_grad(self):
         return [self.weight]
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/ops/op.py
index 19796e951d..220e557c34 100644
--- a/transformer_engine/pytorch/sequential/ops/op.py
+++ b/transformer_engine/pytorch/sequential/ops/op.py
@@ -20,7 +20,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
         ...
 
     @abstractmethod
-    def args(self) -> list[nvte.Tensor]:
+    def require_grad(self) -> list[nvte.Tensor]:
         ...
 
     def __repr__(self):
diff --git a/transformer_engine/pytorch/sequential/ops/reglu.py b/transformer_engine/pytorch/sequential/ops/reglu.py
index 40dbe70ec3..38b9c4ddd9 100644
--- a/transformer_engine/pytorch/sequential/ops/reglu.py
+++ b/transformer_engine/pytorch/sequential/ops/reglu.py
@@ -34,7 +34,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, Grads()
 
-    def args(self):
+    def require_grad(self):
         return list[nvte.Tensor]()
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/relu.py b/transformer_engine/pytorch/sequential/ops/relu.py
index b0b2560c79..13bb92b6b1 100644
--- a/transformer_engine/pytorch/sequential/ops/relu.py
+++ b/transformer_engine/pytorch/sequential/ops/relu.py
@@ -34,7 +34,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, Grads()
 
-    def args(self):
+    def require_grad(self):
         return list[nvte.Tensor]()
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/rmsnorm.py b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
index 142bd681e5..fbf6fee166 100644
--- a/transformer_engine/pytorch/sequential/ops/rmsnorm.py
+++ b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
@@ -55,7 +55,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, [dweight]
 
-    def args(self):
+    def require_grad(self):
         return [self.weight]
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/swiglu.py b/transformer_engine/pytorch/sequential/ops/swiglu.py
index fdf8b57ac0..e6061369a2 100644
--- a/transformer_engine/pytorch/sequential/ops/swiglu.py
+++ b/transformer_engine/pytorch/sequential/ops/swiglu.py
@@ -34,7 +34,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, Grads()
 
-    def args(self):
+    def require_grad(self):
         return list[nvte.Tensor]()
 
 

From 54be734f50efb441e0605a99c0960cc13190dd6a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 11:09:43 +0200
Subject: [PATCH 117/535] make sequential more extensible

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/sequential.py           | 11 ++++++++++-
 1 file changed, 10 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/module/sequential.py b/transformer_engine/pytorch/sequential/module/sequential.py
index 876f019650..edba3d1e1c 100644
--- a/transformer_engine/pytorch/sequential/module/sequential.py
+++ b/transformer_engine/pytorch/sequential/module/sequential.py
@@ -27,6 +27,13 @@ def __init__(
         *args: BaseModule | OrderedDict[str, BaseModule],
     ):
         nn.Module.__init__(self)  # type: ignore
+        modules = self._modules_from_args(args)
+        ops = self._ops_from_modules(modules)
+        super().__init__(*ops)
+
+    def _modules_from_args(
+        self, args: tuple[BaseModule | OrderedDict[str, BaseModule], ...]
+    ):
         modules: list[tuple[str, BaseModule]]
         if len(args) == 1 and isinstance(args[0], OrderedDict):
             modules = list(args[0].items())
@@ -45,8 +52,10 @@ def __init__(
 
             for submodule_name, submodule in submodules:
                 self.add_module(submodule_name, submodule)
+        return modules
 
-        super().__init__(*[op for _, module in modules for op in module.ops])
+    def _ops_from_modules(self, modules: list[tuple[str, BaseModule]]):
+        return [op for _, module in modules for op in module.ops]
 
     def __len__(self):
         return len(self._modules)

From a78222f0e229248d8b3878221cf91984496813e8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 12:11:09 +0200
Subject: [PATCH 118/535] merge activations and normalizations

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/__init__.py            | 11 +++++
 .../pytorch/sequential/module/__init__.py     | 13 +++---
 .../pytorch/sequential/module/activation.py   | 32 +++++++++++++
 .../pytorch/sequential/module/geglu.py        |  9 ----
 .../pytorch/sequential/module/gelu.py         |  9 ----
 .../module/{layernorm.py => normalization.py} | 38 ++++++++++++----
 .../pytorch/sequential/module/reglu.py        |  9 ----
 .../pytorch/sequential/module/relu.py         |  9 ----
 .../pytorch/sequential/module/rmsnorm.py      | 33 --------------
 .../pytorch/sequential/module/swiglu.py       |  9 ----
 .../pytorch/sequential/nvte/__init__.py       |  2 +-
 .../nvte/{activations.py => activation.py}    |  0
 .../pytorch/sequential/ops/__init__.py        |  7 +--
 .../ops/{reglu.py => activation.py}           | 45 +++++++++++++++++--
 .../pytorch/sequential/ops/geglu.py           | 41 -----------------
 .../pytorch/sequential/ops/gelu.py            | 41 -----------------
 .../pytorch/sequential/ops/relu.py            | 41 -----------------
 .../pytorch/sequential/ops/swiglu.py          | 41 -----------------
 18 files changed, 123 insertions(+), 267 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/module/activation.py
 delete mode 100644 transformer_engine/pytorch/sequential/module/geglu.py
 delete mode 100644 transformer_engine/pytorch/sequential/module/gelu.py
 rename transformer_engine/pytorch/sequential/module/{layernorm.py => normalization.py} (53%)
 delete mode 100644 transformer_engine/pytorch/sequential/module/reglu.py
 delete mode 100644 transformer_engine/pytorch/sequential/module/relu.py
 delete mode 100644 transformer_engine/pytorch/sequential/module/rmsnorm.py
 delete mode 100644 transformer_engine/pytorch/sequential/module/swiglu.py
 rename transformer_engine/pytorch/sequential/nvte/{activations.py => activation.py} (100%)
 rename transformer_engine/pytorch/sequential/ops/{reglu.py => activation.py} (51%)
 delete mode 100644 transformer_engine/pytorch/sequential/ops/geglu.py
 delete mode 100644 transformer_engine/pytorch/sequential/ops/gelu.py
 delete mode 100644 transformer_engine/pytorch/sequential/ops/relu.py
 delete mode 100644 transformer_engine/pytorch/sequential/ops/swiglu.py

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index 768fb8232b..b5f7c9e696 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -1,4 +1,5 @@
 from .module import (
+    Activation,
     ReLU,
     GELU,
     ReGLU,
@@ -8,9 +9,13 @@
     RMSNorm,
     Linear,
     Sequential,
+    Residual,
 )
+from . import nvte, ops, fusions, module
 
 __all__ = [
+    # nn.Modules
+    "Activation",
     "ReLU",
     "GELU",
     "ReGLU",
@@ -20,4 +25,10 @@
     "RMSNorm",
     "Linear",
     "Sequential",
+    "Residual",
+    # Python modules
+    "nvte",
+    "ops",
+    "fusions",
+    "module",
 ]
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
index 7cbedb5ce1..4956f3a727 100644
--- a/transformer_engine/pytorch/sequential/module/__init__.py
+++ b/transformer_engine/pytorch/sequential/module/__init__.py
@@ -1,21 +1,20 @@
-from .relu import ReLU
-from .gelu import GELU
-from .reglu import ReGLU
-from .geglu import GeGLU
-from .swiglu import SwiGLU
-from .layernorm import LayerNorm
-from .rmsnorm import RMSNorm
+from .activation import Activation, ReLU, GELU, ReGLU, GeGLU, SwiGLU
+from .normalization import Normalization, LayerNorm, RMSNorm
 from .linear import Linear
 from .sequential import Sequential
+from .residual import Residual
 
 __all__ = [
+    "Activation",
     "ReLU",
     "GELU",
     "ReGLU",
     "GeGLU",
     "SwiGLU",
+    "Normalization",
     "LayerNorm",
     "RMSNorm",
     "Linear",
     "Sequential",
+    "Residual",
 ]
diff --git a/transformer_engine/pytorch/sequential/module/activation.py b/transformer_engine/pytorch/sequential/module/activation.py
new file mode 100644
index 0000000000..0eea8eb771
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/activation.py
@@ -0,0 +1,32 @@
+from abc import ABC
+from torch import nn
+from .base import BaseModule
+from .. import ops
+
+
+class Activation(BaseModule, ABC):
+    def __init__(self):
+        nn.Module.__init__(self)  # type: ignore
+        super().__init__(type(self)._op_type())
+
+    _op_type: type[ops.Activation]
+
+
+class ReLU(Activation):
+    _op_type = ops.ReLU
+
+
+class GELU(Activation):
+    _op_type = ops.GELU
+
+
+class ReGLU(Activation):
+    _op_type = ops.ReGLU
+
+
+class GeGLU(Activation):
+    _op_type = ops.GeGLU
+
+
+class SwiGLU(Activation):
+    _op_type = ops.SwiGLU
diff --git a/transformer_engine/pytorch/sequential/module/geglu.py b/transformer_engine/pytorch/sequential/module/geglu.py
deleted file mode 100644
index a594c3ff8a..0000000000
--- a/transformer_engine/pytorch/sequential/module/geglu.py
+++ /dev/null
@@ -1,9 +0,0 @@
-from torch import nn
-from .base import BaseModule
-from .. import ops
-
-
-class GeGLU(BaseModule):
-    def __init__(self):
-        nn.Module.__init__(self)  # type: ignore
-        super().__init__(ops.GeGLU())
diff --git a/transformer_engine/pytorch/sequential/module/gelu.py b/transformer_engine/pytorch/sequential/module/gelu.py
deleted file mode 100644
index 24e0125e2c..0000000000
--- a/transformer_engine/pytorch/sequential/module/gelu.py
+++ /dev/null
@@ -1,9 +0,0 @@
-from torch import nn
-from .base import BaseModule
-from .. import ops
-
-
-class GELU(BaseModule):
-    def __init__(self):
-        nn.Module.__init__(self)  # type: ignore
-        super().__init__(ops.GELU())
diff --git a/transformer_engine/pytorch/sequential/module/layernorm.py b/transformer_engine/pytorch/sequential/module/normalization.py
similarity index 53%
rename from transformer_engine/pytorch/sequential/module/layernorm.py
rename to transformer_engine/pytorch/sequential/module/normalization.py
index bced04b93c..2934fca686 100644
--- a/transformer_engine/pytorch/sequential/module/layernorm.py
+++ b/transformer_engine/pytorch/sequential/module/normalization.py
@@ -1,3 +1,4 @@
+from abc import ABC
 import torch
 from torch import nn
 from .base import BaseModule
@@ -5,7 +6,7 @@
 from ..nvte import make_nvte_tensor
 
 
-class LayerNorm(BaseModule):
+class Normalization(BaseModule, ABC):
     def __init__(
         self,
         features: int,
@@ -24,18 +25,39 @@ def __init__(
             if zero_centered_gamma
             else torch.ones(features, dtype=param_dtype, device="cuda")
         )
-        self.bias = nn.Parameter(
-            torch.zeros(features, dtype=param_dtype, device="cuda")
+        self.bias = (
+            nn.Parameter(torch.zeros(features, dtype=param_dtype, device="cuda"))
+            if type(self)._bias
+            else None
         )
 
         super().__init__(
-            ops.LayerNorm(
-                eps,
-                zero_centered_gamma,
-                make_nvte_tensor(self.weight),
-                make_nvte_tensor(self.bias),
+            type(self)._op_type(
+                *(
+                    (
+                        eps,
+                        zero_centered_gamma,
+                        make_nvte_tensor(self.weight),
+                    )
+                    + (make_nvte_tensor(self.bias),)
+                    if self.bias is not None
+                    else ()
+                )
             )
         )
 
     def extra_repr(self):
         return f"features={self.features}, eps={self.eps}, zero_centered_gamma={self.zero_centered_gamma}"
+
+    _bias: bool
+    _op_type: type[ops.Op]
+
+
+class LayerNorm(Normalization):
+    _bias = True
+    _op_type = ops.LayerNorm
+
+
+class RMSNorm(Normalization):
+    _bias = False
+    _op_type = ops.RMSNorm
diff --git a/transformer_engine/pytorch/sequential/module/reglu.py b/transformer_engine/pytorch/sequential/module/reglu.py
deleted file mode 100644
index 1bc4d16a25..0000000000
--- a/transformer_engine/pytorch/sequential/module/reglu.py
+++ /dev/null
@@ -1,9 +0,0 @@
-from torch import nn
-from .base import BaseModule
-from .. import ops
-
-
-class ReGLU(BaseModule):
-    def __init__(self):
-        nn.Module.__init__(self)  # type: ignore
-        super().__init__(ops.ReGLU())
diff --git a/transformer_engine/pytorch/sequential/module/relu.py b/transformer_engine/pytorch/sequential/module/relu.py
deleted file mode 100644
index e41068fe4a..0000000000
--- a/transformer_engine/pytorch/sequential/module/relu.py
+++ /dev/null
@@ -1,9 +0,0 @@
-from torch import nn
-from .base import BaseModule
-from .. import ops
-
-
-class ReLU(BaseModule):
-    def __init__(self):
-        nn.Module.__init__(self)  # type: ignore
-        super().__init__(ops.ReLU())
diff --git a/transformer_engine/pytorch/sequential/module/rmsnorm.py b/transformer_engine/pytorch/sequential/module/rmsnorm.py
deleted file mode 100644
index eb7528a7ab..0000000000
--- a/transformer_engine/pytorch/sequential/module/rmsnorm.py
+++ /dev/null
@@ -1,33 +0,0 @@
-import torch
-from torch import nn
-from .base import BaseModule
-from .. import ops
-from ..nvte import make_nvte_tensor
-
-
-class RMSNorm(BaseModule):
-    def __init__(
-        self,
-        features: int,
-        eps: float = 1e-5,
-        zero_centered_gamma: bool = False,
-        param_dtype: torch.dtype = torch.get_default_dtype(),
-    ):
-        nn.Module.__init__(self)  # type: ignore
-
-        self.features = features
-        self.eps = eps
-        self.zero_centered_gamma = zero_centered_gamma
-
-        self.weight = nn.Parameter(
-            torch.zeros(features, dtype=param_dtype, device="cuda")
-            if zero_centered_gamma
-            else torch.ones(features, dtype=param_dtype, device="cuda")
-        )
-
-        super().__init__(
-            ops.RMSNorm(eps, zero_centered_gamma, make_nvte_tensor(self.weight))
-        )
-
-    def extra_repr(self):
-        return f"features={self.features}, eps={self.eps}, zero_centered_gamma={self.zero_centered_gamma}"
diff --git a/transformer_engine/pytorch/sequential/module/swiglu.py b/transformer_engine/pytorch/sequential/module/swiglu.py
deleted file mode 100644
index 7a0f67937c..0000000000
--- a/transformer_engine/pytorch/sequential/module/swiglu.py
+++ /dev/null
@@ -1,9 +0,0 @@
-from torch import nn
-from .base import BaseModule
-from .. import ops
-
-
-class SwiGLU(BaseModule):
-    def __init__(self):
-        nn.Module.__init__(self)  # type: ignore
-        super().__init__(ops.SwiGLU())
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index 01b33be8ab..7e7f66beb3 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -12,7 +12,7 @@
 )
 from .dtype import te_to_torch_dtype, torch_to_te_dtype, bit_width, dtype_name, is_fp8
 from .empty import empty, empty_like, multi_empty_share_metadata
-from .activations import (
+from .activation import (
     relu,
     drelu,
     reglu,
diff --git a/transformer_engine/pytorch/sequential/nvte/activations.py b/transformer_engine/pytorch/sequential/nvte/activation.py
similarity index 100%
rename from transformer_engine/pytorch/sequential/nvte/activations.py
rename to transformer_engine/pytorch/sequential/nvte/activation.py
diff --git a/transformer_engine/pytorch/sequential/ops/__init__.py b/transformer_engine/pytorch/sequential/ops/__init__.py
index bb2e87e718..cb0372bd1d 100644
--- a/transformer_engine/pytorch/sequential/ops/__init__.py
+++ b/transformer_engine/pytorch/sequential/ops/__init__.py
@@ -1,9 +1,5 @@
 from .op import Op, Context, Grads
-from .relu import ReLU
-from .gelu import GELU
-from .reglu import ReGLU
-from .geglu import GeGLU
-from .swiglu import SwiGLU
+from .activation import Activation, ReLU, GELU, ReGLU, GeGLU, SwiGLU
 from .layernorm import LayerNorm
 from .rmsnorm import RMSNorm
 from .mmt import MMT
@@ -13,6 +9,7 @@
     "Op",
     "Context",
     "Grads",
+    "Activation",
     "ReLU",
     "GELU",
     "ReGLU",
diff --git a/transformer_engine/pytorch/sequential/ops/reglu.py b/transformer_engine/pytorch/sequential/ops/activation.py
similarity index 51%
rename from transformer_engine/pytorch/sequential/ops/reglu.py
rename to transformer_engine/pytorch/sequential/ops/activation.py
index 38b9c4ddd9..2cd2f46911 100644
--- a/transformer_engine/pytorch/sequential/ops/reglu.py
+++ b/transformer_engine/pytorch/sequential/ops/activation.py
@@ -1,9 +1,11 @@
 from __future__ import annotations
+from typing import Callable
+from abc import ABC
 from .. import nvte
 from .op import Grads, Op, Context
 
 
-class ReGLU(Op):
+class Activation(Op, ABC):
     def __init__(
         self,
         x_dtype: nvte.DType | None = None,
@@ -22,7 +24,7 @@ def inference(self, x: nvte.Tensor):
     def forward(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
 
-        y = nvte.reglu(x, self.y_dtype)
+        y = type(self)._forward(x, self.y_dtype)
 
         return y, {"x": x}
 
@@ -30,12 +32,47 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         x = ctx["x"]
         dy = nvte.cast_checked(dy, self.dy_dtype)
 
-        dx = nvte.dreglu(dy, x, self.dx_dtype)
+        dx = type(self)._backward(dy, x, self.dx_dtype)
 
         return dx, Grads()
 
     def require_grad(self):
         return list[nvte.Tensor]()
 
+    _forward: Callable[[nvte.Tensor, nvte.DType], nvte.Tensor]
+    _backward: Callable[[nvte.Tensor, nvte.Tensor, nvte.DType], nvte.Tensor]
 
-__all__ = ["ReGLU"]
+
+class ReLU(Activation):
+    _forward = nvte.relu
+    _backward = nvte.drelu
+
+
+class GELU(Activation):
+    _forward = nvte.gelu
+    _backward = nvte.dgelu
+
+
+class ReGLU(Activation):
+    _forward = nvte.reglu
+    _backward = nvte.dreglu
+
+
+class GeGLU(Activation):
+    _forward = nvte.geglu
+    _backward = nvte.dgeglu
+
+
+class SwiGLU(Activation):
+    _forward = nvte.swiglu
+    _backward = nvte.dswiglu
+
+
+__all__ = [
+    "Activation",
+    "ReLU",
+    "GELU",
+    "ReGLU",
+    "GeGLU",
+    "SwiGLU",
+]
diff --git a/transformer_engine/pytorch/sequential/ops/geglu.py b/transformer_engine/pytorch/sequential/ops/geglu.py
deleted file mode 100644
index b42dd1f28c..0000000000
--- a/transformer_engine/pytorch/sequential/ops/geglu.py
+++ /dev/null
@@ -1,41 +0,0 @@
-from __future__ import annotations
-from .. import nvte
-from .op import Grads, Op, Context
-
-
-class GeGLU(Op):
-    def __init__(
-        self,
-        x_dtype: nvte.DType | None = None,
-        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-    ):
-        self.x_dtype = x_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
-
-    def inference(self, x: nvte.Tensor):
-        return self.forward(x)[0]
-
-    def forward(self, x: nvte.Tensor):
-        x = nvte.cast_checked(x, self.x_dtype)
-
-        y = nvte.geglu(x, self.y_dtype)
-
-        return y, {"x": x}
-
-    def backward(self, ctx: Context, dy: nvte.Tensor):
-        x = ctx["x"]
-        dy = nvte.cast_checked(dy, self.dy_dtype)
-
-        dx = nvte.dgeglu(dy, x, self.dx_dtype)
-
-        return dx, Grads()
-
-    def require_grad(self):
-        return list[nvte.Tensor]()
-
-
-__all__ = ["GeGLU"]
diff --git a/transformer_engine/pytorch/sequential/ops/gelu.py b/transformer_engine/pytorch/sequential/ops/gelu.py
deleted file mode 100644
index 660e7b621a..0000000000
--- a/transformer_engine/pytorch/sequential/ops/gelu.py
+++ /dev/null
@@ -1,41 +0,0 @@
-from __future__ import annotations
-from .. import nvte
-from .op import Grads, Op, Context
-
-
-class GELU(Op):
-    def __init__(
-        self,
-        x_dtype: nvte.DType | None = None,
-        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-    ):
-        self.x_dtype = x_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
-
-    def inference(self, x: nvte.Tensor):
-        return self.forward(x)[0]
-
-    def forward(self, x: nvte.Tensor):
-        x = nvte.cast_checked(x, self.x_dtype)
-
-        y = nvte.gelu(x, self.y_dtype)
-
-        return y, {"x": x}
-
-    def backward(self, ctx: Context, dy: nvte.Tensor):
-        x = ctx["x"]
-        dy = nvte.cast_checked(dy, self.dy_dtype)
-
-        dx = nvte.dgelu(dy, x, self.dx_dtype)
-
-        return dx, Grads()
-
-    def require_grad(self):
-        return list[nvte.Tensor]()
-
-
-__all__ = ["GELU"]
diff --git a/transformer_engine/pytorch/sequential/ops/relu.py b/transformer_engine/pytorch/sequential/ops/relu.py
deleted file mode 100644
index 13bb92b6b1..0000000000
--- a/transformer_engine/pytorch/sequential/ops/relu.py
+++ /dev/null
@@ -1,41 +0,0 @@
-from __future__ import annotations
-from .. import nvte
-from .op import Grads, Op, Context
-
-
-class ReLU(Op):
-    def __init__(
-        self,
-        x_dtype: nvte.DType | None = None,
-        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-    ):
-        self.x_dtype = x_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
-
-    def inference(self, x: nvte.Tensor):
-        return self.forward(x)[0]
-
-    def forward(self, x: nvte.Tensor):
-        x = nvte.cast_checked(x, self.x_dtype)
-
-        y = nvte.relu(x, self.y_dtype)
-
-        return y, {"x": x}
-
-    def backward(self, ctx: Context, dy: nvte.Tensor):
-        x = ctx["x"]
-        dy = nvte.cast_checked(dy, self.dy_dtype)
-
-        dx = nvte.drelu(dy, x, self.dx_dtype)
-
-        return dx, Grads()
-
-    def require_grad(self):
-        return list[nvte.Tensor]()
-
-
-__all__ = ["ReLU"]
diff --git a/transformer_engine/pytorch/sequential/ops/swiglu.py b/transformer_engine/pytorch/sequential/ops/swiglu.py
deleted file mode 100644
index e6061369a2..0000000000
--- a/transformer_engine/pytorch/sequential/ops/swiglu.py
+++ /dev/null
@@ -1,41 +0,0 @@
-from __future__ import annotations
-from .. import nvte
-from .op import Grads, Op, Context
-
-
-class SwiGLU(Op):
-    def __init__(
-        self,
-        x_dtype: nvte.DType | None = None,
-        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-    ):
-        self.x_dtype = x_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
-
-    def inference(self, x: nvte.Tensor):
-        return self.forward(x)[0]
-
-    def forward(self, x: nvte.Tensor):
-        x = nvte.cast_checked(x, self.x_dtype)
-
-        y = nvte.swiglu(x, self.y_dtype)
-
-        return y, {"x": x}
-
-    def backward(self, ctx: Context, dy: nvte.Tensor):
-        x = ctx["x"]
-        dy = nvte.cast_checked(dy, self.dy_dtype)
-
-        dx = nvte.dswiglu(dy, x, self.dx_dtype)
-
-        return dx, Grads()
-
-    def require_grad(self):
-        return list[nvte.Tensor]()
-
-
-__all__ = ["SwiGLU"]

From 005622344e5655fbfe53de2c5a8e03df47e30cb2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 12:54:46 +0200
Subject: [PATCH 119/535] allow for None output dtypes

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/README.md              |  4 +--
 .../pytorch/sequential/ops/activation.py      | 17 +++++-----
 .../pytorch/sequential/ops/add.py             | 19 +++++------
 .../pytorch/sequential/ops/layernorm.py       | 30 ++++++++++-------
 .../pytorch/sequential/ops/mmt.py             | 23 ++++++-------
 .../pytorch/sequential/ops/op.py              | 32 +++++++++++++++++++
 .../pytorch/sequential/ops/rmsnorm.py         | 25 +++++++++------
 7 files changed, 98 insertions(+), 52 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/README.md b/transformer_engine/pytorch/sequential/README.md
index 682a3b2938..abc1cae054 100644
--- a/transformer_engine/pytorch/sequential/README.md
+++ b/transformer_engine/pytorch/sequential/README.md
@@ -105,7 +105,7 @@ Let's say you're adding `awesomeLU`:
         4. Provide defaults for these types to allow for constructing the operation object `AwesomeLu` without having to explicitly specify the types. Choose such default types that will result in optimal performance in the FP8 computational regime.
     2. In `AwesomeLU.require_grad` return the list of all tensor attributes of `AwesomeLU` that require gradients.
     3. In `AwesomeLU.forward` provide the implementation of the forward pass of the operation:
-        1. The input activation is to be taken as an argument to the `forward` function. _Note: Contrary to Pytorch, any parameters or configuration, can be conveniently accessed using the `self` object._
+        1. The input activation is to be taken as an argument to the `forward` function. _Note: Contrary to Pytorch's `autograd.Function`, any parameters or configuration, can be conveniently accessed using the `self` object._
             ```
             def forward(self, x: nvte.Tensor):
             ```
@@ -122,7 +122,7 @@ Let's say you're adding `awesomeLU`:
         4. If no auxilary tensors are needed for the backward pass, return an empty context.
     4. In `AwesomeLU.inference` provide the implementation of the forward pass of the operation, optimized for inference-time use.
     5. In `AwesomeLU.backward` provide the implementation of the backward pass of the operation:
-        1. Retrieve the tensors stored in the forward pass inside the context, by using their keys. **Do not** attempt to access other keys of the dictionary. Example:
+        1. Retrieve the tensors stored in the forward pass inside the context, by using their keys. **Do not** attempt to access other keys of the dictionary. **Do not** use `Tensor`s stored in the `self` object for computations. Note: You **may** access the attributes to, for example, access the `dtype` of a tensor, but you **must not** access the tensor's `data` or other numerical data. Example:
             ```
             def backward(self, ctx: Context, dy: nvte.Tensor):
                 x, weight, mu, rsigma = ctx["x"], ctx["weight"], ctx["mu"], ctx["rsigma"]
diff --git a/transformer_engine/pytorch/sequential/ops/activation.py b/transformer_engine/pytorch/sequential/ops/activation.py
index 2cd2f46911..0504f4da9f 100644
--- a/transformer_engine/pytorch/sequential/ops/activation.py
+++ b/transformer_engine/pytorch/sequential/ops/activation.py
@@ -8,15 +8,16 @@
 class Activation(Op, ABC):
     def __init__(
         self,
+        *,
         x_dtype: nvte.DType | None = None,
         dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
+        y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
     ):
-        self.x_dtype = x_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
+        self._x_dtype = x_dtype
+        self._dy_dtype = dy_dtype
+        self._y_dtype = y_dtype
+        self._dx_dtype = dx_dtype
 
     def inference(self, x: nvte.Tensor):
         return self.forward(x)[0]
@@ -24,7 +25,7 @@ def inference(self, x: nvte.Tensor):
     def forward(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
 
-        y = type(self)._forward(x, self.y_dtype)
+        y = type(self)._forward(x, self.y_dtype or self.x_dtype or x.dtype)
 
         return y, {"x": x}
 
@@ -32,7 +33,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         x = ctx["x"]
         dy = nvte.cast_checked(dy, self.dy_dtype)
 
-        dx = type(self)._backward(dy, x, self.dx_dtype)
+        dx = type(self)._backward(dy, x, self.dx_dtype or dy.dtype)
 
         return dx, Grads()
 
diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/ops/add.py
index 1be851cf18..87006c6285 100644
--- a/transformer_engine/pytorch/sequential/ops/add.py
+++ b/transformer_engine/pytorch/sequential/ops/add.py
@@ -7,19 +7,20 @@ class Add(Op):
     def __init__(
         self,
         bias: nvte.Tensor,
+        *,
         x_dtype: nvte.DType | None = None,
         bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-        dbias_dtype: nvte.DType = nvte.DType.BFloat16,
+        y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dbias_dtype: nvte.DType | None = nvte.DType.BFloat16,
     ):
         self.bias = bias
-        self.x_dtype = x_dtype
+        self._x_dtype = x_dtype
         self.bias_dtype = bias_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
+        self._dy_dtype = dy_dtype
+        self._y_dtype = y_dtype
+        self._dx_dtype = dx_dtype
         self.dbias_dtype = dbias_dtype
 
     def inference(self, x: nvte.Tensor):
@@ -29,7 +30,7 @@ def forward(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
         bias = nvte.cast_checked(self.bias, self.bias_dtype)
 
-        y = nvte.add(x, bias, self.y_dtype)
+        y = nvte.add(x, bias, self.y_dtype or x.dtype)
 
         return y, Context()
 
@@ -38,7 +39,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         dy = nvte.cast_checked(dy, self.dy_dtype)
 
         dx = nvte.cast_checked(dy, self.dx_dtype)
-        dbias = nvte.dbias(dy, self.dbias_dtype)
+        dbias = nvte.dbias(dy, self.dbias_dtype or self.bias.dtype)
 
         return dx, [dbias]
 
diff --git a/transformer_engine/pytorch/sequential/ops/layernorm.py b/transformer_engine/pytorch/sequential/ops/layernorm.py
index 377b353612..85706dd7e8 100644
--- a/transformer_engine/pytorch/sequential/ops/layernorm.py
+++ b/transformer_engine/pytorch/sequential/ops/layernorm.py
@@ -10,25 +10,26 @@ def __init__(
         zero_centered_gamma: bool,
         weight: nvte.Tensor,
         bias: nvte.Tensor,
+        *,
         x_dtype: nvte.DType | None = nvte.DType.BFloat16,
         weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = None,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
-        dbias_dtype: nvte.DType = nvte.DType.BFloat16,
+        y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dweight_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dbias_dtype: nvte.DType | None = nvte.DType.BFloat16,
     ):
         self.eps = eps
         self.zero_centered_gamma = zero_centered_gamma
         self.weight = weight
         self.bias = bias
-        self.x_dtype = x_dtype
+        self._x_dtype = x_dtype
         self.weight_dtype = weight_dtype
         self.bias_dtype = bias_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
+        self._dy_dtype = dy_dtype
+        self._y_dtype = y_dtype
+        self._dx_dtype = dx_dtype
         self.dweight_dtype = dweight_dtype
         self.dbias_dtype = dbias_dtype
 
@@ -41,7 +42,12 @@ def forward(self, x: nvte.Tensor):
         bias = nvte.cast_checked(self.bias, self.bias_dtype)
 
         y, mu, rsigma = nvte.layernorm(
-            x, self.eps, self.zero_centered_gamma, weight, bias, self.y_dtype
+            x,
+            self.eps,
+            self.zero_centered_gamma,
+            weight,
+            bias,
+            self.y_dtype or x.dtype,
         )
 
         return y, {"x": x, "weight": weight, "mu": mu, "rsigma": rsigma}
@@ -57,9 +63,9 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
             weight,
             mu,
             rsigma,
-            self.dx_dtype,
-            self.dweight_dtype,
-            self.dbias_dtype,
+            self.dx_dtype or dy.dtype,
+            self.dweight_dtype or self.weight.dtype,
+            self.dbias_dtype or self.bias.dtype,
         )
 
         return dx, [dweight, dbias]
diff --git a/transformer_engine/pytorch/sequential/ops/mmt.py b/transformer_engine/pytorch/sequential/ops/mmt.py
index 06727c2060..165d1a03e8 100644
--- a/transformer_engine/pytorch/sequential/ops/mmt.py
+++ b/transformer_engine/pytorch/sequential/ops/mmt.py
@@ -7,26 +7,27 @@ class MMT(Op):
     def __init__(
         self,
         weight: nvte.Tensor,
+        *,
         x_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
+        y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dweight_dtype: nvte.DType | None = nvte.DType.BFloat16,
     ):
         self.weight = weight
-        self.x_dtype = x_dtype
+        self._x_dtype = x_dtype
         self.weight_dtype = weight_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
+        self._dy_dtype = dy_dtype
+        self._y_dtype = y_dtype
+        self._dx_dtype = dx_dtype
         self.dweight_dtype = dweight_dtype
 
     def inference(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
         weight = nvte.cast_checked(self.weight, self.weight_dtype)
 
-        y = nvte.matmul_transpose(x, weight, self.y_dtype)
+        y = nvte.matmul_transpose(x, weight, self.y_dtype or x.dtype)
 
         return y
 
@@ -35,7 +36,7 @@ def forward(self, x: nvte.Tensor):
             (x, self.x_dtype), (self.weight, self.weight_dtype)
         )
 
-        y = nvte.matmul_transpose(x, weight, self.y_dtype)
+        y = nvte.matmul_transpose(x, weight, self.y_dtype or x.dtype)
 
         return y, {"x_t": x_t, "weight_t": weight_t}
 
@@ -43,8 +44,8 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         x_t, weight_t = ctx["x_t"], ctx["weight_t"]
         dy, dy_t = nvte.cast_transpose_checked(dy, self.dy_dtype)
 
-        dx = nvte.matmul_transpose(dy, weight_t, self.dx_dtype)
-        dweight = nvte.matmul_transpose(x_t, dy_t, self.dweight_dtype)
+        dx = nvte.matmul_transpose(dy, weight_t, self.dx_dtype or dy.dtype)
+        dweight = nvte.matmul_transpose(x_t, dy_t, self.dweight_dtype or self.weight.dtype)
 
         return dx, [dweight]
 
diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/ops/op.py
index 220e557c34..b469d1c0a0 100644
--- a/transformer_engine/pytorch/sequential/ops/op.py
+++ b/transformer_engine/pytorch/sequential/ops/op.py
@@ -7,6 +7,17 @@
 
 
 class Op(ABC):
+    @abstractmethod
+    def __init__(
+        self,
+        *,
+        x_dtype: nvte.DType | None,
+        y_dtype: nvte.DType | None,
+        dy_dtype: nvte.DType | None,
+        dx_dtype: nvte.DType | None,
+    ):
+        ...
+
     @abstractmethod
     def inference(self, x: nvte.Tensor) -> nvte.Tensor:
         ...
@@ -26,5 +37,26 @@ def require_grad(self) -> list[nvte.Tensor]:
     def __repr__(self):
         return self.__class__.__name__
 
+    @property
+    def x_dtype(self):
+        return self._x_dtype
+
+    @property
+    def y_dtype(self):
+        return self._y_dtype or self.x_dtype
+
+    @property
+    def dy_dtype(self):
+        return self._dy_dtype
+
+    @property
+    def dx_dtype(self):
+        return self._dx_dtype or self._dy_dtype
+
+    _x_dtype: nvte.DType | None
+    _y_dtype: nvte.DType | None
+    _dy_dtype: nvte.DType | None
+    _dx_dtype: nvte.DType | None
+
 
 __all__ = ["Op", "Context", "Grads"]
diff --git a/transformer_engine/pytorch/sequential/ops/rmsnorm.py b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
index fbf6fee166..c6658645a8 100644
--- a/transformer_engine/pytorch/sequential/ops/rmsnorm.py
+++ b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
@@ -9,21 +9,22 @@ def __init__(
         eps: float,
         zero_centered_gamma: bool,
         weight: nvte.Tensor,
+        *,
         x_dtype: nvte.DType | None = nvte.DType.BFloat16,
         weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = None,
-        y_dtype: nvte.DType = nvte.DType.Float8E4M3,
-        dx_dtype: nvte.DType = nvte.DType.BFloat16,
-        dweight_dtype: nvte.DType = nvte.DType.BFloat16,
+        y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dweight_dtype: nvte.DType | None = nvte.DType.BFloat16,
     ):
         self.eps = eps
         self.zero_centered_gamma = zero_centered_gamma
         self.weight = weight
-        self.x_dtype = x_dtype
+        self._x_dtype = x_dtype
         self.weight_dtype = weight_dtype
-        self.dy_dtype = dy_dtype
-        self.y_dtype = y_dtype
-        self.dx_dtype = dx_dtype
+        self._dy_dtype = dy_dtype
+        self._y_dtype = y_dtype
+        self._dx_dtype = dx_dtype
         self.dweight_dtype = dweight_dtype
 
     def inference(self, x: nvte.Tensor):
@@ -34,7 +35,11 @@ def forward(self, x: nvte.Tensor):
         weight = nvte.cast_checked(self.weight, self.weight_dtype)
 
         y, rsigma = nvte.rmsnorm(
-            x, self.eps, self.zero_centered_gamma, weight, self.y_dtype
+            x,
+            self.eps,
+            self.zero_centered_gamma,
+            weight,
+            self.y_dtype or x.dtype,
         )
 
         return y, {"x": x, "weight": weight, "rsigma": rsigma}
@@ -49,8 +54,8 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
             x,
             weight,
             rsigma,
-            self.dx_dtype,
-            self.dweight_dtype,
+            self.dx_dtype or dy.dtype,
+            self.dweight_dtype or self.weight.dtype,
         )
 
         return dx, [dweight]

From c27c1de21e65c52aee2f4a518e7ddc0ac527e708 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 16:10:50 +0200
Subject: [PATCH 120/535] provide default inference implementation

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/ops/activation.py | 3 ---
 transformer_engine/pytorch/sequential/ops/add.py        | 3 ---
 transformer_engine/pytorch/sequential/ops/layernorm.py  | 3 ---
 transformer_engine/pytorch/sequential/ops/op.py         | 5 ++---
 transformer_engine/pytorch/sequential/ops/rmsnorm.py    | 3 ---
 5 files changed, 2 insertions(+), 15 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/ops/activation.py b/transformer_engine/pytorch/sequential/ops/activation.py
index 0504f4da9f..a602e363ee 100644
--- a/transformer_engine/pytorch/sequential/ops/activation.py
+++ b/transformer_engine/pytorch/sequential/ops/activation.py
@@ -19,9 +19,6 @@ def __init__(
         self._y_dtype = y_dtype
         self._dx_dtype = dx_dtype
 
-    def inference(self, x: nvte.Tensor):
-        return self.forward(x)[0]
-
     def forward(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
 
diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/ops/add.py
index 87006c6285..5088e13eb2 100644
--- a/transformer_engine/pytorch/sequential/ops/add.py
+++ b/transformer_engine/pytorch/sequential/ops/add.py
@@ -23,9 +23,6 @@ def __init__(
         self._dx_dtype = dx_dtype
         self.dbias_dtype = dbias_dtype
 
-    def inference(self, x: nvte.Tensor):
-        return self.forward(x)[0]
-
     def forward(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
         bias = nvte.cast_checked(self.bias, self.bias_dtype)
diff --git a/transformer_engine/pytorch/sequential/ops/layernorm.py b/transformer_engine/pytorch/sequential/ops/layernorm.py
index 85706dd7e8..ef538c7e72 100644
--- a/transformer_engine/pytorch/sequential/ops/layernorm.py
+++ b/transformer_engine/pytorch/sequential/ops/layernorm.py
@@ -33,9 +33,6 @@ def __init__(
         self.dweight_dtype = dweight_dtype
         self.dbias_dtype = dbias_dtype
 
-    def inference(self, x: nvte.Tensor):
-        return self.forward(x)[0]
-
     def forward(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
         weight = nvte.cast_checked(self.weight, self.weight_dtype)
diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/ops/op.py
index b469d1c0a0..0b4144bfba 100644
--- a/transformer_engine/pytorch/sequential/ops/op.py
+++ b/transformer_engine/pytorch/sequential/ops/op.py
@@ -18,9 +18,8 @@ def __init__(
     ):
         ...
 
-    @abstractmethod
-    def inference(self, x: nvte.Tensor) -> nvte.Tensor:
-        ...
+    def inference(self, x: nvte.Tensor):
+        return self.forward(x)[0]
 
     @abstractmethod
     def forward(self, x: nvte.Tensor) -> tuple[nvte.Tensor, Context]:
diff --git a/transformer_engine/pytorch/sequential/ops/rmsnorm.py b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
index c6658645a8..e5bc5b61ac 100644
--- a/transformer_engine/pytorch/sequential/ops/rmsnorm.py
+++ b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
@@ -27,9 +27,6 @@ def __init__(
         self._dx_dtype = dx_dtype
         self.dweight_dtype = dweight_dtype
 
-    def inference(self, x: nvte.Tensor):
-        return self.forward(x)[0]
-
     def forward(self, x: nvte.Tensor):
         x = nvte.cast_checked(x, self.x_dtype)
         weight = nvte.cast_checked(self.weight, self.weight_dtype)

From 2fe4547491b823c73e21a59e12cd98ca5f636364 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 16:12:12 +0200
Subject: [PATCH 121/535] provide defaults for dtype

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/ops/op.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/ops/op.py
index 0b4144bfba..85830c0754 100644
--- a/transformer_engine/pytorch/sequential/ops/op.py
+++ b/transformer_engine/pytorch/sequential/ops/op.py
@@ -11,10 +11,10 @@ class Op(ABC):
     def __init__(
         self,
         *,
-        x_dtype: nvte.DType | None,
-        y_dtype: nvte.DType | None,
-        dy_dtype: nvte.DType | None,
-        dx_dtype: nvte.DType | None,
+        x_dtype: nvte.DType | None = None,
+        y_dtype: nvte.DType | None = None,
+        dy_dtype: nvte.DType | None = None,
+        dx_dtype: nvte.DType | None = None,
     ):
         ...
 

From e599c13d0a5857366e56feb912d4c13b6cc092de Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 16:17:09 +0200
Subject: [PATCH 122/535] return tensor with correct dtype

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/fusions/mmt.py         | 42 ++++++++++++-------
 1 file changed, 26 insertions(+), 16 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/fusions/mmt.py b/transformer_engine/pytorch/sequential/fusions/mmt.py
index 8715d1174a..572dfd29d4 100644
--- a/transformer_engine/pytorch/sequential/fusions/mmt.py
+++ b/transformer_engine/pytorch/sequential/fusions/mmt.py
@@ -17,7 +17,9 @@ def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
     bias = nvte.cast_checked(add.bias, add.bias_dtype)
 
-    y = nvte.matmul_transpose_add(x, weight, bias, add.y_dtype)
+    y = nvte.matmul_transpose_add(
+        x, weight, bias, add.y_dtype or mmt.dy_dtype or x.dtype
+    )
 
     return y
 
@@ -29,7 +31,9 @@ def mmt_add_fwd_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     )
     bias = nvte.cast_checked(add.bias, add.bias_dtype)
 
-    y = nvte.matmul_transpose_add(x, weight, bias, add.y_dtype)
+    y = nvte.matmul_transpose_add(
+        x, weight, bias, add.y_dtype or mmt.dy_dtype or x.dtype
+    )
 
     return y, ({"x_t": x_t, "weight_t": weight_t}, Context())
 
@@ -45,11 +49,11 @@ def mmt_add_bwd_fused(
     del add_ctx
     x_t, weight_t = mmt_ctx["x_t"], mmt_ctx["weight_t"]
     dy, dy_t, dbias = nvte.cast_transpose_dbias_checked(
-        dy, mmt.dy_dtype, add.dbias_dtype
+        dy, mmt.dy_dtype, add.dbias_dtype or add.bias.dtype
     )
 
-    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype)
-    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
+    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype or add.dx_dtype or dy.dtype)
+    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype or mmt.weight.dtype)
 
     return dx, ([dweight], [dbias])
 
@@ -61,7 +65,9 @@ def mmt_add_gelu_inf_fused(mmt: MMT, add: Add, gelu: GELU, x: nvte.Tensor):
     weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
     bias = nvte.cast_checked(add.bias, add.bias_dtype)
 
-    _, y = nvte.matmul_transpose_add_gelu(x, weight, bias, gelu.y_dtype)
+    _, y = nvte.matmul_transpose_add_gelu(
+        x, weight, bias, gelu.y_dtype or add.y_dtype or mmt.y_dtype or x.dtype
+    )
 
     return y
 
@@ -73,7 +79,9 @@ def mmt_add_gelu_fwd_fused(mmt: MMT, add: Add, gelu: GELU, x: nvte.Tensor):
     )
     bias = nvte.cast_checked(add.bias, add.bias_dtype)
 
-    pre_gelu, y = nvte.matmul_transpose_add_gelu(x, weight, bias, gelu.y_dtype)
+    pre_gelu, y = nvte.matmul_transpose_add_gelu(
+        x, weight, bias, gelu.y_dtype or add.y_dtype or mmt.y_dtype or x.dtype
+    )
 
     return y, ({"x_t": x_t, "weight_t": weight_t}, Context(), {"x": pre_gelu})
 
@@ -88,15 +96,16 @@ def mmt_add_gelu_bwd_fused(
     gelu_ctx: Context,
     dy: nvte.Tensor,
 ):
-    del gelu
     del add_ctx
     x_t, weight_t, pre_gelu = mmt_ctx["x_t"], mmt_ctx["weight_t"], gelu_ctx["x"]
     dy, dy_t, dbias = nvte.cast_transpose_dbias_dgelu_checked(
-        dy, pre_gelu, mmt.dy_dtype, add.dbias_dtype
+        dy, pre_gelu, mmt.dy_dtype, add.dbias_dtype or add.bias.dtype
     )
 
-    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype)
-    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
+    dx = nvte.matmul_transpose(
+        dy, weight_t, mmt.dx_dtype or add.dx_dtype or gelu.dx_dtype or dy.dtype
+    )
+    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype or mmt.weight.dtype)
 
     return dx, ([dweight], [dbias], Grads())
 
@@ -107,7 +116,7 @@ def mmt_gelu_inf_fused(mmt: MMT, gelu: GELU, x: nvte.Tensor):
     x = nvte.cast_checked(x, mmt.x_dtype)
     weight = nvte.cast_checked(mmt.weight, mmt.weight_dtype)
 
-    _, y = nvte.matmul_transpose_gelu(x, weight, gelu.y_dtype)
+    _, y = nvte.matmul_transpose_gelu(x, weight, gelu.y_dtype or mmt.y_dtype or x.dtype)
 
     return y
 
@@ -118,7 +127,9 @@ def mmt_gelu_fwd_fused(mmt: MMT, gelu: GELU, x: nvte.Tensor):
         (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
     )
 
-    pre_gelu, y = nvte.matmul_transpose_gelu(x, weight, gelu.y_dtype)
+    pre_gelu, y = nvte.matmul_transpose_gelu(
+        x, weight, gelu.y_dtype or mmt.y_dtype or x.dtype
+    )
 
     return y, ({"x_t": x_t, "weight_t": weight_t}, {"x": pre_gelu})
 
@@ -213,12 +224,11 @@ def mmt_add_gelu_add_fwd_fused(
 def mmt_geglu_bwd_fused(
     mmt: MMT, geglu: GeGLU, mmt_ctx: Context, geglu_ctx: Context, grad: nvte.Tensor
 ):
-    del geglu
     x_t, weight_t, pre_geglu = mmt_ctx["x_t"], mmt_ctx["weight_t"], geglu_ctx["x"]
     dy, dy_t = nvte.cast_transpose_dgeglu_checked(grad, pre_geglu, mmt.dy_dtype)
 
-    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype)
-    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype)
+    dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype or geglu.dx_dtype or dy.dtype)
+    dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype or mmt.weight.dtype)
 
     return dx, ([dweight], Grads())
 

From 06812a03b012977bd7b6d281f8c7f44973f716e4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 16:24:14 +0200
Subject: [PATCH 123/535] remove

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/__init__.py        | 2 --
 transformer_engine/pytorch/sequential/module/__init__.py | 2 --
 2 files changed, 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index b5f7c9e696..1ee8cf4a15 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -9,7 +9,6 @@
     RMSNorm,
     Linear,
     Sequential,
-    Residual,
 )
 from . import nvte, ops, fusions, module
 
@@ -25,7 +24,6 @@
     "RMSNorm",
     "Linear",
     "Sequential",
-    "Residual",
     # Python modules
     "nvte",
     "ops",
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
index 4956f3a727..114a72479c 100644
--- a/transformer_engine/pytorch/sequential/module/__init__.py
+++ b/transformer_engine/pytorch/sequential/module/__init__.py
@@ -2,7 +2,6 @@
 from .normalization import Normalization, LayerNorm, RMSNorm
 from .linear import Linear
 from .sequential import Sequential
-from .residual import Residual
 
 __all__ = [
     "Activation",
@@ -16,5 +15,4 @@
     "RMSNorm",
     "Linear",
     "Sequential",
-    "Residual",
 ]

From 40a60bca72396ae2799eefda2d2e9d1a088cd34c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 19:06:46 +0200
Subject: [PATCH 124/535] create stub for DPA impl

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../module/dot_product_attention.py           | 90 +++++++++++++++++++
 1 file changed, 90 insertions(+)
 create mode 100644 transformer_engine/pytorch/sequential/module/dot_product_attention.py

diff --git a/transformer_engine/pytorch/sequential/module/dot_product_attention.py b/transformer_engine/pytorch/sequential/module/dot_product_attention.py
new file mode 100644
index 0000000000..5fb8934b22
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/dot_product_attention.py
@@ -0,0 +1,90 @@
+from math import sqrt
+import torch
+from torch import nn
+from .base import BaseModule
+from ._common import ParameterInitMethod
+from .linear import _default_weight_init_method
+from .. import ops
+from ..nvte import DType, make_nvte_tensor
+
+
+class GroupedQuerySelfAttention(BaseModule):
+    def __init__(
+        self,
+        token_dim: int,
+        num_query_heads: int,
+        num_kv_heads: int,
+        causal_mask: bool = True,
+        param_dtype: torch.dtype = torch.get_default_dtype(),
+        weight_init_method: ParameterInitMethod = _default_weight_init_method,
+        proj_init_method: ParameterInitMethod = _default_weight_init_method,
+        attention_type: ops.Attention = ops.DotProductAttention,
+    ):
+        assert num_kv_heads <= num_query_heads
+        assert num_query_heads % num_kv_heads == 0
+        assert token_dim % num_query_heads == 0
+        nn.Module.__init__(self)  # type: ignore
+
+        kv_dim = token_dim // num_kv_heads
+        norm_factor = sqrt(kv_dim)
+
+        self.weight = nn.Parameter(
+            weight_init_method(
+                torch.empty(3 * token_dim, token_dim, dtype=param_dtype, device="cuda")
+            )
+        )
+        self.proj = nn.Parameter(
+            proj_init_method(
+                torch.empty(token_dim, token_dim, dtype=param_dtype, device="cuda")
+            )
+        )
+
+        return super().__init__(
+            # TODO
+        )
+
+
+class MultiQuerySelfAttention(GroupedQuerySelfAttention):
+    def __init__(
+        self,
+        token_dim: int,
+        num_query_heads: int,
+        causal_mask: bool = True,
+        param_dtype: torch.dtype = torch.get_default_dtype(),
+        weight_init_method: ParameterInitMethod = _default_weight_init_method,
+        proj_init_method: ParameterInitMethod = _default_weight_init_method,
+        attention_type: ops.Attention = ops.DotProductAttention,
+    ):
+        super().__init__(
+            token_dim,
+            num_query_heads,
+            1,
+            causal_mask,
+            param_dtype,
+            weight_init_method,
+            proj_init_method,
+            attention_type,
+        )
+
+
+class MultiHeadedSelfAttention(GroupedQuerySelfAttention):
+    def __init__(
+        self,
+        token_dim: int,
+        num_query_heads: int,
+        causal_mask: bool = True,
+        param_dtype: torch.dtype = torch.get_default_dtype(),
+        weight_init_method: ParameterInitMethod = _default_weight_init_method,
+        proj_init_method: ParameterInitMethod = _default_weight_init_method,
+        attention_type: ops.Attention = ops.DotProductAttention,
+    ):
+        super().__init__(
+            token_dim,
+            num_query_heads,
+            num_query_heads,
+            causal_mask,
+            param_dtype,
+            weight_init_method,
+            proj_init_method,
+            attention_type,
+        )

From c567418e33aae151f44036c6750ee32a98508ff6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 19:09:56 +0200
Subject: [PATCH 125/535] fix syntax error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/module/normalization.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/normalization.py b/transformer_engine/pytorch/sequential/module/normalization.py
index 2934fca686..800db39aa1 100644
--- a/transformer_engine/pytorch/sequential/module/normalization.py
+++ b/transformer_engine/pytorch/sequential/module/normalization.py
@@ -39,9 +39,7 @@ def __init__(
                         zero_centered_gamma,
                         make_nvte_tensor(self.weight),
                     )
-                    + (make_nvte_tensor(self.bias),)
-                    if self.bias is not None
-                    else ()
+                    + ((make_nvte_tensor(self.bias),) if self.bias is not None else ())
                 )
             )
         )

From adf08f09d3d3e837890103b735a7316524b92032 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 19:16:49 +0200
Subject: [PATCH 126/535] make test more readable

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/compare_pt_te_seq.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/tests/sequential/compare_pt_te_seq.py b/tests/sequential/compare_pt_te_seq.py
index 81a793fe7e..12d80101c4 100644
--- a/tests/sequential/compare_pt_te_seq.py
+++ b/tests/sequential/compare_pt_te_seq.py
@@ -29,7 +29,11 @@ def forward(self, x: torch.Tensor):
 
 
 def max_abs_diff(a: torch.Tensor, b: torch.Tensor):
-    return (a - b).abs().max().item()
+    v = (a - b).abs().max().item()
+    if v >= 0.001:
+        return f"\033[31m{v}\033[0m"
+    else:
+        return f"\033[32m{v}\033[0m"
 
 
 def cpy(dst: torch.Tensor, src: torch.Tensor):

From ae2ddc9aacc51d6e9370c95147dd65531ed00d98 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 19:17:54 +0200
Subject: [PATCH 127/535] fix issue with printing

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/compare_pt_te_seq.py | 14 +++++++-------
 1 file changed, 7 insertions(+), 7 deletions(-)

diff --git a/tests/sequential/compare_pt_te_seq.py b/tests/sequential/compare_pt_te_seq.py
index 12d80101c4..8c486c4c0a 100644
--- a/tests/sequential/compare_pt_te_seq.py
+++ b/tests/sequential/compare_pt_te_seq.py
@@ -31,7 +31,7 @@ def forward(self, x: torch.Tensor):
 def max_abs_diff(a: torch.Tensor, b: torch.Tensor):
     v = (a - b).abs().max().item()
     if v >= 0.001:
-        return f"\033[31m{v}\033[0m"
+        return f"\033[31m{v:12.10f}\033[0m"
     else:
         return f"\033[32m{v}\033[0m"
 
@@ -53,13 +53,13 @@ def cmp_modules(te: nn.Module, seq: nn.Module, pt: nn.Module):
     y_seq.sum().backward()
     y_pt.sum().backward()
 
-    print(f"mad(dx_te, dx_seq): {max_abs_diff(x_te.grad, x_seq.grad):12.10f}")
-    print(f"mad(dx_te,  dx_pt): {max_abs_diff(x_te.grad, x_pt.grad):12.10f}")
-    print(f"mad(dx_seq, dx_pt): {max_abs_diff(x_seq.grad,x_pt.grad):12.10f}")
+    print(f"mad(dx_te, dx_seq): {max_abs_diff(x_te.grad, x_seq.grad)}")
+    print(f"mad(dx_te,  dx_pt): {max_abs_diff(x_te.grad, x_pt.grad)}")
+    print(f"mad(dx_seq, dx_pt): {max_abs_diff(x_seq.grad,x_pt.grad)}")
 
-    print(f"mad( y_te,  y_seq): {max_abs_diff(y_te, y_seq):12.10f}")
-    print(f"mad( y_te,   y_pt): {max_abs_diff(y_te, y_pt):12.10f}")
-    print(f"mad( y_seq,  y_pt): {max_abs_diff(y_seq,y_pt):12.10f}")
+    print(f"mad( y_te,  y_seq): {max_abs_diff(y_te, y_seq)}")
+    print(f"mad( y_te,   y_pt): {max_abs_diff(y_te, y_pt)}")
+    print(f"mad( y_seq,  y_pt): {max_abs_diff(y_seq,y_pt)}")
 
 
 def cmp_layernorm_mlp(norm: str, act: str):

From 70beb4a7b889a6574908bbfec851f93d927a9277 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 19:18:40 +0200
Subject: [PATCH 128/535] add missing case

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/compare_pt_te_seq.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/sequential/compare_pt_te_seq.py b/tests/sequential/compare_pt_te_seq.py
index 8c486c4c0a..1ddaa9477c 100644
--- a/tests/sequential/compare_pt_te_seq.py
+++ b/tests/sequential/compare_pt_te_seq.py
@@ -33,7 +33,7 @@ def max_abs_diff(a: torch.Tensor, b: torch.Tensor):
     if v >= 0.001:
         return f"\033[31m{v:12.10f}\033[0m"
     else:
-        return f"\033[32m{v}\033[0m"
+        return f"\033[32m{v:12.10f}\033[0m"
 
 
 def cpy(dst: torch.Tensor, src: torch.Tensor):

From f5026d5222bf000493adad7a7167582b0ce2efcd Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 16 Aug 2023 19:21:32 +0200
Subject: [PATCH 129/535] repeat test

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/compare_pt_te_seq.py | 29 ++++++++++++++-------------
 1 file changed, 15 insertions(+), 14 deletions(-)

diff --git a/tests/sequential/compare_pt_te_seq.py b/tests/sequential/compare_pt_te_seq.py
index 1ddaa9477c..d9ab6da7d2 100644
--- a/tests/sequential/compare_pt_te_seq.py
+++ b/tests/sequential/compare_pt_te_seq.py
@@ -138,23 +138,24 @@ def cmp_linear_no_bias():
 print("\n ----- FP32 INPUT & WEIGHTS ------")
 x_src = torch.rand(SEQ_LEN, HIDDEN_DIM, device="cuda")
 
-print("\n### Comparing LayerNormMPL (gelu) ###")
-cmp_layernorm_mlp("LayerNorm", "gelu")
+for _ in range(10):
+    print("\n### Comparing LayerNormMPL (gelu) ###")
+    cmp_layernorm_mlp("LayerNorm", "gelu")
 
-print("\n### Comparing LayerNormMPL (relu) ###")
-cmp_layernorm_mlp("LayerNorm", "relu")
+    print("\n### Comparing LayerNormMPL (relu) ###")
+    cmp_layernorm_mlp("LayerNorm", "relu")
 
-print("\n### Comparing RMSNormMPL (gelu) ###")
-cmp_layernorm_mlp("RMSNorm", "gelu")
+    print("\n### Comparing RMSNormMPL (gelu) ###")
+    cmp_layernorm_mlp("RMSNorm", "gelu")
 
-print("\n### Comparing RMSNormMPL (relu) ###")
-cmp_layernorm_mlp("RMSNorm", "relu")
+    print("\n### Comparing RMSNormMPL (relu) ###")
+    cmp_layernorm_mlp("RMSNorm", "relu")
 
-print("\n### Comparing LayerNorm ###")
-cmp_layernorm()
+    print("\n### Comparing LayerNorm ###")
+    cmp_layernorm()
 
-print("\n### Comparing Linear ###")
-cmp_linear()
+    print("\n### Comparing Linear ###")
+    cmp_linear()
 
-print("\n### Comparing Linear (no bias) ###")
-cmp_linear_no_bias()
+    print("\n### Comparing Linear (no bias) ###")
+    cmp_linear_no_bias()

From 9c50152cbd335ff576a6e5cd267cc3dac10dba7e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 14:15:52 +0200
Subject: [PATCH 130/535] add 2 tests

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix1.py              | 248 ++++++++++
 tests/sequential/test_matrix2.py              | 433 ++++++++++++++++++
 .../pytorch/sequential/__init__.py            |   3 +
 3 files changed, 684 insertions(+)
 create mode 100644 tests/sequential/test_matrix1.py
 create mode 100644 tests/sequential/test_matrix2.py

diff --git a/tests/sequential/test_matrix1.py b/tests/sequential/test_matrix1.py
new file mode 100644
index 0000000000..68a29dac7f
--- /dev/null
+++ b/tests/sequential/test_matrix1.py
@@ -0,0 +1,248 @@
+import torch
+from torch import nn
+import transformer_engine.pytorch.sequential as seq
+import transformer_engine.pytorch as te
+
+BATCH_SIZE = 512
+IN_FEATURES = 768
+OUT_FEATURES = 4 * IN_FEATURES
+
+
+def cpy(dst: torch.Tensor, src: torch.Tensor):
+    dst.data = torch.as_tensor(src.data.clone().detach(), dtype=dst.dtype).detach()
+
+
+def max_abs_diff(ref: torch.Tensor, cand: torch.Tensor):
+    # ab = abs(cand-ref).max().item()
+    # rl = abs((cand-ref)/ref).max().item()
+    # s=""
+    # if ab < 0.001:
+    #     s += f"a:\033[32m{ab:18.5f}\033[0m,"
+    # elif ab< 0.1:
+    #     s += f"a:\033[33m{ab:18.5f}\033[0m,"
+    # else:
+    #     s += f"a:\033[31m{ab:18.5f}\033[0m,"
+
+    # if rl < 0.001:
+    #     s += f"r:\033[32m{rl:18.5f}\033[0m"
+    # elif rl< 0.1:
+    #     s += f"r:\033[33m{rl:18.5f}\033[0m"
+    # else:
+    #     s += f"r:\033[31m{rl:18.5f}\033[0m"
+    # return s
+
+    try:
+        torch.testing.assert_close(cand, ref, atol=1e-5, rtol=1e-3)
+        ok = True
+    except AssertionError as e:
+        ok = False
+        print(str(e))
+
+    if ok:
+        return "\033[32mOK\033[0m"
+    else:
+        return "\033[31mWA\033[0m"
+
+
+def test(
+    enable_first_linear: bool,
+    use_te_linear: bool,
+    use_te_act: bool,
+    use_relu: bool,
+    use_gelu: bool,
+    div_std: bool,
+    enable_second_linear: bool,
+    lin1_w: torch.Tensor,
+    lin1_b: torch.Tensor,
+    lin2_w: torch.Tensor,
+    lin2_b: torch.Tensor,
+    inp: torch.Tensor,
+):
+    if enable_first_linear:
+        if use_te_linear:
+            lin1 = te.Linear(IN_FEATURES, OUT_FEATURES)
+            cpy(lin1.weight, lin1_w)
+            cpy(lin1.bias, lin1_b)
+        else:
+            lin1 = nn.Linear(IN_FEATURES, OUT_FEATURES)
+            cpy(lin1.weight, lin1_w)
+            cpy(lin1.bias, lin1_b)
+    else:
+        lin1 = lambda x: x
+
+    if enable_second_linear:
+        if enable_first_linear:
+            if use_te_linear:
+                lin2 = te.Linear(OUT_FEATURES, IN_FEATURES)
+                cpy(lin2.weight, lin2_w)
+                cpy(lin2.bias, lin2_b)
+            else:
+                lin2 = nn.Linear(IN_FEATURES, OUT_FEATURES)
+                cpy(lin2.weight, lin2_w)
+                cpy(lin2.bias, lin2_b)
+        else:
+            if use_te_linear:
+                lin2 = te.Linear(IN_FEATURES, OUT_FEATURES)
+                cpy(lin2.weight, lin1_w)
+                cpy(lin2.bias, lin1_b)
+            else:
+                lin2 = nn.Linear(IN_FEATURES, OUT_FEATURES)
+                cpy(lin2.weight, lin1_w)
+                cpy(lin2.bias, lin1_b)
+    else:
+        lin2 = lambda x: x
+
+    if use_relu:
+        if use_te_act:
+            relu = seq.ReLU()
+        else:
+            relu = nn.ReLU()
+    else:
+        relu = lambda x: x
+
+    if use_gelu:
+        if use_te_act:
+            gelu = seq.GELU()
+        else:
+            gelu = nn.GELU(approximate="tanh")
+    else:
+        gelu = lambda x: x
+
+    x = inp.detach().clone().requires_grad_()
+    x1 = x / x.std() if div_std else x
+    x2 = lin1(x1)
+    x3 = relu(x2)
+    x4 = gelu(x3)
+    x5 = lin2(x4)
+    x5.sum().backward()
+    assert x.grad is not None
+    return x.grad
+
+
+results = {}
+
+for _ in range(50):
+    lin1 = nn.Linear(IN_FEATURES, OUT_FEATURES, device="cuda")
+    lin2 = nn.Linear(OUT_FEATURES, IN_FEATURES, device="cuda")
+    x = torch.rand(BATCH_SIZE, IN_FEATURES, device="cuda") * 2.0 - 1.0
+
+    for i in range(128):
+        (
+            enable_first_linear,
+            use_te_linear,
+            use_te_act,
+            use_relu,
+            use_gelu,
+            div_std,
+            enable_second_linear,
+        ) = (bool(i & (1 << j)) for j in range(7))
+
+        if use_relu and use_gelu:
+            continue
+        ref_use_te_linear = False
+        ref_use_te_act = False
+        if ref_use_te_linear == use_te_linear and ref_use_te_act == use_te_act:
+            continue
+        if (
+            not enable_first_linear
+            and not enable_second_linear
+            and not use_relu
+            and not use_gelu
+        ):
+            continue
+        if (
+            not use_relu
+            and not use_gelu
+            and (use_te_act or ref_use_te_linear == use_te_linear)
+        ):
+            continue
+        if (
+            not enable_first_linear
+            and not enable_second_linear
+            and (use_te_linear or ref_use_te_act == use_te_act)
+        ):
+            continue
+        if (
+            not enable_first_linear
+            and not use_relu
+            and not use_gelu
+            and enable_second_linear
+        ):
+            continue
+
+        ref = test(
+            enable_first_linear,
+            ref_use_te_linear,
+            ref_use_te_act,
+            use_relu,
+            use_gelu,
+            div_std,
+            enable_second_linear,
+            lin1.weight,
+            lin1.bias,
+            lin2.weight,
+            lin2.bias,
+            x,
+        )
+        cand = test(
+            enable_first_linear,
+            use_te_linear,
+            use_te_act,
+            use_relu,
+            use_gelu,
+            div_std,
+            enable_second_linear,
+            lin1.weight,
+            lin1.bias,
+            lin2.weight,
+            lin2.bias,
+            x,
+        )
+        if i not in results:
+            results[i] = [max_abs_diff(ref, cand)]
+        else:
+            results[i].append(max_abs_diff(ref, cand))
+
+    del lin1, lin2, x
+
+for i, res in results.items():
+    (
+        enable_first_linear,
+        use_te_linear,
+        use_te_act,
+        use_relu,
+        use_gelu,
+        div_std,
+        enable_second_linear,
+    ) = (bool(i & (1 << j)) for j in range(7))
+
+    s = ""
+    if div_std:
+        s += "RMSNorm, "
+    if enable_first_linear:
+        if use_te_linear:
+            s += "te.Linear, "
+        else:
+            s += "nn.Linear, "
+    if use_relu:
+        if use_te_act:
+            s += "seq.ReLU, "
+        else:
+            s += "nn.ReLU, "
+    if use_gelu:
+        if use_te_act:
+            s += "seq.GELU, "
+        else:
+            s += "nn.GELU, "
+    if enable_second_linear:
+        if use_te_linear:
+            s += "te.Linear, "
+        else:
+            s += "nn.Linear, "
+    s = s[:-2] + ": "
+    s = s.rjust(45)
+
+    print(s, end="")
+    for r in res:
+        print(f"{r}, ", end="")
+    print()
diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
new file mode 100644
index 0000000000..ef163ffc19
--- /dev/null
+++ b/tests/sequential/test_matrix2.py
@@ -0,0 +1,433 @@
+import torch
+from enum import Enum
+from torch import nn, autocast
+import torch.backends.cuda
+import torch.backends.cudnn
+import transformer_engine.pytorch.sequential as seq
+import transformer_engine.pytorch as te
+
+
+class RMSNorm(nn.Module):
+    def __init__(self, hidden_dim: int, eps: float = 1e-5):
+        super().__init__()  # type: ignore
+        self.hidden_dim = hidden_dim
+        self.eps = eps
+        self.weight = nn.Parameter(torch.ones(hidden_dim))
+
+    def forward(self, x: torch.Tensor) -> torch.Tensor:
+        x_norm: float = x.norm(2, dim=-1, keepdim=True)  # type: ignore
+        rms_x: float = x_norm / sqrt(self.hidden_dim)  # type: ignore
+        y: torch.Tensor = x / (rms_x + self.eps)  # type: ignore
+        return y * self.weight  # type: ignore
+
+
+class NormalizationType(Enum):
+    NONE = 0
+    LAYERNORM = 1
+    RMSNORM = 2
+
+
+class ActivationType(Enum):
+    NONE = 0
+    RELU = 1
+    GELU = 2
+
+
+class InputInitMethodType(Enum):
+    Normal01 = 0
+    Uniform01 = 1
+    Normal11 = 2
+    Uniform11 = 3
+
+
+def cpy(dst: torch.Tensor, src: torch.Tensor):
+    dst.data = torch.as_tensor(src.data.clone().detach(), dtype=dst.dtype).detach()
+
+
+def normal_range(x: torch.Tensor, kinda_min: float, kinda_max: float):
+    mean = (kinda_min + kinda_max) / 2
+    range = kinda_max - kinda_min
+    kinda_radius = range / 2
+    # if the std. dev. of the result is 1/2 radius, then
+    # about 95% of values should be within 2 deviations
+    # let there be some outliers for diversity
+    std = kinda_radius / 2
+    return torch.nn.init.normal_(x, mean, std)
+
+
+def init_input(shape: tuple[int, ...], init_method: InputInitMethodType):
+    in_min_val = (
+        0.0
+        if init_method in [InputInitMethodType.Normal01, InputInitMethodType.Uniform01]
+        else -1.0
+    )
+    in_max_val = 1.0
+    distribution = (
+        torch.nn.init.uniform_
+        if init_method in [InputInitMethodType.Uniform01, InputInitMethodType.Uniform11]
+        else normal_range
+    )
+
+    input = torch.empty(shape, device="cuda")
+    input = distribution(input, in_min_val, in_max_val)
+    return input
+
+
+def pt_test(
+    normalization: NormalizationType,
+    first_linear: bool,
+    activation: ActivationType,
+    second_linear: bool,
+    lin1_weight: torch.Tensor,
+    lin1_bias: torch.Tensor,
+    lin2_weight: torch.Tensor,
+    lin2_bias: torch.Tensor,
+    x: torch.Tensor,
+):
+    modules = list[nn.Module]()
+
+    if normalization is NormalizationType.LAYERNORM:
+        modules.append(nn.LayerNorm(IN_FEATURES))
+    elif normalization is NormalizationType.RMSNORM:
+        modules.append(RMSNorm(IN_FEATURES))
+
+    if first_linear:
+        lin1 = nn.Linear(IN_FEATURES, OUT_FEATURES)
+        cpy(lin1.weight, lin1_weight)
+        cpy(lin1.bias, lin1_bias)
+        modules.append(lin1)
+
+    if activation is ActivationType.RELU:
+        modules.append(nn.ReLU())
+    elif activation is ActivationType.GELU:
+        modules.append(nn.GELU())
+
+    if second_linear:
+        if not first_linear:
+            lin2 = nn.Linear(IN_FEATURES, OUT_FEATURES)
+            cpy(lin2.weight, lin1_weight)
+            cpy(lin2.bias, lin1_bias)
+            modules.append(lin2)
+        else:
+            lin2 = nn.Linear(OUT_FEATURES, IN_FEATURES)
+            cpy(lin2.weight, lin2_weight)
+            cpy(lin2.bias, lin2_bias)
+            modules.append(lin2)
+
+    assert len(modules) >= 1
+
+    m = nn.Sequential(*modules)
+    inp = x.detach().clone().requires_grad_()
+    out = m(inp)
+    out.sum().backward
+    assert inp.grad is not None
+    return inp.grad
+
+
+def seq_test_unfused(
+    normalization: NormalizationType,
+    first_linear: bool,
+    activation: ActivationType,
+    second_linear: bool,
+    lin1_weight: torch.Tensor,
+    lin1_bias: torch.Tensor,
+    lin2_weight: torch.Tensor,
+    lin2_bias: torch.Tensor,
+    x: torch.Tensor,
+):
+    modules = list[nn.Module]()
+
+    if normalization is NormalizationType.LAYERNORM:
+        modules.append(seq.LayerNorm(IN_FEATURES))
+    elif normalization is NormalizationType.RMSNORM:
+        modules.append(seq.RMSNorm(IN_FEATURES))
+
+    if first_linear:
+        lin1 = seq.Linear(IN_FEATURES, OUT_FEATURES)
+        cpy(lin1.weight, lin1_weight)
+        cpy(lin1.bias, lin1_bias)
+        modules.append(lin1)
+
+    if activation is ActivationType.RELU:
+        modules.append(seq.ReLU())
+    elif activation is ActivationType.GELU:
+        modules.append(seq.GELU())
+
+    if second_linear:
+        if not first_linear:
+            lin2 = seq.Linear(IN_FEATURES, OUT_FEATURES)
+            cpy(lin2.weight, lin1_weight)
+            cpy(lin2.bias, lin1_bias)
+            modules.append(lin2)
+        else:
+            lin2 = seq.Linear(OUT_FEATURES, IN_FEATURES)
+            cpy(lin2.weight, lin2_weight)
+            cpy(lin2.bias, lin2_bias)
+            modules.append(lin2)
+
+    assert len(modules) >= 1
+
+    m = nn.Sequential(*modules)
+    inp = x.detach().clone().requires_grad_()
+    out = m(inp)
+    out.sum().backward
+    assert inp.grad is not None
+    return inp.grad
+
+
+def seq_test_fused(
+    normalization: NormalizationType,
+    first_linear: bool,
+    activation: ActivationType,
+    second_linear: bool,
+    lin1_weight: torch.Tensor,
+    lin1_bias: torch.Tensor,
+    lin2_weight: torch.Tensor,
+    lin2_bias: torch.Tensor,
+    x: torch.Tensor,
+):
+    modules = list[nn.Module]()
+
+    if normalization is NormalizationType.LAYERNORM:
+        modules.append(seq.LayerNorm(IN_FEATURES))
+    elif normalization is NormalizationType.RMSNORM:
+        modules.append(seq.RMSNorm(IN_FEATURES))
+
+    if first_linear:
+        lin1 = seq.Linear(IN_FEATURES, OUT_FEATURES)
+        cpy(lin1.weight, lin1_weight)
+        cpy(lin1.bias, lin1_bias)
+        modules.append(lin1)
+
+    if activation is ActivationType.RELU:
+        modules.append(seq.ReLU())
+    elif activation is ActivationType.GELU:
+        modules.append(seq.GELU())
+
+    if second_linear:
+        if not first_linear:
+            lin2 = seq.Linear(IN_FEATURES, OUT_FEATURES)
+            cpy(lin2.weight, lin1_weight)
+            cpy(lin2.bias, lin1_bias)
+            modules.append(lin2)
+        else:
+            lin2 = seq.Linear(OUT_FEATURES, IN_FEATURES)
+            cpy(lin2.weight, lin2_weight)
+            cpy(lin2.bias, lin2_bias)
+            modules.append(lin2)
+
+    assert len(modules) >= 1
+
+    m = seq.Sequential(*modules)
+    inp = x.detach().clone().requires_grad_()
+    out = m(inp)
+    out.sum().backward
+    assert inp.grad is not None
+    return inp.grad
+
+
+def test(
+    normalization: NormalizationType,
+    first_linear: bool,
+    activation: ActivationType,
+    second_linear: bool,
+    lin1_weight: torch.Tensor,
+    lin1_bias: torch.Tensor,
+    lin2_weight: torch.Tensor,
+    lin2_bias: torch.Tensor,
+    x: torch.Tensor,
+):
+    # Pytorch reference implementation in FP32, no TF32
+    torch.backends.cuda.matmul.allow_tf32 = False
+    torch.backends.cudnn.allow_tf32 = False
+    pt_fp32 = pt_test(
+        normalization,
+        first_linear,
+        activation,
+        second_linear,
+        lin1_weight,
+        lin1_bias,
+        lin2_weight,
+        lin2_bias,
+        x,
+    )
+    # Pytorch reference implementation in FP32, with TF32
+    torch.backends.cuda.matmul.allow_tf32 = True
+    torch.backends.cudnn.allow_tf32 = True
+    pt_fp32 = pt_test(
+        normalization,
+        first_linear,
+        activation,
+        second_linear,
+        lin1_weight,
+        lin1_bias,
+        lin2_weight,
+        lin2_bias,
+        x,
+    )
+    # Pytorch reference implementation with autocast to float16
+    with autocast("cuda", torch.float16):
+        pt_fp16 = pt_test(
+            normalization,
+            first_linear,
+            activation,
+            second_linear,
+            lin1_weight,
+            lin1_bias,
+            lin2_weight,
+            lin2_bias,
+            x,
+        )
+    # Pytorch reference implementation with autocast to bfloat16
+    with autocast("cuda", torch.bfloat16):
+        pt_bf16 = pt_test(
+            normalization,
+            first_linear,
+            activation,
+            second_linear,
+            lin1_weight,
+            lin1_bias,
+            lin2_weight,
+            lin2_bias,
+            x,
+        )
+
+    with seq.environment(torch.float32):
+        sequ_fp32 = seq_test_unfused(
+            normalization,
+            first_linear,
+            activation,
+            second_linear,
+            lin1_weight,
+            lin1_bias,
+            lin2_weight,
+            lin2_bias,
+            x,
+        )
+    with seq.environment(torch.bfloat16):
+        sequ_bf16 = seq_test_unfused(
+            normalization,
+            first_linear,
+            activation,
+            second_linear,
+            lin1_weight,
+            lin1_bias,
+            lin2_weight,
+            lin2_bias,
+            x,
+        )
+    with seq.environment(torch.float16):
+        sequ_fp16 = seq_test_unfused(
+            normalization,
+            first_linear,
+            activation,
+            second_linear,
+            lin1_weight,
+            lin1_bias,
+            lin2_weight,
+            lin2_bias,
+            x,
+        )
+
+    with seq.environment(torch.float32):
+        seqf_fp32 = seq_test_fused(
+            normalization,
+            first_linear,
+            activation,
+            second_linear,
+            lin1_weight,
+            lin1_bias,
+            lin2_weight,
+            lin2_bias,
+            x,
+        )
+    with seq.environment(torch.bfloat16):
+        seqf_bf16 = seq_test_fused(
+            normalization,
+            first_linear,
+            activation,
+            second_linear,
+            lin1_weight,
+            lin1_bias,
+            lin2_weight,
+            lin2_bias,
+            x,
+        )
+    with seq.environment(torch.float16):
+        seqf_fp16 = seq_test_fused(
+            normalization,
+            first_linear,
+            activation,
+            second_linear,
+            lin1_weight,
+            lin1_bias,
+            lin2_weight,
+            lin2_bias,
+            x,
+        )
+
+    for cand in [sequ_fp32, sequ_bf16, sequ_fp16, seqf_fp32, seqf_bf16, seqf_fp16]:
+        for ref in [pt_fp32, pt_fp32, pt_fp16, pt_bf16]:
+            try:
+                torch.testing.assert_close(cand, ref, atol=1e-5, rtol=1e-3)
+                ok = True
+            except AssertionError:
+                ok = False
+            print_result(ok)
+        print()
+
+
+def print_result(ok: bool):
+    if ok:
+        print(f"a:\033[42;97mOK\033[0m", end="")
+    else:
+        print(f"a:\033[41;30mWA\033[0m", end="")
+
+
+BATCH_SIZE = 512
+IN_FEATURES = 768
+OUT_FEATURES = 4 * IN_FEATURES
+TESTS = 10
+
+for input_init_method in InputInitMethodType:
+    for _ in range(TESTS):
+        lin1 = nn.Linear(
+            IN_FEATURES, OUT_FEATURES, device="cuda"
+        )  # used for initializing weights consistently
+        lin2 = nn.Linear(
+            OUT_FEATURES, IN_FEATURES, device="cuda"
+        )  # used for initializing weights consistently
+        x = init_input((BATCH_SIZE, IN_FEATURES), input_init_method)
+
+        for normalization in NormalizationType:
+            for first_linear in [True, False]:
+                for activation in ActivationType:
+                    for second_linear in [True, False]:
+                        # Skip invalid configurations
+                        if (
+                            normalization is NormalizationType.NONE
+                            and not first_linear
+                            and activation is ActivationType.NONE
+                            and not second_linear
+                        ):
+                            continue  # noop model
+                        if (
+                            not first_linear
+                            and activation is ActivationType.NONE
+                            and second_linear
+                        ):
+                            continue  # one linear layer, symmetrical to: first_linear and activation is ActivationType.NONE and not second_linear
+
+                        test(
+                            normalization,
+                            first_linear,
+                            activation,
+                            second_linear,
+                            lin1.weight,
+                            lin1.bias,
+                            lin2.weight,
+                            lin2.bias,
+                            x,
+                        )
+
+        del lin1, lin2, x  # force recreation of tensors
diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index 1ee8cf4a15..46457c257d 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -11,6 +11,7 @@
     Sequential,
 )
 from . import nvte, ops, fusions, module
+from .environment import environment
 
 __all__ = [
     # nn.Modules
@@ -29,4 +30,6 @@
     "ops",
     "fusions",
     "module",
+    # Environment context manager
+    "environment",
 ]

From 9f1967a9d179d75e38cf89f844844c4fc7b5f5b8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 14:17:46 +0200
Subject: [PATCH 131/535] fix test

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index ef163ffc19..f003e93fed 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -119,7 +119,7 @@ def pt_test(
     m = nn.Sequential(*modules)
     inp = x.detach().clone().requires_grad_()
     out = m(inp)
-    out.sum().backward
+    out.sum().backward()
     assert inp.grad is not None
     return inp.grad
 
@@ -170,7 +170,7 @@ def seq_test_unfused(
     m = nn.Sequential(*modules)
     inp = x.detach().clone().requires_grad_()
     out = m(inp)
-    out.sum().backward
+    out.sum().backward()
     assert inp.grad is not None
     return inp.grad
 
@@ -221,7 +221,7 @@ def seq_test_fused(
     m = seq.Sequential(*modules)
     inp = x.detach().clone().requires_grad_()
     out = m(inp)
-    out.sum().backward
+    out.sum().backward()
     assert inp.grad is not None
     return inp.grad
 

From 184aa47decbc176fecf425bea3e18c7b9286d0b2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 14:38:29 +0200
Subject: [PATCH 132/535] Fix types

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 2 +-
 transformer_engine/pytorch/sequential/environment.py      | 7 ++++---
 transformer_engine/pytorch/sequential/ops/activation.py   | 2 +-
 transformer_engine/pytorch/sequential/ops/add.py          | 2 +-
 4 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index da0c0c812b..6aac044cc2 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -126,7 +126,7 @@ def __init__(self, ops: list[Op], env: Environment):
         ops = copy_op_list(ops)
 
         name_ops(ops)
-        force_use_precision(ops, nvte.torch_to_te_dtype(env.lowp))
+        force_use_precision(ops, env.lowp)
         if env.world_size > 1:
             model_parallel_transform(ops)
 
diff --git a/transformer_engine/pytorch/sequential/environment.py b/transformer_engine/pytorch/sequential/environment.py
index 9161b45388..a9a63ea926 100644
--- a/transformer_engine/pytorch/sequential/environment.py
+++ b/transformer_engine/pytorch/sequential/environment.py
@@ -1,14 +1,15 @@
 import torch
 from dataclasses import dataclass
 from contextlib import contextmanager
+from .nvte import DType
 
-_lowp: torch.dtype = torch.float32
+_lowp: DType = DType.Float32
 _world_size: int = 1
 
 
 @dataclass
 class Environment:
-    lowp: torch.dtype
+    lowp: DType
     world_size: int
 
     @staticmethod
@@ -17,7 +18,7 @@ def current():
 
 
 @contextmanager
-def environment(lowp: torch.dtype = torch.float32, world_size: int = 1):
+def environment(lowp: DType = DType.Float32, world_size: int = 1):
     global _lowp, _world_size
 
     prev_lowp = _lowp
diff --git a/transformer_engine/pytorch/sequential/ops/activation.py b/transformer_engine/pytorch/sequential/ops/activation.py
index a602e363ee..0d71ee8cfe 100644
--- a/transformer_engine/pytorch/sequential/ops/activation.py
+++ b/transformer_engine/pytorch/sequential/ops/activation.py
@@ -10,7 +10,7 @@ def __init__(
         self,
         *,
         x_dtype: nvte.DType | None = None,
-        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        dy_dtype: nvte.DType | None = None,
         y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
     ):
diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/ops/add.py
index 5088e13eb2..e9a5f1cede 100644
--- a/transformer_engine/pytorch/sequential/ops/add.py
+++ b/transformer_engine/pytorch/sequential/ops/add.py
@@ -10,7 +10,7 @@ def __init__(
         *,
         x_dtype: nvte.DType | None = None,
         bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
-        dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
+        dy_dtype: nvte.DType | None = None,
         y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dbias_dtype: nvte.DType | None = nvte.DType.BFloat16,

From 44406b65135065ec8ef8ca0675914e416743ba53 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 14:41:12 +0200
Subject: [PATCH 133/535] fix type of dtype

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 13 +++++++------
 1 file changed, 7 insertions(+), 6 deletions(-)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index f003e93fed..b82ef8ab03 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -4,6 +4,7 @@
 import torch.backends.cuda
 import torch.backends.cudnn
 import transformer_engine.pytorch.sequential as seq
+from transformer_engine.pytorch.sequential.nvte import DType
 import transformer_engine.pytorch as te
 
 
@@ -292,7 +293,7 @@ def test(
             x,
         )
 
-    with seq.environment(torch.float32):
+    with seq.environment(DType.Float32):
         sequ_fp32 = seq_test_unfused(
             normalization,
             first_linear,
@@ -304,7 +305,7 @@ def test(
             lin2_bias,
             x,
         )
-    with seq.environment(torch.bfloat16):
+    with seq.environment(DType.BFloat16):
         sequ_bf16 = seq_test_unfused(
             normalization,
             first_linear,
@@ -316,7 +317,7 @@ def test(
             lin2_bias,
             x,
         )
-    with seq.environment(torch.float16):
+    with seq.environment(DType.Float16):
         sequ_fp16 = seq_test_unfused(
             normalization,
             first_linear,
@@ -329,7 +330,7 @@ def test(
             x,
         )
 
-    with seq.environment(torch.float32):
+    with seq.environment(DType.Float32):
         seqf_fp32 = seq_test_fused(
             normalization,
             first_linear,
@@ -341,7 +342,7 @@ def test(
             lin2_bias,
             x,
         )
-    with seq.environment(torch.bfloat16):
+    with seq.environment(DType.BFloat16):
         seqf_bf16 = seq_test_fused(
             normalization,
             first_linear,
@@ -353,7 +354,7 @@ def test(
             lin2_bias,
             x,
         )
-    with seq.environment(torch.float16):
+    with seq.environment(DType.Float16):
         seqf_fp16 = seq_test_fused(
             normalization,
             first_linear,

From c4c2ff6b7071894307b6794db63e87110c7ea909 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 14:43:16 +0200
Subject: [PATCH 134/535] fix drelu type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/ops/activation.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/ops/activation.py b/transformer_engine/pytorch/sequential/ops/activation.py
index 0d71ee8cfe..98792795a6 100644
--- a/transformer_engine/pytorch/sequential/ops/activation.py
+++ b/transformer_engine/pytorch/sequential/ops/activation.py
@@ -10,7 +10,7 @@ def __init__(
         self,
         *,
         x_dtype: nvte.DType | None = None,
-        dy_dtype: nvte.DType | None = None,
+        dy_dtype: nvte.DType | None = nvte.DType.BFloat16,
         y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
     ):

From aa9cec02cc08b5c63457e6c52e7e2849120ef889 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 17:58:52 +0200
Subject: [PATCH 135/535] fix dtypes again

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/perf_test.py                 | 62 +++++++++++++++++++
 .../sequential/{README.md => extending.md}    |  0
 .../pytorch/sequential/ops/activation.py      |  2 +-
 .../pytorch/sequential/ops/add.py             |  2 +-
 .../pytorch/sequential/ops/layernorm.py       |  2 +-
 .../pytorch/sequential/ops/mmt.py             |  6 +-
 .../pytorch/sequential/ops/rmsnorm.py         |  2 +-
 7 files changed, 70 insertions(+), 6 deletions(-)
 create mode 100644 tests/sequential/perf_test.py
 rename transformer_engine/pytorch/sequential/{README.md => extending.md} (100%)

diff --git a/tests/sequential/perf_test.py b/tests/sequential/perf_test.py
new file mode 100644
index 0000000000..96fbd40883
--- /dev/null
+++ b/tests/sequential/perf_test.py
@@ -0,0 +1,62 @@
+import torch
+import transformer_engine.pytorch.sequential as seq
+from torch import nn
+import transformer_engine.pytorch as te
+from math import sqrt
+
+SEQ_LEN = 4096
+HIDDEN_DIM = 1024
+
+seq.Sequential(
+    seq.RMSNorm(HIDDEN_DIM),
+)
+
+
+vasavani_dec = te.Sequential(
+    te.Residual(
+        te.Linear(HIDDEN_DIM, 3 * HIDDEN_DIM),
+        te.DotProductAttention(24),
+        te.Linear(HIDDEN_DIM, HIDDEN_DIM),
+        te.LayerNorm(HIDDEN_DIM),
+    ),
+    te.Residual(
+        te.Linear(HIDDEN_DIM, 4 * HIDDEN_DIM),
+        te.ReLU(),
+        te.Linear(4 * HIDDEN_DIM, HIDDEN_DIM),
+        te.LayerNorm(HIDDEN_DIM),
+    ),
+)
+
+gpt = te.Sequential(
+    te.Residual(
+        te.LayerNorm(HIDDEN_DIM),
+        te.Linear(HIDDEN_DIM, 3 * HIDDEN_DIM),
+        te.DotProductAttention(24),
+        te.Linear(HIDDEN_DIM, HIDDEN_DIM),
+        te.Dropout(0.1),
+    ),
+    te.Residual(
+        te.LayerNorm(HIDDEN_DIM),
+        te.Linear(HIDDEN_DIM, 4 * HIDDEN_DIM),
+        te.GELU(),
+        te.Linear(4 * HIDDEN_DIM, HIDDEN_DIM),
+        te.Dropout(0.1),
+    ),
+)
+
+llama = te.Sequential(
+    te.Residual(
+        te.RMSNorm(HIDDEN_DIM),
+        te.Linear(HIDDEN_DIM, 3 * HIDDEN_DIM),
+        te.DotProductAttention(24),
+        te.Linear(HIDDEN_DIM, HIDDEN_DIM),
+        te.Dropout(0.1),
+    ),
+    te.Residual(
+        te.RMSNorm(HIDDEN_DIM),
+        te.Linear(HIDDEN_DIM, 4 * HIDDEN_DIM),
+        te.SwiGLU(),
+        te.Linear(4 * HIDDEN_DIM, HIDDEN_DIM),
+        te.Dropout(0.1),
+    ),
+)
diff --git a/transformer_engine/pytorch/sequential/README.md b/transformer_engine/pytorch/sequential/extending.md
similarity index 100%
rename from transformer_engine/pytorch/sequential/README.md
rename to transformer_engine/pytorch/sequential/extending.md
diff --git a/transformer_engine/pytorch/sequential/ops/activation.py b/transformer_engine/pytorch/sequential/ops/activation.py
index 98792795a6..f819ccb66f 100644
--- a/transformer_engine/pytorch/sequential/ops/activation.py
+++ b/transformer_engine/pytorch/sequential/ops/activation.py
@@ -9,7 +9,7 @@ class Activation(Op, ABC):
     def __init__(
         self,
         *,
-        x_dtype: nvte.DType | None = None,
+        x_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dy_dtype: nvte.DType | None = nvte.DType.BFloat16,
         y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/ops/add.py
index e9a5f1cede..4dbcf05b2e 100644
--- a/transformer_engine/pytorch/sequential/ops/add.py
+++ b/transformer_engine/pytorch/sequential/ops/add.py
@@ -11,7 +11,7 @@ def __init__(
         x_dtype: nvte.DType | None = None,
         bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = None,
-        y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        y_dtype: nvte.DType | None = None,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dbias_dtype: nvte.DType | None = nvte.DType.BFloat16,
     ):
diff --git a/transformer_engine/pytorch/sequential/ops/layernorm.py b/transformer_engine/pytorch/sequential/ops/layernorm.py
index ef538c7e72..af19058b9d 100644
--- a/transformer_engine/pytorch/sequential/ops/layernorm.py
+++ b/transformer_engine/pytorch/sequential/ops/layernorm.py
@@ -14,7 +14,7 @@ def __init__(
         x_dtype: nvte.DType | None = nvte.DType.BFloat16,
         weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
-        dy_dtype: nvte.DType | None = None,
+        dy_dtype: nvte.DType | None = nvte.DType.BFloat16,
         y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dweight_dtype: nvte.DType | None = nvte.DType.BFloat16,
diff --git a/transformer_engine/pytorch/sequential/ops/mmt.py b/transformer_engine/pytorch/sequential/ops/mmt.py
index 165d1a03e8..5078b9dcd0 100644
--- a/transformer_engine/pytorch/sequential/ops/mmt.py
+++ b/transformer_engine/pytorch/sequential/ops/mmt.py
@@ -11,7 +11,7 @@ def __init__(
         x_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dy_dtype: nvte.DType | None = nvte.DType.Float8E5M2,
-        y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        y_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dweight_dtype: nvte.DType | None = nvte.DType.BFloat16,
     ):
@@ -45,7 +45,9 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         dy, dy_t = nvte.cast_transpose_checked(dy, self.dy_dtype)
 
         dx = nvte.matmul_transpose(dy, weight_t, self.dx_dtype or dy.dtype)
-        dweight = nvte.matmul_transpose(x_t, dy_t, self.dweight_dtype or self.weight.dtype)
+        dweight = nvte.matmul_transpose(
+            x_t, dy_t, self.dweight_dtype or self.weight.dtype
+        )
 
         return dx, [dweight]
 
diff --git a/transformer_engine/pytorch/sequential/ops/rmsnorm.py b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
index e5bc5b61ac..18ba7d7da2 100644
--- a/transformer_engine/pytorch/sequential/ops/rmsnorm.py
+++ b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
@@ -12,7 +12,7 @@ def __init__(
         *,
         x_dtype: nvte.DType | None = nvte.DType.BFloat16,
         weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
-        dy_dtype: nvte.DType | None = None,
+        dy_dtype: nvte.DType | None = nvte.DType.BFloat16,
         y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dweight_dtype: nvte.DType | None = nvte.DType.BFloat16,

From 51a4155402d5c9a21a1407d98c7a912ca8cda74e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 18:00:12 +0200
Subject: [PATCH 136/535] set default device cuda in test

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index b82ef8ab03..a4c67a5032 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -7,6 +7,8 @@
 from transformer_engine.pytorch.sequential.nvte import DType
 import transformer_engine.pytorch as te
 
+torch.set_default_device("cuda")
+
 
 class RMSNorm(nn.Module):
     def __init__(self, hidden_dim: int, eps: float = 1e-5):

From 054e60bef2943fda98ca408bd156ca8ef08f13ed Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 18:50:18 +0200
Subject: [PATCH 137/535] fix geglu, reglu, swiglu dimension

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/activation.py         | 15 +++++++++------
 1 file changed, 9 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/activation.py b/transformer_engine/pytorch/sequential/nvte/activation.py
index 64a66a0b48..98e0a524f3 100644
--- a/transformer_engine/pytorch/sequential/nvte/activation.py
+++ b/transformer_engine/pytorch/sequential/nvte/activation.py
@@ -1,6 +1,7 @@
 from . import _nvte
 from .empty import empty
 
+
 def relu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.relu(x, output)
@@ -12,6 +13,7 @@ def drelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
     _nvte.drelu(grad, x, output)
     return output
 
+
 def gelu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.gelu(x, output)
@@ -25,35 +27,36 @@ def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
 
 
 def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty(x.shape, out_dtype)
+    output = empty((x.shape[0] // 2, x.shape[1]), out_dtype)
     _nvte.reglu(x, output)
     return output
 
 
 def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty(x.shape, out_dtype)
+    output = empty((x.shape[0] * 2, x.shape[1]), out_dtype)
     _nvte.dreglu(grad, x, output)
     return output
 
+
 def geglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty(x.shape, out_dtype)
+    output = empty((x.shape[0] // 2, x.shape[1]), out_dtype)
     _nvte.geglu(x, output)
     return output
 
 
 def dgeglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty(x.shape, out_dtype)
+    output = empty((x.shape[0] * 2, x.shape[1]), out_dtype)
     _nvte.dgeglu(grad, x, output)
     return output
 
 
 def swiglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty(x.shape, out_dtype)
+    output = empty((x.shape[0] // 2, x.shape[1]), out_dtype)
     _nvte.swiglu(x, output)
     return output
 
 
 def dswiglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty(x.shape, out_dtype)
+    output = empty((x.shape[0] * 2, x.shape[1]), out_dtype)
     _nvte.dswiglu(grad, x, output)
     return output

From e078506a066735c0aeb9957328bd23af45382afc Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 18:53:11 +0200
Subject: [PATCH 138/535] fix dimension again

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/activation.py            | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/activation.py b/transformer_engine/pytorch/sequential/nvte/activation.py
index 98e0a524f3..aee61947cb 100644
--- a/transformer_engine/pytorch/sequential/nvte/activation.py
+++ b/transformer_engine/pytorch/sequential/nvte/activation.py
@@ -27,36 +27,36 @@ def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
 
 
 def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty((x.shape[0] // 2, x.shape[1]), out_dtype)
+    output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.reglu(x, output)
     return output
 
 
 def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty((x.shape[0] * 2, x.shape[1]), out_dtype)
+    output = empty((x.shape[0], x.shape[1] * 2), out_dtype)
     _nvte.dreglu(grad, x, output)
     return output
 
 
 def geglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty((x.shape[0] // 2, x.shape[1]), out_dtype)
+    output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.geglu(x, output)
     return output
 
 
 def dgeglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty((x.shape[0] * 2, x.shape[1]), out_dtype)
+    output = empty((x.shape[0], x.shape[1] * 2), out_dtype)
     _nvte.dgeglu(grad, x, output)
     return output
 
 
 def swiglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty((x.shape[0] // 2, x.shape[1]), out_dtype)
+    output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.swiglu(x, output)
     return output
 
 
 def dswiglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty((x.shape[0] * 2, x.shape[1]), out_dtype)
+    output = empty((x.shape[0], x.shape[1] * 2), out_dtype)
     _nvte.dswiglu(grad, x, output)
     return output

From 43391f8a67bf1bd56dabf9517fb0ce8a7544092c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 18:56:02 +0200
Subject: [PATCH 139/535] fix shape, the third

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/activation.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/activation.py b/transformer_engine/pytorch/sequential/nvte/activation.py
index aee61947cb..a5a4e54baa 100644
--- a/transformer_engine/pytorch/sequential/nvte/activation.py
+++ b/transformer_engine/pytorch/sequential/nvte/activation.py
@@ -33,7 +33,7 @@ def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
 
 
 def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty((x.shape[0], x.shape[1] * 2), out_dtype)
+    output = empty(x.shape, out_dtype)
     _nvte.dreglu(grad, x, output)
     return output
 
@@ -45,7 +45,7 @@ def geglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
 
 
 def dgeglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty((x.shape[0], x.shape[1] * 2), out_dtype)
+    output = empty(x.shape, out_dtype)
     _nvte.dgeglu(grad, x, output)
     return output
 
@@ -57,6 +57,6 @@ def swiglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
 
 
 def dswiglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
-    output = empty((x.shape[0], x.shape[1] * 2), out_dtype)
+    output = empty(x.shape, out_dtype)
     _nvte.dswiglu(grad, x, output)
     return output

From 9e566f71e48b75a58201c45156c1b9ef43cf1479 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 19:10:55 +0200
Subject: [PATCH 140/535] make results more readable

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index a4c67a5032..90d99efa95 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -378,13 +378,14 @@ def test(
                 ok = False
             print_result(ok)
         print()
+    print()
 
 
 def print_result(ok: bool):
     if ok:
-        print(f"a:\033[42;97mOK\033[0m", end="")
+        print(f"\033[42;97mOK\033[0m", end="")
     else:
-        print(f"a:\033[41;30mWA\033[0m", end="")
+        print(f"\033[41;30mWA\033[0m", end="")
 
 
 BATCH_SIZE = 512

From 0b460b0db4522d89e59f3d2d652203c61183d8a8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 19:13:00 +0200
Subject: [PATCH 141/535] import sqrt

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index 90d99efa95..7caef96653 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -6,6 +6,7 @@
 import transformer_engine.pytorch.sequential as seq
 from transformer_engine.pytorch.sequential.nvte import DType
 import transformer_engine.pytorch as te
+from math import sqrt
 
 torch.set_default_device("cuda")
 

From 16e35be5284445b4771faea14fe70615ba644413 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 19:14:18 +0200
Subject: [PATCH 142/535] use approx gelu

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index 7caef96653..92825b6352 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -104,7 +104,7 @@ def pt_test(
     if activation is ActivationType.RELU:
         modules.append(nn.ReLU())
     elif activation is ActivationType.GELU:
-        modules.append(nn.GELU())
+        modules.append(nn.GELU(approximate="tanh"))
 
     if second_linear:
         if not first_linear:

From 0480b2a80f47dd4204f52d0e40b2ace8d004b818 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 19:29:10 +0200
Subject: [PATCH 143/535] fix test

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 157 +++++++++----------------------
 1 file changed, 42 insertions(+), 115 deletions(-)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index 92825b6352..f34cbe6e23 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -230,6 +230,14 @@ def seq_test_fused(
     return inp.grad
 
 
+results = (
+    list[bool | None](),
+    list[bool | None](),
+    list[bool | None](),
+    list[bool | None](),
+)
+
+
 def test(
     normalization: NormalizationType,
     first_linear: bool,
@@ -241,10 +249,7 @@ def test(
     lin2_bias: torch.Tensor,
     x: torch.Tensor,
 ):
-    # Pytorch reference implementation in FP32, no TF32
-    torch.backends.cuda.matmul.allow_tf32 = False
-    torch.backends.cudnn.allow_tf32 = False
-    pt_fp32 = pt_test(
+    args = (
         normalization,
         first_linear,
         activation,
@@ -255,138 +260,58 @@ def test(
         lin2_bias,
         x,
     )
+
+    # Pytorch reference implementation in FP32, no TF32
+    torch.backends.cuda.matmul.allow_tf32 = False
+    torch.backends.cudnn.allow_tf32 = False
+    pt_fp32 = pt_test(*args)
     # Pytorch reference implementation in FP32, with TF32
     torch.backends.cuda.matmul.allow_tf32 = True
     torch.backends.cudnn.allow_tf32 = True
-    pt_fp32 = pt_test(
-        normalization,
-        first_linear,
-        activation,
-        second_linear,
-        lin1_weight,
-        lin1_bias,
-        lin2_weight,
-        lin2_bias,
-        x,
-    )
+    pt_tf32 = pt_test(*args)
     # Pytorch reference implementation with autocast to float16
     with autocast("cuda", torch.float16):
-        pt_fp16 = pt_test(
-            normalization,
-            first_linear,
-            activation,
-            second_linear,
-            lin1_weight,
-            lin1_bias,
-            lin2_weight,
-            lin2_bias,
-            x,
-        )
+        pt_fp16 = pt_test(*args)
     # Pytorch reference implementation with autocast to bfloat16
     with autocast("cuda", torch.bfloat16):
-        pt_bf16 = pt_test(
-            normalization,
-            first_linear,
-            activation,
-            second_linear,
-            lin1_weight,
-            lin1_bias,
-            lin2_weight,
-            lin2_bias,
-            x,
-        )
+        pt_bf16 = pt_test(*args)
 
     with seq.environment(DType.Float32):
-        sequ_fp32 = seq_test_unfused(
-            normalization,
-            first_linear,
-            activation,
-            second_linear,
-            lin1_weight,
-            lin1_bias,
-            lin2_weight,
-            lin2_bias,
-            x,
-        )
+        sequ_fp32 = seq_test_unfused(*args)
     with seq.environment(DType.BFloat16):
-        sequ_bf16 = seq_test_unfused(
-            normalization,
-            first_linear,
-            activation,
-            second_linear,
-            lin1_weight,
-            lin1_bias,
-            lin2_weight,
-            lin2_bias,
-            x,
-        )
+        sequ_bf16 = seq_test_unfused(*args)
     with seq.environment(DType.Float16):
-        sequ_fp16 = seq_test_unfused(
-            normalization,
-            first_linear,
-            activation,
-            second_linear,
-            lin1_weight,
-            lin1_bias,
-            lin2_weight,
-            lin2_bias,
-            x,
-        )
+        sequ_fp16 = seq_test_unfused(*args)
 
     with seq.environment(DType.Float32):
-        seqf_fp32 = seq_test_fused(
-            normalization,
-            first_linear,
-            activation,
-            second_linear,
-            lin1_weight,
-            lin1_bias,
-            lin2_weight,
-            lin2_bias,
-            x,
-        )
+        seqf_fp32 = seq_test_fused(*args)
     with seq.environment(DType.BFloat16):
-        seqf_bf16 = seq_test_fused(
-            normalization,
-            first_linear,
-            activation,
-            second_linear,
-            lin1_weight,
-            lin1_bias,
-            lin2_weight,
-            lin2_bias,
-            x,
-        )
+        seqf_bf16 = seq_test_fused(*args)
     with seq.environment(DType.Float16):
-        seqf_fp16 = seq_test_fused(
-            normalization,
-            first_linear,
-            activation,
-            second_linear,
-            lin1_weight,
-            lin1_bias,
-            lin2_weight,
-            lin2_bias,
-            x,
-        )
-
-    for cand in [sequ_fp32, sequ_bf16, sequ_fp16, seqf_fp32, seqf_bf16, seqf_fp16]:
-        for ref in [pt_fp32, pt_fp32, pt_fp16, pt_bf16]:
+        seqf_fp16 = seq_test_fused(*args)
+
+    for i, ref in enumerate([pt_fp32, pt_tf32, pt_fp16, pt_bf16]):
+        for cand in [sequ_fp32, sequ_bf16, sequ_fp16, seqf_fp32, seqf_bf16, seqf_fp16]:
             try:
                 torch.testing.assert_close(cand, ref, atol=1e-5, rtol=1e-3)
                 ok = True
             except AssertionError:
                 ok = False
-            print_result(ok)
+            results[i].append(ok)
+        results[i].append(None)
+
+
+def print_results():
+    print("\\033[2J")
+    for i in range(4):
+        for res in results[i]:
+            if res is None:
+                print(" ", end="")
+            elif res:
+                print(f"\033[42;97mOK\033[0m", end="")
+            else:
+                print(f"\033[41;30mWA\033[0m", end="")
         print()
-    print()
-
-
-def print_result(ok: bool):
-    if ok:
-        print(f"\033[42;97mOK\033[0m", end="")
-    else:
-        print(f"\033[41;30mWA\033[0m", end="")
 
 
 BATCH_SIZE = 512
@@ -435,4 +360,6 @@ def print_result(ok: bool):
                             x,
                         )
 
+                        print_results()
+
         del lin1, lin2, x  # force recreation of tensors

From fb3bb2c4b916cc2f5b32e6fa52498b655892f900 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 19:30:11 +0200
Subject: [PATCH 144/535] fix print

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index f34cbe6e23..2e7535aa82 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -302,7 +302,7 @@ def test(
 
 
 def print_results():
-    print("\\033[2J")
+    print("\033[2J")
     for i in range(4):
         for res in results[i]:
             if res is None:

From 1b398544def5abc4040f1f7bf5ebfcf155b625be Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 19:33:08 +0200
Subject: [PATCH 145/535] fix print

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 19 +++++++++++--------
 1 file changed, 11 insertions(+), 8 deletions(-)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index 2e7535aa82..fbc22a8203 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -303,14 +303,17 @@ def test(
 
 def print_results():
     print("\033[2J")
-    for i in range(4):
-        for res in results[i]:
-            if res is None:
-                print(" ", end="")
-            elif res:
-                print(f"\033[42;97mOK\033[0m", end="")
-            else:
-                print(f"\033[41;30mWA\033[0m", end="")
+    for chunk in range(0, len(results[0]), 120):
+        for i in range(4):
+            for res in results[i][chunk : chunk + 120]:
+                if res is None:
+                    print(" ", end="")
+                elif res:
+                    print(f"\033[42;97mOK\033[0m", end="")
+                else:
+                    print(f"\033[41;30mWA\033[0m", end="")
+            print()
+        print()
         print()
 
 

From 9b784ed47c66bc0910decb43788b181298ab327e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 17 Aug 2023 19:35:04 +0200
Subject: [PATCH 146/535] fix print

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/test_matrix2.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index fbc22a8203..1aba447e35 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -303,11 +303,11 @@ def test(
 
 def print_results():
     print("\033[2J")
-    for chunk in range(0, len(results[0]), 120):
+    for chunk in range(0, len(results[0]), 126):
         for i in range(4):
-            for res in results[i][chunk : chunk + 120]:
+            for res in results[i][chunk : chunk + 126]:
                 if res is None:
-                    print(" ", end="")
+                    print("  ", end="")
                 elif res:
                     print(f"\033[42;97mOK\033[0m", end="")
                 else:

From 2d2bc12d856a13230614c80352e9b49c16ba1412 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 12:42:09 +0200
Subject: [PATCH 147/535] do some work around attention

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/base.py         | 22 ++++++-
 .../module/dot_product_attention.py           | 66 ++++++-------------
 .../pytorch/sequential/ops/attention.py       | 23 +++++++
 .../pytorch/sequential/ops/op.py              |  6 +-
 .../pytorch/sequential/readme.md              | 12 ++++
 5 files changed, 80 insertions(+), 49 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/ops/attention.py
 create mode 100644 transformer_engine/pytorch/sequential/readme.md

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index e345e10547..b065df9d6f 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -18,7 +18,27 @@ def __init__(self, *ops: Op | None):
         self.pipeline = None
         self.compile_env = None
 
-    def forward(self, x: torch.Tensor) -> torch.Tensor:
+    def forward(
+        self, x: torch.Tensor, seq_lens: torch.Tensor | None = None
+    ) -> torch.Tensor:
+        if seq_lens is None:
+            if x.dim() == 2:
+                seq_lens = torch.tensor([x.shape[0]], dtype=torch.int32, device="cuda")
+            elif x.dim() == 3:
+                seq_lens = torch.tensor(
+                    [x.shape[1]] * x.shape[0], dtype=torch.int32, device="cuda"
+                )
+                x = x.view(x.shape[1] * x.shape[0], x.shape[2])
+            else:
+                raise ValueError(f"Unsupported input shape: {x.shape}")
+        else:
+            assert x.dim() == 2
+            assert x.shape[0] == seq_lens.sum().item()
+        assert x.is_cuda
+        assert seq_lens.is_cuda
+        assert x.is_contiguous()
+        assert seq_lens.is_contiguous()
+
         env = self._current_env()
         if self.pipeline is None or env != self.compile_env:
             self.pipeline = ComputePipeline(self.ops, env)
diff --git a/transformer_engine/pytorch/sequential/module/dot_product_attention.py b/transformer_engine/pytorch/sequential/module/dot_product_attention.py
index 5fb8934b22..849b24e436 100644
--- a/transformer_engine/pytorch/sequential/module/dot_product_attention.py
+++ b/transformer_engine/pytorch/sequential/module/dot_product_attention.py
@@ -1,12 +1,22 @@
+from abc import abstractmethod, ABC
 from math import sqrt
 import torch
 from torch import nn
 from .base import BaseModule
-from ._common import ParameterInitMethod
-from .linear import _default_weight_init_method
 from .. import ops
 from ..nvte import DType, make_nvte_tensor
 
+class Attention(ABC):
+    @abstractmethod
+    def make_op(self) -> ops.Op:
+        ...
+
+class DotProductAttention(Attention):
+    def __init__(self, causal_mask: bool = True, pre_softmax_scale: float, dropout_p: float):
+        self.causal_mask = causal_mask
+
+    def make_op(self):
+        return ops.DotProductAttention(causal_mask)
 
 class GroupedQuerySelfAttention(BaseModule):
     def __init__(
@@ -14,33 +24,15 @@ def __init__(
         token_dim: int,
         num_query_heads: int,
         num_kv_heads: int,
-        causal_mask: bool = True,
-        param_dtype: torch.dtype = torch.get_default_dtype(),
-        weight_init_method: ParameterInitMethod = _default_weight_init_method,
-        proj_init_method: ParameterInitMethod = _default_weight_init_method,
-        attention_type: ops.Attention = ops.DotProductAttention,
+        attention_mechanism: Attention,
     ):
         assert num_kv_heads <= num_query_heads
         assert num_query_heads % num_kv_heads == 0
         assert token_dim % num_query_heads == 0
         nn.Module.__init__(self)  # type: ignore
 
-        kv_dim = token_dim // num_kv_heads
-        norm_factor = sqrt(kv_dim)
-
-        self.weight = nn.Parameter(
-            weight_init_method(
-                torch.empty(3 * token_dim, token_dim, dtype=param_dtype, device="cuda")
-            )
-        )
-        self.proj = nn.Parameter(
-            proj_init_method(
-                torch.empty(token_dim, token_dim, dtype=param_dtype, device="cuda")
-            )
-        )
-
         return super().__init__(
-            # TODO
+            attention_type(),
         )
 
 
@@ -49,21 +41,13 @@ def __init__(
         self,
         token_dim: int,
         num_query_heads: int,
-        causal_mask: bool = True,
-        param_dtype: torch.dtype = torch.get_default_dtype(),
-        weight_init_method: ParameterInitMethod = _default_weight_init_method,
-        proj_init_method: ParameterInitMethod = _default_weight_init_method,
-        attention_type: ops.Attention = ops.DotProductAttention,
+        attention_mechanism: Attention,
     ):
         super().__init__(
             token_dim,
             num_query_heads,
             1,
-            causal_mask,
-            param_dtype,
-            weight_init_method,
-            proj_init_method,
-            attention_type,
+            attention_mechanism,
         )
 
 
@@ -71,20 +55,12 @@ class MultiHeadedSelfAttention(GroupedQuerySelfAttention):
     def __init__(
         self,
         token_dim: int,
-        num_query_heads: int,
-        causal_mask: bool = True,
-        param_dtype: torch.dtype = torch.get_default_dtype(),
-        weight_init_method: ParameterInitMethod = _default_weight_init_method,
-        proj_init_method: ParameterInitMethod = _default_weight_init_method,
-        attention_type: ops.Attention = ops.DotProductAttention,
+        num_heads: int,
+        attention_mechanism: Attention,
     ):
         super().__init__(
             token_dim,
-            num_query_heads,
-            num_query_heads,
-            causal_mask,
-            param_dtype,
-            weight_init_method,
-            proj_init_method,
-            attention_type,
+            num_heads,
+            num_heads,
+            attention_mechanism,
         )
diff --git a/transformer_engine/pytorch/sequential/ops/attention.py b/transformer_engine/pytorch/sequential/ops/attention.py
new file mode 100644
index 0000000000..78b3d92459
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ops/attention.py
@@ -0,0 +1,23 @@
+from __future__ import annotations
+from typing import Callable
+from abc import ABC
+from .. import nvte
+from .op import Grads, Op, Context
+
+
+class DotProductAttention(Op, ABC):
+    def __init__(
+        self,
+        *,
+        x_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dy_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        y_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
+    ):
+        self._x_dtype = x_dtype
+        self._dy_dtype = dy_dtype
+        self._y_dtype = y_dtype
+        self._dx_dtype = dx_dtype
+
+    def forward(self, qkv_packed: nvte.Tensor):
+        ...  # TODO
diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/ops/op.py
index 85830c0754..60fd44d5f3 100644
--- a/transformer_engine/pytorch/sequential/ops/op.py
+++ b/transformer_engine/pytorch/sequential/ops/op.py
@@ -18,15 +18,15 @@ def __init__(
     ):
         ...
 
-    def inference(self, x: nvte.Tensor):
+    def inference(self, x: nvte.Tensor, /):
         return self.forward(x)[0]
 
     @abstractmethod
-    def forward(self, x: nvte.Tensor) -> tuple[nvte.Tensor, Context]:
+    def forward(self, x: nvte.Tensor, /) -> tuple[nvte.Tensor, Context]:
         ...
 
     @abstractmethod
-    def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
+    def backward(self, ctx: Context, dy: nvte.Tensor, /) -> tuple[nvte.Tensor, Grads]:
         ...
 
     @abstractmethod
diff --git a/transformer_engine/pytorch/sequential/readme.md b/transformer_engine/pytorch/sequential/readme.md
new file mode 100644
index 0000000000..bc2dd94e28
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/readme.md
@@ -0,0 +1,12 @@
+`Sequential` is meant to be used with Transformer-like models that operate on tokens.
+
+Usually, tensors in Pytorch are 3D: `(batch_size, seq_len, hidden_dim)`.
+The problem with this is that this requires adding padding to make all sequences have the same length.
+
+So, here, it is different. The input is two tensors: _`tokens`_`(total_tokens, hidden_dim)` + _`seq_lens`_`(batch_size)`.
+For the most part, _`seq_lens`_ is unused. Only self-attention takes it into account.
+
+Given any `m: BaseModule`, it can be invoked in one of three ways:
+1. `m(x, seq_lens)` where `x` and `seq_lens` are respectively a 2D and a 1D tensor, as defined above.
+2. `m(x)` where `x` is a 2D tensor - this is equivalent to `m(x, torch.Tensor([x.shape[0]]))`, ie. _`seq_lens`_ is `torch.Tensor([x.shape[0]])` or, simply, `x` is treated as a single token sequence.
+3. `m(x)` where `x` is a 3D tensor - this is equivalent to `m(x.view(-1, x.shape[-1]), torch.Tensor([x.shape[0]] * x.shape[1]))`, which means that `x` is "flattened" from being a 3D tensor to a 2D tensor, and each of its previous slices is assumed to have been a single sequence.

From 2235aaf805ae9c56e3d1a5ac11a28578cc7a0708 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 12:51:00 +0200
Subject: [PATCH 148/535] fix empty()

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/empty.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index db9d477be3..6bf2c45a33 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -18,9 +18,7 @@ def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
     if is_fp8(dtype):
         return _nvte.Tensor(
             dtype,
-            torch.empty(
-                _AMAX_HISTORY_LEN, dtype=te_to_torch_dtype(dtype), device="cuda"
-            ),
+            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
             torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda"),
             torch.empty(1, dtype=torch.float32, device="cuda"),
             torch.empty(1, dtype=torch.float32, device="cuda"),

From 94b8770a82b4225a5aed7e1d5a87f27edc3455ca Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 12:55:58 +0200
Subject: [PATCH 149/535] change normalization parameter computation type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/ops/layernorm.py | 4 ++--
 transformer_engine/pytorch/sequential/ops/rmsnorm.py   | 2 +-
 2 files changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/ops/layernorm.py b/transformer_engine/pytorch/sequential/ops/layernorm.py
index af19058b9d..b0515c0daa 100644
--- a/transformer_engine/pytorch/sequential/ops/layernorm.py
+++ b/transformer_engine/pytorch/sequential/ops/layernorm.py
@@ -12,8 +12,8 @@ def __init__(
         bias: nvte.Tensor,
         *,
         x_dtype: nvte.DType | None = nvte.DType.BFloat16,
-        weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
-        bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        weight_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        bias_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dy_dtype: nvte.DType | None = nvte.DType.BFloat16,
         y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
diff --git a/transformer_engine/pytorch/sequential/ops/rmsnorm.py b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
index 18ba7d7da2..be12b654c1 100644
--- a/transformer_engine/pytorch/sequential/ops/rmsnorm.py
+++ b/transformer_engine/pytorch/sequential/ops/rmsnorm.py
@@ -11,7 +11,7 @@ def __init__(
         weight: nvte.Tensor,
         *,
         x_dtype: nvte.DType | None = nvte.DType.BFloat16,
-        weight_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        weight_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dy_dtype: nvte.DType | None = nvte.DType.BFloat16,
         y_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,

From 4894576242e63b40ef9c43b374f7c131e3c61bfa Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 13:10:26 +0200
Subject: [PATCH 150/535] fix cublasLtMatmulAlgoGetHeuristic error check

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/gemm/cublaslt_gemm.cu | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/common/gemm/cublaslt_gemm.cu b/transformer_engine/common/gemm/cublaslt_gemm.cu
index 7f8b0b723d..6f957b429c 100644
--- a/transformer_engine/common/gemm/cublaslt_gemm.cu
+++ b/transformer_engine/common/gemm/cublaslt_gemm.cu
@@ -229,11 +229,11 @@ void cublas_gemm(const Tensor *inputA,
           preference, CUBLASLT_MATMUL_PREF_MAX_WORKSPACE_BYTES,
           &workspaceSize, sizeof(workspaceSize)));
 
-  NVTE_CHECK_CUBLAS(cublasLtMatmulAlgoGetHeuristic(handle, operationDesc, Adesc, Bdesc, Cdesc,
-                                                   Ddesc, preference, 1, &heuristicResult,
-                                                   &returnedResults));
-
-  if (returnedResults == 0) throw std::runtime_error("Unable to find any suitable algorithms");
+  const auto status = cublasLtMatmulAlgoGetHeuristic(handle, operationDesc, Adesc, Bdesc, Cdesc,
+                                                     Ddesc, preference, 1, &heuristicResult,
+                                                     &returnedResults);
+  if (status == CUBLAS_STATUS_NOT_SUPPORTED) throw std::runtime_error("Unable to find suitable CUBLAS GEMM algorithm.");
+  NVTE_CHECK_CUBLAS(status);
 
   // D = alpha * (A * B) + beta * C
 

From 7bd31c1f2449fafadf3946abc886a85b2a8ead79 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 13:23:21 +0200
Subject: [PATCH 151/535] fix default bias dtype

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/ops/add.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/ops/add.py
index 4dbcf05b2e..d0f633522e 100644
--- a/transformer_engine/pytorch/sequential/ops/add.py
+++ b/transformer_engine/pytorch/sequential/ops/add.py
@@ -9,7 +9,7 @@ def __init__(
         bias: nvte.Tensor,
         *,
         x_dtype: nvte.DType | None = None,
-        bias_dtype: nvte.DType | None = nvte.DType.Float8E4M3,
+        bias_dtype: nvte.DType | None = nvte.DType.BFloat16,
         dy_dtype: nvte.DType | None = None,
         y_dtype: nvte.DType | None = None,
         dx_dtype: nvte.DType | None = nvte.DType.BFloat16,

From 5cdb3ad7646dff42c8c920c79fb675a0dd58d312 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 13:29:56 +0200
Subject: [PATCH 152/535] fix gemm fusion output type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/fusions/mmt.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/fusions/mmt.py b/transformer_engine/pytorch/sequential/fusions/mmt.py
index 572dfd29d4..428039abcd 100644
--- a/transformer_engine/pytorch/sequential/fusions/mmt.py
+++ b/transformer_engine/pytorch/sequential/fusions/mmt.py
@@ -18,7 +18,7 @@ def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     bias = nvte.cast_checked(add.bias, add.bias_dtype)
 
     y = nvte.matmul_transpose_add(
-        x, weight, bias, add.y_dtype or mmt.dy_dtype or x.dtype
+        x, weight, bias, add.y_dtype or mmt.y_dtype or x.dtype
     )
 
     return y
@@ -32,7 +32,7 @@ def mmt_add_fwd_fused(mmt: MMT, add: Add, x: nvte.Tensor):
     bias = nvte.cast_checked(add.bias, add.bias_dtype)
 
     y = nvte.matmul_transpose_add(
-        x, weight, bias, add.y_dtype or mmt.dy_dtype or x.dtype
+        x, weight, bias, add.y_dtype or mmt.y_dtype or x.dtype
     )
 
     return y, ({"x_t": x_t, "weight_t": weight_t}, Context())

From a5b5b7a4175e3ad25c4710aa321f1bf4344f8f48 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 15:35:47 +0200
Subject: [PATCH 153/535] Fix gradients for pf8 tensors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 115 +++++++++++++++---
 1 file changed, 99 insertions(+), 16 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 2c9b6c71e5..a8219bd617 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,3 +1,4 @@
+from dataclasses import dataclass
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
@@ -6,25 +7,30 @@
 from .compute_pipeline import ComputePipeline
 
 
+@dataclass
+class CommWithLoop:
+    nvte_x: nvte.Tensor
+    is_exposed_x_squished_now: bool
+
+
 class ComputePipelineFunction(autograd.Function):
     @staticmethod
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *args: torch.Tensor | Op | list[nvte.Tensor]
+        *args: torch.Tensor | Op | CommWithLoop,
     ):
         """
         exposed_x is used only to let autograd construct the computation graph
         real input and output is in list, as nvte.Tensor is immutable
         exposed_tensors are exposed for the optimizer to later apply gradients
         """
-        exposed_tensors, op, nvte_x_container = args[:-2], args[-2], args[-1]
+        exposed_tensors, op, comm = args[:-2], args[-2], args[-1]
         del exposed_tensors
 
         assert isinstance(op, Op)
-        assert isinstance(nvte_x_container, list)
-        assert len(nvte_x_container) == 1
-        nvte_x = nvte_x_container[0]
+        assert isinstance(comm, CommWithLoop)
+        nvte_x = comm.nvte_x
         assert isinstance(nvte_x, nvte.Tensor)
 
         nvte.set_current_pass("forward")
@@ -47,7 +53,21 @@ def forward(  # type: ignore[arg-type]
         setattr(ctx, "nvte_op", op)
 
         # Actually store the result
-        nvte_x_container[0] = y
+        comm.nvte_x = y
+
+        # Unsquish x if needed:
+        if comm.is_exposed_x_squished_now:
+            _unsquish(exposed_x)
+            comm.is_exposed_x_squished_now = False
+            # If the input to the forward was squished,
+            # Pytorch will expect its gradient to be squished
+            # as well. The backward of this forward will be
+            # responsible for producing the gradient of
+            # this squished input, so it is responsible for
+            # squishing it.
+            setattr(ctx, "nvte_squish_outgoing_dgrad", True)
+        else:
+            setattr(ctx, "nvte_squish_outgoing_dgrad", False)
 
         # Expose result for Pytorch
         x_data = exposed_x.data
@@ -56,6 +76,26 @@ def forward(  # type: ignore[arg-type]
         exposed_x.data = x_data
         exposed_y.data = y.data
 
+        # Squish y if fp8:
+        if exposed_y.data.dtype == torch.int8:
+            # Pytorch will break the computation graph
+            # if it will see an output tensor of an integer type.
+            # As fp8 tensors internally have dtype int8,
+            # we need to pretend that this type is actually different.
+            # This doesn't work in TorchScript, but this code
+            # won't run at inference anyway.
+            _squish(exposed_y)
+            # Because the output is squished, the gradient also needs to be.
+            # The backward of this forward recieves the gradient of the
+            # output as its input. So, the backward before it needs
+            # to squish it, while the backward coresponding to this
+            # forward needs to unsquish it.
+            setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
+            comm.is_exposed_x_squished_now = True
+        else:
+            setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
+            comm.is_exposed_x_squished_now = False
+
         return exposed_y
 
     @staticmethod
@@ -67,29 +107,40 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         saved: Context = getattr(ctx, "nvte_ctx")
         op: Op = getattr(ctx, "nvte_op")
 
+        # Make sure that the gradient is contiguous
+        grad_output = grad_output.contiguous()  # TODO: use transposed gradient instead
+
+        # Check if incoming gradient needs to be unsquished
+        unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
+        if unsquish_incoming_dgrad:
+            _unsquish(grad_output)
+
         nvte.set_current_pass("backward")
-        data_grad, param_grads = op.backward(
-            saved, nvte.make_nvte_tensor(grad_output.contiguous())
-        )  # TODO: avoid this call to contiguous
+        data_grad, param_grads = op.backward(saved, nvte.make_nvte_tensor(grad_output))
 
         # Check that gradients are not fp8 and can be processed by the optimizer
         # TODO: change this when fp8 optimizer comes along
-        assert not nvte.is_fp8(data_grad)
         assert all(not nvte.is_fp8(g) for g in param_grads)
 
-        torch_grads = [data_grad.data] + [g.data for g in param_grads]
+        # Check if outgoing gradient needs to be squished
+        exposed_dgrad = data_grad.data
+        squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
+        if squish_outgoing_dgrad:
+            _squish(exposed_dgrad)
+
+        torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
 
         return (*torch_grads, None, None)
 
 
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
-    nvte_x = nvte.make_nvte_tensor(x)
     if not training:
         nvte.set_current_pass("inference")
-        y = pipeline.run_inference(nvte_x)
+        y = pipeline.run_inference(nvte.make_nvte_tensor(x))
         assert not nvte.is_fp8(y)
         return y.data
     else:
+        comm = CommWithLoop(nvte.make_nvte_tensor(x), False)
         for contained_op in pipeline.functions:
             nvte_tensors = contained_op.require_grad()
             exposed_tensors = list[torch.Tensor]()
@@ -98,9 +149,41 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                     nvte_tensor
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
-            nvte_x_container = [nvte_x]
             x = ComputePipelineFunction.apply(  # type: ignore
-                x, *exposed_tensors, contained_op, nvte_x_container
+                x, *exposed_tensors, contained_op, comm
             )
-            nvte_x = nvte_x_container[0]
         return x
+
+
+# The squish needs to be invertible and
+# always reduce the size of the tensor by the same
+# amount.
+#
+# If a tensor is to be squished, it must have been
+#   1. an fp8 result from forward
+#   2. an outgoing gradient
+#
+# The outgoing gradient could have any type,
+# but it is reasonable to assume that if someone is
+# using fp8, they are also probably using bfloat16
+# rather than float16.
+#
+# And they probably won't be using float64.
+SQUISH_TABLE = {
+    torch.int8: torch.float16,
+    torch.bfloat16: torch.float32,
+    torch.float32: torch.float64,
+}
+UNSQUISH_TABLE = {v: k for k, v in SQUISH_TABLE.items()}
+
+
+def _unsquish(t: torch.Tensor):
+    assert t.data.dtype in UNSQUISH_TABLE
+    t.data = t.data.view(UNSQUISH_TABLE[t.data.dtype])
+
+
+def _squish(t: torch.Tensor):
+    if t.data.dtype in SQUISH_TABLE:
+        t.data = t.data.view(SQUISH_TABLE[t.data.dtype])
+    else:
+        raise RuntimeError("Invalid dtype of gradient for FP8 tensor.")

From 05657e4c4446d4a2e7eb2ed3c01330f372a1516e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 15:50:20 +0200
Subject: [PATCH 154/535] fix issue with squishing

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py    | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index a8219bd617..9cd3276b85 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -57,7 +57,13 @@ def forward(  # type: ignore[arg-type]
 
         # Unsquish x if needed:
         if comm.is_exposed_x_squished_now:
-            _unsquish(exposed_x)
+            # Intentionally commented out - _unsquish(exposed_x)
+            # We don't need to perform the unsquish itself, as this
+            # data will not be read anyway.
+            # Actually, we cannot do that, as x,
+            # cannot be modified in place.
+            # It is only really neccesarry to notify
+            # the backward.
             comm.is_exposed_x_squished_now = False
             # If the input to the forward was squished,
             # Pytorch will expect its gradient to be squished
@@ -72,7 +78,7 @@ def forward(  # type: ignore[arg-type]
         # Expose result for Pytorch
         x_data = exposed_x.data
         exposed_x.data = torch.Tensor()  # avoid copy
-        exposed_y = exposed_x.clone()
+        exposed_y = exposed_x.clone()  # copy history
         exposed_x.data = x_data
         exposed_y.data = y.data
 

From 6091188f2f10639a765faf330a5e1fd7461e8902 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 15:54:30 +0200
Subject: [PATCH 155/535] remove some assertions

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/mmt.py | 8 --------
 1 file changed, 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 85be102d2f..0ab4a07d60 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -33,20 +33,16 @@ def _to_cublas_args(A: _nvte.Tensor, B: _nvte.Tensor, transA: bool, transB: bool
 
 def matmul_transpose(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
     "returns mat @ mul^T"
-    # TODO: this should be allowed, though cublaslt_gemm cannot be used in this case
-    assert mat.dtype == mul.dtype
     return matmul_transpose_add(mat, mul, empty(), out_dtype)
 
 
 def matmul_transpose_gelu(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
     "returns mat @ mul^T, GELU(mat @ mul^T)"
-    assert mat.dtype == mul.dtype
     return matmul_transpose_add_gelu(mat, mul, empty(), out_dtype)
 
 
 def matmul_transpose_gelu_add(mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor):
     "returns mat @ mul^T, GELU(mat @ mul^T) + add"
-    assert mat.dtype == mul.dtype
     return matmul_transpose_add_gelu_add(mat, mul, empty(), add)
 
 
@@ -54,7 +50,6 @@ def matmul_transpose_add(
     mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
 ):
     "returns mat @ mul^T + add"
-    assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
     _nvte.cublas_gemm(
@@ -78,7 +73,6 @@ def matmul_transpose_add_gelu(
     mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
 ):
     "returns mat @ mul^T + add, GELU(mat @ mul^T + add)"
-    assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
     pre_gelu = empty(out.shape, add.dtype)
@@ -103,7 +97,6 @@ def matmul_transpose_add_add(
     mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
 ):
     "returns mat @ mul^T + add1 + add2"
-    assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     _nvte.cublas_gemm(
         a,
@@ -126,7 +119,6 @@ def matmul_transpose_add_gelu_add(
     mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
 ):
     "returns mat @ mul^T + add1, GELU(mat @ mul^T + add1) + add2"
-    assert mat.dtype == mul.dtype
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     pre_gelu = empty(add2.shape, add1.dtype)
     _nvte.cublas_gemm(

From 20dc8c360cced18341e8b1c42a4602eb550c60d9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 16:01:52 +0200
Subject: [PATCH 156/535] fix fp8 gradients

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py     | 3 ---
 transformer_engine/pytorch/sequential/nvte/_pass.py       | 2 ++
 transformer_engine/pytorch/sequential/nvte/dtype.py       | 7 +++++++
 transformer_engine/pytorch/sequential/nvte/interface.py   | 5 ++---
 transformer_engine/pytorch/sequential/nvte/mmt.py         | 2 +-
 .../pytorch/sequential/nvte/normalization.py              | 8 ++++----
 6 files changed, 16 insertions(+), 11 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/nvte/_pass.py

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 405b693016..9d04496944 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,10 +1,7 @@
-from typing import Literal
 import torch
 from . import _nvte
 from .dtype import torch_to_te_dtype
 
-pass_: Literal["forward", "backward", "inference"] = None  # type: ignore
-
 
 def make_nvte_tensor(t: torch.Tensor):
     return _nvte.Tensor(
diff --git a/transformer_engine/pytorch/sequential/nvte/_pass.py b/transformer_engine/pytorch/sequential/nvte/_pass.py
new file mode 100644
index 0000000000..1c460e4682
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/_pass.py
@@ -0,0 +1,2 @@
+from typing import Literal
+pass_: Literal["forward", "backward", "inference"] = None  # type: ignore
diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index eff22936f0..ee7e5ccc90 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -1,5 +1,6 @@
 import torch
 from . import _nvte
+from ._pass import pass_
 
 
 def te_to_torch_dtype(dtype: _nvte.DType):
@@ -24,6 +25,12 @@ def te_to_torch_dtype(dtype: _nvte.DType):
 
 def torch_to_te_dtype(dtype: torch.dtype):
     match dtype:
+        case torch.int8:
+            return (
+                _nvte.DType.Float8E5M2
+                if pass_ == "backward"
+                else _nvte.DType.Float8E4M3
+            )
         case torch.int:
             return _nvte.DType.Int32
         case torch.int32:
diff --git a/transformer_engine/pytorch/sequential/nvte/interface.py b/transformer_engine/pytorch/sequential/nvte/interface.py
index 2d81e1432c..e7aa9f6b69 100644
--- a/transformer_engine/pytorch/sequential/nvte/interface.py
+++ b/transformer_engine/pytorch/sequential/nvte/interface.py
@@ -1,7 +1,6 @@
 from typing import Literal
-from . import _common
-
+from . import _pass
 
 
 def set_current_pass(pass__: Literal["forward", "backward", "inference"]):
-    _common.pass_ = pass__
+    _pass.pass_ = pass__
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 0ab4a07d60..84a7abb723 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -3,7 +3,7 @@
 import torch
 from . import _nvte
 from .empty import empty
-from ._common import pass_
+from ._pass import pass_
 
 
 @cache
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index dc81a5ef94..3cdcc2b566 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -3,7 +3,7 @@
 from contextlib import contextmanager
 import torch
 from . import _nvte
-from ._common import pass_
+from ._pass import pass_
 from .dtype import dtype_name
 from .empty import empty, empty_like
 
@@ -141,7 +141,7 @@ def dlayernorm(
     else:
         func = _nvte.layernorm_bwd
 
-    with _handle_unsupported_config("dlayernorm",x.shape[1], gamma, x, dx):
+    with _handle_unsupported_config("dlayernorm", x.shape[1], gamma, x, dx):
         workspace = empty()
         barrier = empty()
         dgamma_part = empty()
@@ -190,7 +190,7 @@ def rmsnorm(
     else:
         func = _nvte.rmsnorm_fwd
 
-    with _handle_unsupported_config("rmsnorm",hidden_size, gamma, x, out):
+    with _handle_unsupported_config("rmsnorm", hidden_size, gamma, x, out):
         workspace = empty()
         barrier = empty()
         for _ in range(2):
@@ -229,7 +229,7 @@ def drmsnorm(
     else:
         func = _nvte.rmsnorm_bwd
 
-    with _handle_unsupported_config("drmsnorm",x.shape[1], gamma, x, dx):
+    with _handle_unsupported_config("drmsnorm", x.shape[1], gamma, x, dx):
         workspace = empty()
         barrier = empty()
         dgamma_part = empty()

From 38c289eb7eb163795575b9302d405aa5bdf9e25f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 16:30:47 +0200
Subject: [PATCH 157/535] fix fp8 gradients

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 59 ++++++++++++++++---
 .../pytorch/sequential/nvte/dtype.py          |  6 --
 2 files changed, 52 insertions(+), 13 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 9cd3276b85..9f5daf4b19 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from dataclasses import dataclass
 import torch
 from torch import autograd
@@ -11,6 +12,21 @@
 class CommWithLoop:
     nvte_x: nvte.Tensor
     is_exposed_x_squished_now: bool
+    upcoming_backward: BackwardComm | None
+
+
+class BackwardComm:
+    _nvte_grad_output: nvte.Tensor | None = None
+
+    @property
+    def nvte_grad_output(self):
+        assert self._nvte_grad_output is not None
+        return self._nvte_grad_output
+
+    @nvte_grad_output.setter
+    def nvte_grad_output(self, t: nvte.Tensor):
+        assert self._nvte_grad_output is None
+        self._nvte_grad_output = t
 
 
 class ComputePipelineFunction(autograd.Function):
@@ -102,6 +118,15 @@ def forward(  # type: ignore[arg-type]
             setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
             comm.is_exposed_x_squished_now = False
 
+        # Save backward comm
+        # This object is allows for the current backward to
+        # pass data to the next backward (the backward of the
+        # preceding operation). This is needed to pass
+        # fp8 gradients properly.
+        setattr(ctx, "nvte_upcoming_backward_comm", comm.upcoming_backward)
+        comm.upcoming_backward = BackwardComm()
+        setattr(ctx, "nvte_preceding_backward_comm", comm.upcoming_backward)
+
         return exposed_y
 
     @staticmethod
@@ -109,11 +134,6 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         # The context needs to think that the tensors were read
         _ = ctx.saved_tensors  # type: ignore
 
-        # Get real context
-        saved: Context = getattr(ctx, "nvte_ctx")
-        op: Op = getattr(ctx, "nvte_op")
-
-        # Make sure that the gradient is contiguous
         grad_output = grad_output.contiguous()  # TODO: use transposed gradient instead
 
         # Check if incoming gradient needs to be unsquished
@@ -121,8 +141,33 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         if unsquish_incoming_dgrad:
             _unsquish(grad_output)
 
+        # Get real context
+        saved: Context = getattr(ctx, "nvte_ctx")
+        op: Op = getattr(ctx, "nvte_op")
+        preceding_backward: BackwardComm | None = getattr(
+            ctx, "nvte_preceding_backward_comm"
+        )
+        upcoming_backward: BackwardComm | None = getattr(
+            ctx, "nvte_upcoming_backward_comm"
+        )
+
+        # Get real gradient
+        if preceding_backward is None:
+            # This is the first backward in the compute pipeline
+            nvte_grad = nvte.make_nvte_tensor(grad_output)
+        else:
+            nvte_grad = preceding_backward.nvte_grad_output
+        del grad_output
+
         nvte.set_current_pass("backward")
-        data_grad, param_grads = op.backward(saved, nvte.make_nvte_tensor(grad_output))
+        data_grad, param_grads = op.backward(saved, nvte_grad)
+
+        # Store real gradient for next backward in pipeline
+        if upcoming_backward is None:
+            # This is the last backward in the compute pipeline
+            assert not nvte.is_fp8(data_grad)
+        else:
+            upcoming_backward.nvte_grad_output = data_grad
 
         # Check that gradients are not fp8 and can be processed by the optimizer
         # TODO: change this when fp8 optimizer comes along
@@ -146,7 +191,7 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         assert not nvte.is_fp8(y)
         return y.data
     else:
-        comm = CommWithLoop(nvte.make_nvte_tensor(x), False)
+        comm = CommWithLoop(nvte.make_nvte_tensor(x), False, None)
         for contained_op in pipeline.functions:
             nvte_tensors = contained_op.require_grad()
             exposed_tensors = list[torch.Tensor]()
diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index ee7e5ccc90..22efec11e8 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -25,12 +25,6 @@ def te_to_torch_dtype(dtype: _nvte.DType):
 
 def torch_to_te_dtype(dtype: torch.dtype):
     match dtype:
-        case torch.int8:
-            return (
-                _nvte.DType.Float8E5M2
-                if pass_ == "backward"
-                else _nvte.DType.Float8E4M3
-            )
         case torch.int:
             return _nvte.DType.Int32
         case torch.int32:

From d9a55d8448f2de0313dbdeec1609f707154b0fc0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 16:34:55 +0200
Subject: [PATCH 158/535] fix fp8 gradient again

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py    | 18 +++---------------
 1 file changed, 3 insertions(+), 15 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 9f5daf4b19..7e026962f6 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -16,17 +16,7 @@ class CommWithLoop:
 
 
 class BackwardComm:
-    _nvte_grad_output: nvte.Tensor | None = None
-
-    @property
-    def nvte_grad_output(self):
-        assert self._nvte_grad_output is not None
-        return self._nvte_grad_output
-
-    @nvte_grad_output.setter
-    def nvte_grad_output(self, t: nvte.Tensor):
-        assert self._nvte_grad_output is None
-        self._nvte_grad_output = t
+    nvte_grad_output: nvte.Tensor | None = None
 
 
 class ComputePipelineFunction(autograd.Function):
@@ -144,15 +134,13 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         # Get real context
         saved: Context = getattr(ctx, "nvte_ctx")
         op: Op = getattr(ctx, "nvte_op")
-        preceding_backward: BackwardComm | None = getattr(
-            ctx, "nvte_preceding_backward_comm"
-        )
+        preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
         upcoming_backward: BackwardComm | None = getattr(
             ctx, "nvte_upcoming_backward_comm"
         )
 
         # Get real gradient
-        if preceding_backward is None:
+        if preceding_backward.nvte_grad_output is None:
             # This is the first backward in the compute pipeline
             nvte_grad = nvte.make_nvte_tensor(grad_output)
         else:

From a99941c4192b3bde25fcadeb7d7bee402e0eb1d8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 17:26:34 +0200
Subject: [PATCH 159/535] change metatensor initialization

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/empty.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 6bf2c45a33..567993fad6 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -19,9 +19,9 @@ def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
         return _nvte.Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda"),
-            torch.empty(1, dtype=torch.float32, device="cuda"),
-            torch.empty(1, dtype=torch.float32, device="cuda"),
+            torch.zeros(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda"),
+            torch.ones(1, dtype=torch.float32, device="cuda"),
+            torch.ones(1, dtype=torch.float32, device="cuda"),
         )
     else:
         return _nvte.Tensor(

From 63aef5c21e0ee2a1a1d890f866f2c02b42faa915 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 17:28:17 +0200
Subject: [PATCH 160/535] add simple test

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/simple_prec_compare.py | 28 +++++++++++++++++++++++++
 1 file changed, 28 insertions(+)
 create mode 100644 tests/sequential/simple_prec_compare.py

diff --git a/tests/sequential/simple_prec_compare.py b/tests/sequential/simple_prec_compare.py
new file mode 100644
index 0000000000..1bf638c965
--- /dev/null
+++ b/tests/sequential/simple_prec_compare.py
@@ -0,0 +1,28 @@
+import torch
+import transformer_engine.pytorch.sequential as seq
+
+N = 2048
+HIDDEN_DIM = 1024
+x = torch.rand(N, HIDDEN_DIM, device="cuda", requires_grad=True)
+
+m = seq.Sequential(
+    seq.RMSNorm(HIDDEN_DIM),
+    seq.Linear(HIDDEN_DIM, 4 * HIDDEN_DIM),
+    seq.SwiGLU(),
+    seq.Linear(2 * HIDDEN_DIM, HIDDEN_DIM),
+)
+
+with seq.environment(seq.nvte.DType.Float8E4M3):
+    y = m(x)
+    y.sum().backward()
+    print(x.grad)
+
+with seq.environment(seq.nvte.DType.BFloat16):
+    y = m(x)
+    y.sum().backward()
+    print(x.grad)
+
+with seq.environment(seq.nvte.DType.Float32):
+    y = m(x)
+    y.sum().backward()
+    print(x.grad)

From 824ac3f0917487f3b3776f9ae0a4ef6dd4a8a13e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 17:30:33 +0200
Subject: [PATCH 161/535] reset grads in test

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/simple_prec_compare.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/tests/sequential/simple_prec_compare.py b/tests/sequential/simple_prec_compare.py
index 1bf638c965..77875953c8 100644
--- a/tests/sequential/simple_prec_compare.py
+++ b/tests/sequential/simple_prec_compare.py
@@ -16,13 +16,16 @@
     y = m(x)
     y.sum().backward()
     print(x.grad)
+    x.grad = None
 
 with seq.environment(seq.nvte.DType.BFloat16):
     y = m(x)
     y.sum().backward()
     print(x.grad)
+    x.grad = None
 
 with seq.environment(seq.nvte.DType.Float32):
     y = m(x)
     y.sum().backward()
     print(x.grad)
+    x.grad = None

From cf963c001b46fa6c0b1f89dccaa8f1e6618a352f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 17:35:10 +0200
Subject: [PATCH 162/535] change print in test

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/simple_prec_compare.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/tests/sequential/simple_prec_compare.py b/tests/sequential/simple_prec_compare.py
index 77875953c8..7e2db27363 100644
--- a/tests/sequential/simple_prec_compare.py
+++ b/tests/sequential/simple_prec_compare.py
@@ -12,6 +12,8 @@
     seq.Linear(2 * HIDDEN_DIM, HIDDEN_DIM),
 )
 
+torch.set_printoptions(precision=4, sci_mode=False)
+
 with seq.environment(seq.nvte.DType.Float8E4M3):
     y = m(x)
     y.sum().backward()

From 163ecc932d01ca28abde283d7a1f2d4551d74fd0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 18 Aug 2023 17:38:51 +0200
Subject: [PATCH 163/535] fix other place with init of metatensors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/empty.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 567993fad6..2647ccca66 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -38,9 +38,9 @@ def empty_like(t: _nvte.Tensor):
 
 
 def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]):
-    amax = torch.empty(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda")
-    scale = torch.empty(1, dtype=torch.float32, device="cuda")
-    scale_inv = torch.empty(1, dtype=torch.float32, device="cuda")
+    amax = torch.zeros(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda")
+    scale = torch.ones(1, dtype=torch.float32, device="cuda")
+    scale_inv = torch.ones(1, dtype=torch.float32, device="cuda")
 
     return tuple(
         _nvte.Tensor(

From 07fa55e05cb73c6684025041f2fb9a1e498c3014 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 12:59:06 +0200
Subject: [PATCH 164/535] explicitly query dtype and shape from nvte

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/__init__.py       |  3 +-
 .../pytorch/sequential/nvte/_common.py        |  4 +-
 .../pytorch/sequential/nvte/activation.py     | 21 ++++---
 .../pytorch/sequential/nvte/add.py            |  5 +-
 .../pytorch/sequential/nvte/cast_transpose.py | 21 ++++---
 .../pytorch/sequential/nvte/dtype.py          |  5 +-
 .../pytorch/sequential/nvte/empty.py          | 13 ++--
 .../pytorch/sequential/nvte/misc_fusions.py   | 15 ++---
 .../pytorch/sequential/nvte/mmt.py            | 25 +++-----
 .../pytorch/sequential/nvte/normalization.py  | 61 +++++++++----------
 .../pytorch/sequential/nvte/tensor.py         | 32 ++++++++++
 11 files changed, 119 insertions(+), 86 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/nvte/tensor.py

diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index 7e7f66beb3..05ac2665fb 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -1,5 +1,6 @@
 from ._common import make_nvte_tensor
-from ._nvte import QKVLayout, BiasType, MaskType, FusedAttnBackend, DType, Tensor
+from ._nvte import QKVLayout, BiasType, MaskType, FusedAttnBackend, DType
+from .tensor import Tensor
 from .add import add, dbias
 from .cast_transpose import (
     cast_checked,
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 9d04496944..fb4c33cef6 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,10 +1,10 @@
 import torch
-from . import _nvte
+from .tensor import Tensor
 from .dtype import torch_to_te_dtype
 
 
 def make_nvte_tensor(t: torch.Tensor):
-    return _nvte.Tensor(
+    return Tensor(
         torch_to_te_dtype(t.dtype),
         t.data,
         torch.Tensor(),
diff --git a/transformer_engine/pytorch/sequential/nvte/activation.py b/transformer_engine/pytorch/sequential/nvte/activation.py
index a5a4e54baa..d532ad3d8b 100644
--- a/transformer_engine/pytorch/sequential/nvte/activation.py
+++ b/transformer_engine/pytorch/sequential/nvte/activation.py
@@ -1,62 +1,63 @@
 from . import _nvte
+from .tensor import Tensor
 from .empty import empty
 
 
-def relu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+def relu(x: Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.relu(x, output)
     return output
 
 
-def drelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+def drelu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.drelu(grad, x, output)
     return output
 
 
-def gelu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+def gelu(x: Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.gelu(x, output)
     return output
 
 
-def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+def dgelu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.dgelu(grad, x, output)
     return output
 
 
-def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+def reglu(x: Tensor, out_dtype: _nvte.DType):
     output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.reglu(x, output)
     return output
 
 
-def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+def dreglu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.dreglu(grad, x, output)
     return output
 
 
-def geglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+def geglu(x: Tensor, out_dtype: _nvte.DType):
     output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.geglu(x, output)
     return output
 
 
-def dgeglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+def dgeglu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.dgeglu(grad, x, output)
     return output
 
 
-def swiglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+def swiglu(x: Tensor, out_dtype: _nvte.DType):
     output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.swiglu(x, output)
     return output
 
 
-def dswiglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+def dswiglu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.dswiglu(grad, x, output)
     return output
diff --git a/transformer_engine/pytorch/sequential/nvte/add.py b/transformer_engine/pytorch/sequential/nvte/add.py
index b01d352965..f75d30e1c9 100644
--- a/transformer_engine/pytorch/sequential/nvte/add.py
+++ b/transformer_engine/pytorch/sequential/nvte/add.py
@@ -1,10 +1,11 @@
 import torch
 from . import _nvte
+from .tensor import Tensor
 from ._common import make_nvte_tensor
 from .dtype import is_fp8, te_to_torch_dtype
 
 
-def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
+def add(A: Tensor, B: Tensor, out_dtype: _nvte.DType):
     if is_fp8(A) or is_fp8(B):
         raise NotImplementedError()
     else:
@@ -13,7 +14,7 @@ def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
         return make_nvte_tensor(output)
 
 
-def dbias(grad: _nvte.Tensor, out_dtype: _nvte.DType):
+def dbias(grad: Tensor, out_dtype: _nvte.DType):
     if is_fp8(grad):
         raise NotImplementedError()
     else:
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index 6a8445d99b..a3f40869a3 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -1,9 +1,10 @@
 from . import _nvte
+from .tensor import Tensor
 from .dtype import is_fp8
 from .empty import empty, multi_empty_share_metadata
 
 
-def cast(t: _nvte.Tensor, dtype: _nvte.DType):
+def cast(t: Tensor, dtype: _nvte.DType):
     assert t.dtype != dtype
     if is_fp8(t):
         assert not is_fp8(dtype)
@@ -19,20 +20,20 @@ def cast(t: _nvte.Tensor, dtype: _nvte.DType):
     return output
 
 
-def cast_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
+def cast_checked(t: Tensor, dtype: _nvte.DType | None):
     if dtype is None or t.dtype == dtype:
         return t
     else:
         return cast(t, dtype)
 
 
-def transpose(t: _nvte.Tensor):
+def transpose(t: Tensor):
     output = empty(t.shape[::-1], t.dtype)
     _nvte.transpose(t, output)
     return output
 
 
-def cast_transpose(t: _nvte.Tensor, dtype: _nvte.DType):
+def cast_transpose(t: Tensor, dtype: _nvte.DType):
     assert t.dtype != dtype
     if is_fp8(t):
         assert not is_fp8(dtype)
@@ -45,14 +46,14 @@ def cast_transpose(t: _nvte.Tensor, dtype: _nvte.DType):
     return out_cast, out_transpose
 
 
-def cast_transpose_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
+def cast_transpose_checked(t: Tensor, dtype: _nvte.DType | None):
     if dtype is None or t.dtype == dtype:
         return t, transpose(t)
     else:
         return cast_transpose(t, dtype)
 
 
-def multi_cast_transpose(*desc: tuple[_nvte.Tensor, _nvte.DType]):
+def multi_cast_transpose(*desc: tuple[Tensor, _nvte.DType]):
     outs = [
         multi_empty_share_metadata((t.shape, dtype), (t.shape[::-1], dtype))
         for t, dtype in desc
@@ -63,9 +64,9 @@ def multi_cast_transpose(*desc: tuple[_nvte.Tensor, _nvte.DType]):
     return outs
 
 
-def multi_cast_transpose_checked(*desc: tuple[_nvte.Tensor, _nvte.DType | None]):
-    transpose_results = list[tuple[_nvte.Tensor, _nvte.Tensor] | None]()
-    to_cast_transpose = list[tuple[_nvte.Tensor, _nvte.DType]]()
+def multi_cast_transpose_checked(*desc: tuple[Tensor, _nvte.DType | None]):
+    transpose_results = list[tuple[Tensor, Tensor] | None]()
+    to_cast_transpose = list[tuple[Tensor, _nvte.DType]]()
     for t, dtype in desc:
         if dtype is None or t.dtype == dtype:
             transpose_results.append((t, transpose(t)))
@@ -75,7 +76,7 @@ def multi_cast_transpose_checked(*desc: tuple[_nvte.Tensor, _nvte.DType | None])
     cast_transpose_results = (
         multi_cast_transpose(*to_cast_transpose) if to_cast_transpose else []
     )
-    results = list[tuple[_nvte.Tensor, _nvte.Tensor]]()
+    results = list[tuple[Tensor, Tensor]]()
     i = 0
     for result in transpose_results:
         if result is None:
diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index 22efec11e8..87efb88c6c 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -1,5 +1,6 @@
 import torch
 from . import _nvte
+from .tensor import Tensor
 from ._pass import pass_
 
 
@@ -85,8 +86,8 @@ def dtype_name(dtype: _nvte.DType):
             return "fp8e5m2"
 
 
-def is_fp8(t: _nvte.Tensor | _nvte.DType):
-    if isinstance(t, _nvte.Tensor):
+def is_fp8(t: Tensor | _nvte.DType):
+    if isinstance(t, Tensor):
         dtype = t.dtype
     else:
         dtype = t
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 2647ccca66..93d837a32a 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -1,6 +1,7 @@
 from typing import Sequence
 import torch
 from . import _nvte
+from .tensor import Tensor
 from .dtype import te_to_torch_dtype, is_fp8
 
 _AMAX_HISTORY_LEN = 512
@@ -8,7 +9,7 @@
 
 def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
     if shape == ():
-        return _nvte.Tensor(
+        return Tensor(
             dtype,
             torch.Tensor(),
             torch.Tensor(),
@@ -16,7 +17,7 @@ def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
             torch.Tensor(),
         )
     if is_fp8(dtype):
-        return _nvte.Tensor(
+        return Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
             torch.zeros(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda"),
@@ -24,7 +25,7 @@ def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
             torch.ones(1, dtype=torch.float32, device="cuda"),
         )
     else:
-        return _nvte.Tensor(
+        return Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
             torch.Tensor(),
@@ -33,7 +34,7 @@ def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
         )
 
 
-def empty_like(t: _nvte.Tensor):
+def empty_like(t: Tensor):
     return empty(t.shape, t.dtype)
 
 
@@ -43,7 +44,7 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
     scale_inv = torch.ones(1, dtype=torch.float32, device="cuda")
 
     return tuple(
-        _nvte.Tensor(
+        Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
             amax,
@@ -51,7 +52,7 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
             scale_inv,
         )
         if is_fp8(dtype)
-        else _nvte.Tensor(
+        else Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
             torch.Tensor(),
diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index b87266f023..532b9aeeeb 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -3,10 +3,11 @@
 from .cast_transpose import cast_transpose_checked
 from .empty import multi_empty_share_metadata, empty, empty_like
 from .add import dbias
+from .tensor import Tensor
 
 
 def cast_transpose_dbias_checked(
-    grad: _nvte.Tensor, cast_dtype: _nvte.DType | None, dbias_dtype: _nvte.DType
+    grad: Tensor, cast_dtype: _nvte.DType | None, dbias_dtype: _nvte.DType
 ):
     if (
         dbias_dtype == grad.dtype
@@ -22,7 +23,7 @@ def cast_transpose_dbias_checked(
             _nvte.cast_transpose_dbias(
                 grad, grad_cast, grad_transpose, out_dbias, workspace
             )
-            workspace = empty_like(workspace)
+            workspace = empty_like(workspace.query_shape_and_dtype_())
         return grad_cast, grad_transpose, out_dbias
     elif is_fp8(grad) and (cast_dtype is None or cast_dtype == grad.dtype):
         grad_transpose = empty(grad.shape[::-1], grad.dtype)
@@ -30,7 +31,7 @@ def cast_transpose_dbias_checked(
         workspace = empty()
         for _ in range(2):
             _nvte.fp8_transpose_dbias(grad, grad_transpose, out_dbias, workspace)
-            workspace = empty_like(workspace)
+            workspace = empty_like(workspace.query_shape_and_dtype_())
         return grad, grad_transpose, out_dbias
     else:
         grad_cast, grad_transpose = cast_transpose_checked(grad, cast_dtype)
@@ -39,8 +40,8 @@ def cast_transpose_dbias_checked(
 
 
 def cast_transpose_dbias_dgelu_checked(
-    grad: _nvte.Tensor,
-    pre_gelu: _nvte.Tensor,
+    grad: Tensor,
+    pre_gelu: Tensor,
     cast_dtype: _nvte.DType | None,
     dbias_dtype: _nvte.DType,
 ):
@@ -59,7 +60,7 @@ def cast_transpose_dbias_dgelu_checked(
             _nvte.cast_transpose_dbias_dgelu(
                 grad, pre_gelu, dgelu_cast, dgelu_transpose, out_dbias, workspace
             )
-            workspace = empty_like(workspace)
+            workspace = empty_like(workspace.query_shape_and_dtype_())
         return dgelu_cast, dgelu_transpose, out_dbias
     else:
         dgelu = empty(grad.shape, cast_dtype or grad.dtype)
@@ -68,7 +69,7 @@ def cast_transpose_dbias_dgelu_checked(
 
 
 def cast_transpose_dgeglu_checked(
-    grad: _nvte.Tensor, pre_geglu: _nvte.Tensor, cast_dtype: _nvte.DType | None
+    grad: Tensor, pre_geglu: Tensor, cast_dtype: _nvte.DType | None
 ):
     if (
         grad.dtype == pre_geglu.dtype
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 84a7abb723..9afbb15d79 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -4,6 +4,7 @@
 from . import _nvte
 from .empty import empty
 from ._pass import pass_
+from .tensor import Tensor
 
 
 @cache
@@ -22,33 +23,31 @@ def _is_hopper():
 def _cublas_workspace():
     workspace_size = 33_554_432 if _is_hopper() else 4_194_304
     data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
-    return _nvte.Tensor(
+    return Tensor(
         _nvte.DType.Byte, data, torch.Tensor(), torch.Tensor(), torch.Tensor()
     )
 
 
-def _to_cublas_args(A: _nvte.Tensor, B: _nvte.Tensor, transA: bool, transB: bool):
+def _to_cublas_args(A: Tensor, B: Tensor, transA: bool, transB: bool):
     return B, A, not transA, not transB
 
 
-def matmul_transpose(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
+def matmul_transpose(mat: Tensor, mul: Tensor, out_dtype: _nvte.DType):
     "returns mat @ mul^T"
     return matmul_transpose_add(mat, mul, empty(), out_dtype)
 
 
-def matmul_transpose_gelu(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
+def matmul_transpose_gelu(mat: Tensor, mul: Tensor, out_dtype: _nvte.DType):
     "returns mat @ mul^T, GELU(mat @ mul^T)"
     return matmul_transpose_add_gelu(mat, mul, empty(), out_dtype)
 
 
-def matmul_transpose_gelu_add(mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor):
+def matmul_transpose_gelu_add(mat: Tensor, mul: Tensor, add: Tensor):
     "returns mat @ mul^T, GELU(mat @ mul^T) + add"
     return matmul_transpose_add_gelu_add(mat, mul, empty(), add)
 
 
-def matmul_transpose_add(
-    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
-):
+def matmul_transpose_add(mat: Tensor, mul: Tensor, add: Tensor, out_dtype: _nvte.DType):
     "returns mat @ mul^T + add"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
@@ -70,7 +69,7 @@ def matmul_transpose_add(
 
 
 def matmul_transpose_add_gelu(
-    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
+    mat: Tensor, mul: Tensor, add: Tensor, out_dtype: _nvte.DType
 ):
     "returns mat @ mul^T + add, GELU(mat @ mul^T + add)"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
@@ -93,9 +92,7 @@ def matmul_transpose_add_gelu(
     return pre_gelu, out
 
 
-def matmul_transpose_add_add(
-    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
-):
+def matmul_transpose_add_add(mat: Tensor, mul: Tensor, add1: Tensor, add2: Tensor):
     "returns mat @ mul^T + add1 + add2"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     _nvte.cublas_gemm(
@@ -115,9 +112,7 @@ def matmul_transpose_add_add(
     return add2
 
 
-def matmul_transpose_add_gelu_add(
-    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
-):
+def matmul_transpose_add_gelu_add(mat: Tensor, mul: Tensor, add1: Tensor, add2: Tensor):
     "returns mat @ mul^T + add1, GELU(mat @ mul^T + add1) + add2"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     pre_gelu = empty(add2.shape, add1.dtype)
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index 3cdcc2b566..2bc1ba16b9 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -6,6 +6,7 @@
 from ._pass import pass_
 from .dtype import dtype_name
 from .empty import empty, empty_like
+from .tensor import Tensor
 
 
 @cache
@@ -35,9 +36,7 @@ def _sm_margin():
 
 
 class _NormConfig:
-    def __init__(
-        self, hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
-    ):
+    def __init__(self, hidden_size: int, gamma: Tensor, x: Tensor, out: Tensor):
         self.hidden_size = hidden_size
         self.gamma_dtype_name = dtype_name(gamma.dtype)
         self.x_dtype_name = dtype_name(x.dtype)
@@ -58,9 +57,9 @@ def __str__(self):
 def _handle_unsupported_config(
     func_name: str,
     hidden_size: int,
-    gamma: _nvte.Tensor,
-    x: _nvte.Tensor,
-    out: _nvte.Tensor,
+    gamma: Tensor,
+    x: Tensor,
+    out: Tensor,
 ):
     try:
         yield
@@ -77,11 +76,11 @@ def _handle_unsupported_config(
 
 
 def layernorm(
-    x: _nvte.Tensor,
+    x: Tensor,
     eps: float,
     zero_centered_gamma: bool,
-    gamma: _nvte.Tensor,
-    beta: _nvte.Tensor,
+    gamma: Tensor,
+    beta: Tensor,
     out_dtype: _nvte.DType,
 ):
     "returns (x - mean(x)) / sqrt(var(x) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
@@ -113,19 +112,19 @@ def layernorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
+            workspace = empty_like(workspace.query_shape_and_dtype_())
+            barrier = empty_like(barrier.query_shape_and_dtype_())
 
     return out, mu, rsigma
 
 
 def dlayernorm(
-    grad: _nvte.Tensor,
+    grad: Tensor,
     zero_centered_gamma: bool,
-    x: _nvte.Tensor,
-    gamma: _nvte.Tensor,
-    mu: _nvte.Tensor,
-    rsigma: _nvte.Tensor,
+    x: Tensor,
+    gamma: Tensor,
+    mu: Tensor,
+    rsigma: Tensor,
     dx_dtype: _nvte.DType,
     dgamma_dtype: _nvte.DType,
     dbeta_dtype: _nvte.DType,
@@ -162,19 +161,19 @@ def dlayernorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
-            dgamma_part = empty_like(dgamma_part)
-            dbeta_part = empty_like(dbeta_part)
+            workspace = empty_like(workspace.query_shape_and_dtype_())
+            barrier = empty_like(barrier.query_shape_and_dtype_())
+            dgamma_part = empty_like(dgamma_part.query_shape_and_dtype_())
+            dbeta_part = empty_like(dbeta_part.query_shape_and_dtype_())
 
     return dx, dgamma, dbeta
 
 
 def rmsnorm(
-    x: _nvte.Tensor,
+    x: Tensor,
     eps: float,
     zero_centered_gamma: bool,
-    gamma: _nvte.Tensor,
+    gamma: Tensor,
     out_dtype: _nvte.DType,
 ):
     "returns x / sqrt(var(x) + eps) * gamma, rsigma (for bwd)"
@@ -204,18 +203,18 @@ def rmsnorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
+            workspace = empty_like(workspace.query_shape_and_dtype_())
+            barrier = empty_like(barrier.query_shape_and_dtype_())
 
     return out, rsigma
 
 
 def drmsnorm(
-    grad: _nvte.Tensor,
+    grad: Tensor,
     zero_centered_gamma: bool,
-    x: _nvte.Tensor,
-    gamma: _nvte.Tensor,
-    rsigma: _nvte.Tensor,
+    x: Tensor,
+    gamma: Tensor,
+    rsigma: Tensor,
     dx_dtype: _nvte.DType,
     dgamma_dtype: _nvte.DType,
 ):
@@ -246,8 +245,8 @@ def drmsnorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
-            dgamma_part = empty_like(dgamma_part)
+            workspace = empty_like(workspace.query_shape_and_dtype_())
+            barrier = empty_like(barrier.query_shape_and_dtype_())
+            dgamma_part = empty_like(dgamma_part.query_shape_and_dtype_())
 
     return dx, dgamma
diff --git a/transformer_engine/pytorch/sequential/nvte/tensor.py b/transformer_engine/pytorch/sequential/nvte/tensor.py
new file mode 100644
index 0000000000..776ae6092b
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/tensor.py
@@ -0,0 +1,32 @@
+import torch
+from ._nvte import Tensor as TensorBase, DType
+
+
+class Tensor(TensorBase):
+    _cached_dtype: DType
+    _cached_shape: tuple[int, ...]
+
+    def __init__(
+        self,
+        dtype: DType,
+        data: torch.Tensor,
+        amax: torch.Tensor,
+        scale: torch.Tensor,
+        scale_inv: torch.Tensor,
+    ):
+        self._cached_dtype = dtype
+        self._cached_shape = data.shape
+        super().__init__(dtype, data, amax, scale, scale_inv)
+
+    @property
+    def dtype(self):  # type: ignore[incompatible-override]
+        return self._cached_dtype
+
+    @property
+    def shape(self):  # type: ignore[incompatible-override]
+        return self._cached_shape
+
+    def query_shape_and_dtype_(self):
+        self._cached_dtype = super().dtype
+        self._cached_shape = tuple(super().shape)
+        return self

From 6f98c444769448119c1bd0f8385bd828615c65a8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 13:25:33 +0200
Subject: [PATCH 165/535] add repr to nvte.Tensor for debugging

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/tensor.py | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/nvte/tensor.py b/transformer_engine/pytorch/sequential/nvte/tensor.py
index 776ae6092b..747d3108ee 100644
--- a/transformer_engine/pytorch/sequential/nvte/tensor.py
+++ b/transformer_engine/pytorch/sequential/nvte/tensor.py
@@ -1,5 +1,6 @@
 import torch
 from ._nvte import Tensor as TensorBase, DType
+from .dtype import dtype_name
 
 
 class Tensor(TensorBase):
@@ -30,3 +31,14 @@ def query_shape_and_dtype_(self):
         self._cached_dtype = super().dtype
         self._cached_shape = tuple(super().shape)
         return self
+
+    def __repr__(self):
+        self.query_shape_and_dtype_()
+        data_repr = repr(self.data)
+        data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1] + ")"
+        data_repr = data_repr.replace("\n", "\n" + 11 * " ")
+        return f"""\
+Tensor(
+    data = {data_repr},
+    dtype = {dtype_name(self.dtype)}, amax = {self.amax[0].item()}, scale = {self.scale.item()}, scale_inv = {self.scale_inv.item()})
+"""

From 44e058159a3dddc0c3205e1a0e64fb3c4be7cdff Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 13:27:51 +0200
Subject: [PATCH 166/535] fix circular import

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/dtype.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index 87efb88c6c..22efec11e8 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -1,6 +1,5 @@
 import torch
 from . import _nvte
-from .tensor import Tensor
 from ._pass import pass_
 
 
@@ -86,8 +85,8 @@ def dtype_name(dtype: _nvte.DType):
             return "fp8e5m2"
 
 
-def is_fp8(t: Tensor | _nvte.DType):
-    if isinstance(t, Tensor):
+def is_fp8(t: _nvte.Tensor | _nvte.DType):
+    if isinstance(t, _nvte.Tensor):
         dtype = t.dtype
     else:
         dtype = t

From 22a1736565aa30b3239e6b403e64bd2a53373517 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 13:30:04 +0200
Subject: [PATCH 167/535] account for empty metatensors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/tensor.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/tensor.py b/transformer_engine/pytorch/sequential/nvte/tensor.py
index 747d3108ee..b72eabb9d6 100644
--- a/transformer_engine/pytorch/sequential/nvte/tensor.py
+++ b/transformer_engine/pytorch/sequential/nvte/tensor.py
@@ -40,5 +40,5 @@ def __repr__(self):
         return f"""\
 Tensor(
     data = {data_repr},
-    dtype = {dtype_name(self.dtype)}, amax = {self.amax[0].item()}, scale = {self.scale.item()}, scale_inv = {self.scale_inv.item()})
+    dtype = {dtype_name(self.dtype)}, amax = {self.amax}, scale = {self.scale}, scale_inv = {self.scale_inv})
 """

From 826c75fcd2a1156ce7b43537bc5f8d0e964bec97 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 13:34:07 +0200
Subject: [PATCH 168/535] fix formatting

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/tensor.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/tensor.py b/transformer_engine/pytorch/sequential/nvte/tensor.py
index b72eabb9d6..7f13ec82db 100644
--- a/transformer_engine/pytorch/sequential/nvte/tensor.py
+++ b/transformer_engine/pytorch/sequential/nvte/tensor.py
@@ -40,5 +40,8 @@ def __repr__(self):
         return f"""\
 Tensor(
     data = {data_repr},
-    dtype = {dtype_name(self.dtype)}, amax = {self.amax}, scale = {self.scale}, scale_inv = {self.scale_inv})
-"""
+    dtype = {dtype_name(self.dtype)},\
+    amax = {self.amax[0].item() if self.amax.numel() else None},\
+    scale = {self.scale.item() if self.scale.numel() else None},\
+    scale_inv = {self.scale_inv.item() if self.scale_inv.numel() else None}\
+)"""

From 3d1defe5c59c0c42f474e36e40489d92cc1d85ce Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 13:37:43 +0200
Subject: [PATCH 169/535] fix formatting

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/tensor.py             | 15 +++++++--------
 1 file changed, 7 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/tensor.py b/transformer_engine/pytorch/sequential/nvte/tensor.py
index 7f13ec82db..eee5e1a554 100644
--- a/transformer_engine/pytorch/sequential/nvte/tensor.py
+++ b/transformer_engine/pytorch/sequential/nvte/tensor.py
@@ -35,13 +35,12 @@ def query_shape_and_dtype_(self):
     def __repr__(self):
         self.query_shape_and_dtype_()
         data_repr = repr(self.data)
-        data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1] + ")"
-        data_repr = data_repr.replace("\n", "\n" + 11 * " ")
+        data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1]
+        data_repr = "T" + data_repr[1:]
         return f"""\
-Tensor(
-    data = {data_repr},
-    dtype = {dtype_name(self.dtype)},\
-    amax = {self.amax[0].item() if self.amax.numel() else None},\
-    scale = {self.scale.item() if self.scale.numel() else None},\
-    scale_inv = {self.scale_inv.item() if self.scale_inv.numel() else None}\
+{data_repr},
+       dtype = {dtype_name(self.dtype)},\
+amax = {self.amax[0].item() if self.amax.numel() else None},\
+scale = {self.scale.item() if self.scale.numel() else None},\
+scale_inv = {self.scale_inv.item() if self.scale_inv.numel() else None}\
 )"""

From 9b4735270ddf9f216c22cc2b4786274af3c3d0f9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 13:40:44 +0200
Subject: [PATCH 170/535] fix formatting

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/tensor.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/tensor.py b/transformer_engine/pytorch/sequential/nvte/tensor.py
index eee5e1a554..c22ed6b0f6 100644
--- a/transformer_engine/pytorch/sequential/nvte/tensor.py
+++ b/transformer_engine/pytorch/sequential/nvte/tensor.py
@@ -39,8 +39,8 @@ def __repr__(self):
         data_repr = "T" + data_repr[1:]
         return f"""\
 {data_repr},
-       dtype = {dtype_name(self.dtype)},\
-amax = {self.amax[0].item() if self.amax.numel() else None},\
-scale = {self.scale.item() if self.scale.numel() else None},\
-scale_inv = {self.scale_inv.item() if self.scale_inv.numel() else None}\
+       dtype={dtype_name(self.dtype)},\
+ amax={self.amax[0].item() if self.amax.numel() else None},\
+ scale={self.scale.item() if self.scale.numel() else None},\
+ scale_inv={self.scale_inv.item() if self.scale_inv.numel() else None}\
 )"""

From ab9800f9e75c819377b0bc29c85c66485253a664 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 17:01:38 +0200
Subject: [PATCH 171/535] fix error messages

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/transformer_engine.cpp | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/common/transformer_engine.cpp b/transformer_engine/common/transformer_engine.cpp
index 708712ff9a..4aaf3f988c 100644
--- a/transformer_engine/common/transformer_engine.cpp
+++ b/transformer_engine/common/transformer_engine.cpp
@@ -49,11 +49,11 @@ void CheckOutputTensor(const Tensor &t, const std::string &name, bool allow_empt
     NVTE_CHECK(t.amax.dtype == DType::kFloat32);
     NVTE_CHECK(t.amax.shape == std::vector<size_t>{ 1 });
     NVTE_CHECK(t.scale_inv.dptr != nullptr,
-               "FP8 output " + name + " must have scale.");
+               "FP8 output " + name + " must have inverse of scale.");
     NVTE_CHECK(t.scale_inv.dtype == DType::kFloat32);
     NVTE_CHECK(t.scale_inv.shape == std::vector<size_t>{ 1 });
     NVTE_CHECK(t.scale.dptr != nullptr,
-               "FP8 output " + name + " must have inverse of scale.");
+               "FP8 output " + name + " must have scale.");
     NVTE_CHECK(t.scale.dtype == DType::kFloat32);
     NVTE_CHECK(t.scale.shape == std::vector<size_t>{ 1 });
   } else {

From dc67ca963c17068d70dbb66fc210f507ff3b4069 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 17:01:47 +0200
Subject: [PATCH 172/535] encapsulate tensor debug logic

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_tensor_debug.py  | 97 +++++++++++++++++++
 .../pytorch/sequential/nvte/tensor.py         | 13 +--
 2 files changed, 99 insertions(+), 11 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/nvte/_tensor_debug.py

diff --git a/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py b/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
new file mode 100644
index 0000000000..501d5f6630
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
@@ -0,0 +1,97 @@
+import torch
+from ._nvte import Tensor, DType
+from .dtype import dtype_name
+
+
+def tensor_repr(tensor: Tensor):
+    if tensor.dtype == DType.Float8E4M3:
+        conv_table = torch.tensor(DEBUG_FP8E4M3_TO_F32)
+        fp32_values = conv_table[tensor.data]
+        data_repr = repr(fp32_values)
+    else:
+        data_repr = repr(tensor.data)
+    data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1]
+    data_repr = "T" + data_repr[1:]
+    return f"""\
+{data_repr},
+       dtype={dtype_name(tensor.dtype)},\
+ amax={tensor.amax[0].item() if tensor.amax.numel() else None},\
+ scale={tensor.scale.item() if tensor.scale.numel() else None},\
+ scale_inv={tensor.scale_inv.item() if tensor.scale_inv.numel() else None}\
+)"""
+
+
+# fmt: off
+nan = float("nan")
+inf = float("inf")
+DEBUG_FP8E4M3_TO_F32 = [
+   0.         ,    0.001953125,    0.00390625 ,    0.005859375,    0.0078125  ,    0.009765625,    0.01171875 ,    0.013671875,
+   0.015625   ,    0.017578125,    0.01953125 ,    0.021484375,    0.0234375  ,    0.025390625,    0.02734375 ,    0.029296875,
+   0.03125    ,    0.03515625 ,    0.0390625  ,    0.04296875 ,    0.046875   ,    0.05078125 ,    0.0546875  ,    0.05859375 ,
+   0.0625     ,    0.0703125  ,    0.078125   ,    0.0859375  ,    0.09375    ,    0.1015625  ,    0.109375   ,    0.1171875  ,
+   0.125      ,    0.140625   ,    0.15625    ,    0.171875   ,    0.1875     ,    0.203125   ,    0.21875    ,    0.234375   ,
+   0.25       ,    0.28125    ,    0.3125     ,    0.34375    ,    0.375      ,    0.40625    ,    0.4375     ,    0.46875    ,
+   0.5        ,    0.5625     ,    0.625      ,    0.6875     ,    0.75       ,    0.8125     ,    0.875      ,    0.9375     ,
+   1.         ,    1.125      ,    1.25       ,    1.375      ,    1.5        ,    1.625      ,    1.75       ,    1.875      ,
+   2.         ,    2.25       ,    2.5        ,    2.75       ,    3.         ,    3.25       ,    3.5        ,    3.75       ,
+   4.         ,    4.5        ,    5.         ,    5.5        ,    6.         ,    6.5        ,    7.         ,    7.5        ,
+   8.         ,    9.         ,   10.         ,   11.         ,   12.         ,   13.         ,   14.         ,   15.         ,
+  16.         ,   18.         ,   20.         ,   22.         ,   24.         ,   26.         ,   28.         ,   30.         ,
+  32.         ,   36.         ,   40.         ,   44.         ,   48.         ,   52.         ,   56.         ,   60.         ,
+  64.         ,   72.         ,   80.         ,   88.         ,   96.         ,  104.         ,  112.         ,  120.         ,
+ 128.         ,  144.         ,  160.         ,  176.         ,  192.         ,  208.         ,  224.         ,  240.         ,
+ 256.         ,  288.         ,  320.         ,  352.         ,  384.         ,  416.         ,  448.         ,  nan          ,
+  -0.         ,   -0.001953125,   -0.00390625 ,   -0.005859375,   -0.0078125  ,   -0.009765625,   -0.01171875 ,   -0.013671875,
+  -0.015625   ,   -0.017578125,   -0.01953125 ,   -0.021484375,   -0.0234375  ,   -0.025390625,   -0.02734375 ,   -0.029296875,
+  -0.03125    ,   -0.03515625 ,   -0.0390625  ,   -0.04296875 ,   -0.046875   ,   -0.05078125 ,   -0.0546875  ,   -0.05859375 ,
+  -0.0625     ,   -0.0703125  ,   -0.078125   ,   -0.0859375  ,   -0.09375    ,   -0.1015625  ,   -0.109375   ,   -0.1171875  ,
+  -0.125      ,   -0.140625   ,   -0.15625    ,   -0.171875   ,   -0.1875     ,   -0.203125   ,   -0.21875    ,   -0.234375   ,
+  -0.25       ,   -0.28125    ,   -0.3125     ,   -0.34375    ,   -0.375      ,   -0.40625    ,   -0.4375     ,   -0.46875    ,
+  -0.5        ,   -0.5625     ,   -0.625      ,   -0.6875     ,   -0.75       ,   -0.8125     ,   -0.875      ,   -0.9375     ,
+  -1.         ,   -1.125      ,   -1.25       ,   -1.375      ,   -1.5        ,   -1.625      ,   -1.75       ,   -1.875      ,
+  -2.         ,   -2.25       ,   -2.5        ,   -2.75       ,   -3.         ,   -3.25       ,   -3.5        ,   -3.75       ,
+  -4.         ,   -4.5        ,   -5.         ,   -5.5        ,   -6.         ,   -6.5        ,   -7.         ,   -7.5        ,
+  -8.         ,   -9.         ,  -10.         ,  -11.         ,  -12.         ,  -13.         ,  -14.         ,  -15.         ,
+ -16.         ,  -18.         ,  -20.         ,  -22.         ,  -24.         ,  -26.         ,  -28.         ,  -30.         ,
+ -32.         ,  -36.         ,  -40.         ,  -44.         ,  -48.         ,  -52.         ,  -56.         ,  -60.         ,
+ -64.         ,  -72.         ,  -80.         ,  -88.         ,  -96.         , -104.         , -112.         , -120.         ,
+-128.         , -144.         , -160.         , -176.         , -192.         , -208.         , -224.         , -240.         ,
+-256.         , -288.         , -320.         , -352.         , -384.         , -416.         , -448.         ,  nan          ,
+]
+"All values representable with FP8E4M3"
+
+DEBUG_FP8E5M2_TO_F32 = [
+      0.                ,      0.0000152587890625,      0.000030517578125 ,      0.0000457763671875,      0.00006103515625  ,     0.0000762939453125,      0.000091552734375 ,      0.0001068115234375,
+      0.0001220703125   ,      0.000152587890625 ,      0.00018310546875  ,      0.000213623046875 ,      0.000244140625    ,     0.00030517578125  ,      0.0003662109375   ,      0.00042724609375  ,
+      0.00048828125     ,      0.0006103515625   ,      0.000732421875    ,      0.0008544921875   ,      0.0009765625      ,     0.001220703125    ,      0.00146484375     ,      0.001708984375    ,
+      0.001953125       ,      0.00244140625     ,      0.0029296875      ,      0.00341796875     ,      0.00390625        ,     0.0048828125      ,      0.005859375       ,      0.0068359375      ,
+      0.0078125         ,      0.009765625       ,      0.01171875        ,      0.013671875       ,      0.015625          ,     0.01953125        ,      0.0234375         ,      0.02734375        ,
+      0.03125           ,      0.0390625         ,      0.046875          ,      0.0546875         ,      0.0625            ,     0.078125          ,      0.09375           ,      0.109375          ,
+      0.125             ,      0.15625           ,      0.1875            ,      0.21875           ,      0.25              ,     0.3125            ,      0.375             ,      0.4375            ,
+      0.5               ,      0.625             ,      0.75              ,      0.875             ,      1.                ,     1.25              ,      1.5               ,      1.75              ,
+      2.                ,      2.5               ,      3.                ,      3.5               ,      4.                ,     5.                ,      6.                ,      7.                ,
+      8.                ,     10.                ,     12.                ,     14.                ,     16.                ,    20.                ,     24.                ,     28.                ,
+     32.                ,     40.                ,     48.                ,     56.                ,     64.                ,    80.                ,     96.                ,    112.                ,
+    128.                ,    160.                ,    192.                ,    224.                ,    256.                ,   320.                ,    384.                ,    448.                ,
+    512.                ,    640.                ,    768.                ,    896.                ,   1024.                ,  1280.                ,   1536.                ,   1792.                ,
+   2048.                ,   2560.                ,   3072.                ,   3584.                ,   4096.                ,  5120.                ,   6144.                ,   7168.                ,
+   8192.                ,  10240.                ,  12288.                ,  14336.                ,  16384.                , 20480.                ,  24576.                ,  28672.                ,
+  32768.                ,  40960.                ,  49152.                ,  57344.                ,    inf                 ,   nan                 ,    nan                 ,    nan                 ,
+     -0.                ,     -0.0000152587890625,     -0.000030517578125 ,     -0.0000457763671875,     -0.00006103515625  ,    -0.0000762939453125,     -0.000091552734375 ,     -0.0001068115234375,
+     -0.0001220703125   ,     -0.000152587890625 ,     -0.00018310546875  ,     -0.000213623046875 ,     -0.000244140625    ,    -0.00030517578125  ,     -0.0003662109375   ,     -0.00042724609375  ,
+     -0.00048828125     ,     -0.0006103515625   ,     -0.000732421875    ,     -0.0008544921875   ,     -0.0009765625      ,    -0.001220703125    ,     -0.00146484375     ,     -0.001708984375    ,
+     -0.001953125       ,     -0.00244140625     ,     -0.0029296875      ,     -0.00341796875     ,     -0.00390625        ,    -0.0048828125      ,     -0.005859375       ,     -0.0068359375      ,
+     -0.0078125         ,     -0.009765625       ,     -0.01171875        ,     -0.013671875       ,     -0.015625          ,    -0.01953125        ,     -0.0234375         ,     -0.02734375        ,
+     -0.03125           ,     -0.0390625         ,     -0.046875          ,     -0.0546875         ,     -0.0625            ,    -0.078125          ,     -0.09375           ,     -0.109375          ,
+     -0.125             ,     -0.15625           ,     -0.1875            ,     -0.21875           ,     -0.25              ,    -0.3125            ,     -0.375             ,     -0.4375            ,
+     -0.5               ,     -0.625             ,     -0.75              ,     -0.875             ,     -1.                ,    -1.25              ,     -1.5               ,     -1.75              ,
+     -2.                ,     -2.5               ,     -3.                ,     -3.5               ,     -4.                ,    -5.                ,     -6.                ,     -7.                ,
+     -8.                ,    -10.                ,    -12.                ,    -14.                ,    -16.                ,   -20.                ,    -24.                ,    -28.                ,
+    -32.                ,    -40.                ,    -48.                ,    -56.                ,    -64.                ,   -80.                ,    -96.                ,   -112.                ,
+   -128.                ,   -160.                ,   -192.                ,   -224.                ,   -256.                ,  -320.                ,   -384.                ,   -448.                ,
+   -512.                ,   -640.                ,   -768.                ,   -896.                ,  -1024.                , -1280.                ,  -1536.                ,  -1792.                ,
+  -2048.                ,  -2560.                ,  -3072.                ,  -3584.                ,  -4096.                , -5120.                ,  -6144.                ,  -7168.                ,
+  -8192.                , -10240.                , -12288.                , -14336.                , -16384.                , 20480.                , -24576.                , -28672.                ,
+ -32768.                , -40960.                , -49152.                , -57344.                ,   -inf                 ,   nan                 ,    nan                 ,    nan                 ,
+]
+"All values representable with FP8E5M2"
diff --git a/transformer_engine/pytorch/sequential/nvte/tensor.py b/transformer_engine/pytorch/sequential/nvte/tensor.py
index c22ed6b0f6..f0ff89b68b 100644
--- a/transformer_engine/pytorch/sequential/nvte/tensor.py
+++ b/transformer_engine/pytorch/sequential/nvte/tensor.py
@@ -1,6 +1,6 @@
 import torch
 from ._nvte import Tensor as TensorBase, DType
-from .dtype import dtype_name
+from ._tensor_debug import tensor_repr
 
 
 class Tensor(TensorBase):
@@ -34,13 +34,4 @@ def query_shape_and_dtype_(self):
 
     def __repr__(self):
         self.query_shape_and_dtype_()
-        data_repr = repr(self.data)
-        data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1]
-        data_repr = "T" + data_repr[1:]
-        return f"""\
-{data_repr},
-       dtype={dtype_name(self.dtype)},\
- amax={self.amax[0].item() if self.amax.numel() else None},\
- scale={self.scale.item() if self.scale.numel() else None},\
- scale_inv={self.scale_inv.item() if self.scale_inv.numel() else None}\
-)"""
+        return tensor_repr(self)

From fcf8cb78525fdaeab1bc1095cc8e01811d79733e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 17:07:02 +0200
Subject: [PATCH 173/535] move tensor to appropriate device

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_tensor_debug.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py b/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
index 501d5f6630..6f4a176766 100644
--- a/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
+++ b/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
@@ -5,8 +5,8 @@
 
 def tensor_repr(tensor: Tensor):
     if tensor.dtype == DType.Float8E4M3:
-        conv_table = torch.tensor(DEBUG_FP8E4M3_TO_F32)
-        fp32_values = conv_table[tensor.data]
+        conv_table = torch.tensor(DEBUG_FP8E4M3_TO_F32, device="cpu")
+        fp32_values = conv_table[tensor.data.cpu()]
         data_repr = repr(fp32_values)
     else:
         data_repr = repr(tensor.data)

From 5e59b3667e83ae0915d19324fffec42ee7c2f6e3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 17:08:58 +0200
Subject: [PATCH 174/535] convert tensor type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_tensor_debug.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py b/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
index 6f4a176766..214abc84ce 100644
--- a/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
+++ b/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
@@ -6,7 +6,7 @@
 def tensor_repr(tensor: Tensor):
     if tensor.dtype == DType.Float8E4M3:
         conv_table = torch.tensor(DEBUG_FP8E4M3_TO_F32, device="cpu")
-        fp32_values = conv_table[tensor.data.cpu()]
+        fp32_values = conv_table[tensor.data.cpu().int()]
         data_repr = repr(fp32_values)
     else:
         data_repr = repr(tensor.data)

From 80287b3499a4181fa3a070527657b2d28e6c288b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 23:40:53 +0200
Subject: [PATCH 175/535] implement metatensor persistence

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 39 +++++++--
 .../pytorch/sequential/nvte/__init__.py       |  4 +-
 .../pytorch/sequential/nvte/empty.py          | 66 +++++++-------
 .../pytorch/sequential/nvte/interface.py      |  6 --
 .../sequential/nvte/meta_tensor_context.py    | 87 +++++++++++++++++++
 5 files changed, 150 insertions(+), 52 deletions(-)
 delete mode 100644 transformer_engine/pytorch/sequential/nvte/interface.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 7e026962f6..89a7369d90 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -24,23 +24,33 @@ class ComputePipelineFunction(autograd.Function):
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *args: torch.Tensor | Op | CommWithLoop,
+        *args: torch.Tensor | Op | CommWithLoop | int,
     ):
         """
         exposed_x is used only to let autograd construct the computation graph
         real input and output is in list, as nvte.Tensor is immutable
         exposed_tensors are exposed for the optimizer to later apply gradients
         """
-        exposed_tensors, op, comm = args[:-2], args[-2], args[-1]
+        exposed_tensors, op, comm, current_iteration = (
+            args[:-3],
+            args[-3],
+            args[-2],
+            args[-1],
+        )
         del exposed_tensors
 
         assert isinstance(op, Op)
         assert isinstance(comm, CommWithLoop)
         nvte_x = comm.nvte_x
         assert isinstance(nvte_x, nvte.Tensor)
+        assert isinstance(current_iteration, int)
+
+        if not hasattr(op, "_nvte_metatensor_context"):
+            setattr(op, "_nvte_metatensor_context", nvte.MetaTensorContext())
+        metatensor_context = getattr(op, "_nvte_metatensor_context")
 
-        nvte.set_current_pass("forward")
-        y, to_save = op.forward(nvte_x)
+        with metatensor_context("forward", current_iteration):
+            y, to_save = op.forward(nvte_x)
 
         # Expose backward context for tracing
         bwd_ctx = list[torch.Tensor]()
@@ -57,6 +67,7 @@ def forward(  # type: ignore[arg-type]
         # Save real context
         setattr(ctx, "nvte_ctx", to_save)
         setattr(ctx, "nvte_op", op)
+        setattr(ctx, "nvte_current_iteration", current_iteration)
 
         # Actually store the result
         comm.nvte_x = y
@@ -134,6 +145,7 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         # Get real context
         saved: Context = getattr(ctx, "nvte_ctx")
         op: Op = getattr(ctx, "nvte_op")
+        current_iteration: int = getattr(ctx, "nvte_current_iteration")
         preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
         upcoming_backward: BackwardComm | None = getattr(
             ctx, "nvte_upcoming_backward_comm"
@@ -147,8 +159,10 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
             nvte_grad = preceding_backward.nvte_grad_output
         del grad_output
 
-        nvte.set_current_pass("backward")
-        data_grad, param_grads = op.backward(saved, nvte_grad)
+        metatensor_context = getattr(op, "_nvte_metatensor_context")
+
+        with metatensor_context("backward", current_iteration):
+            data_grad, param_grads = op.backward(saved, nvte_grad)
 
         # Store real gradient for next backward in pipeline
         if upcoming_backward is None:
@@ -169,16 +183,23 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
 
         torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
 
-        return (*torch_grads, None, None)
+        return (*torch_grads, None, None, None)
+
+
+iteration: int = 0
 
 
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
     if not training:
-        nvte.set_current_pass("inference")
+        raise NotImplementedError()  # TODO
         y = pipeline.run_inference(nvte.make_nvte_tensor(x))
         assert not nvte.is_fp8(y)
         return y.data
     else:
+        global iteration
+        current_iteration = iteration
+        iteration += 1
+
         comm = CommWithLoop(nvte.make_nvte_tensor(x), False, None)
         for contained_op in pipeline.functions:
             nvte_tensors = contained_op.require_grad()
@@ -189,7 +210,7 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
             x = ComputePipelineFunction.apply(  # type: ignore
-                x, *exposed_tensors, contained_op, comm
+                x, *exposed_tensors, contained_op, comm, current_iteration
             )
         return x
 
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index 05ac2665fb..fadecb785a 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -25,8 +25,8 @@
     swiglu,
     dswiglu,
 )
-from .interface import set_current_pass
 from .normalization import layernorm, dlayernorm, rmsnorm, drmsnorm
+from .meta_tensor_context import MetaTensorContext
 from .misc_fusions import (
     cast_transpose_dbias_checked,
     cast_transpose_dbias_dgelu_checked,
@@ -79,6 +79,7 @@
     "matmul_transpose_gelu_add",
     "matmul_transpose_gelu",
     "matmul_transpose",
+    "MetaTensorContext",
     "multi_cast_transpose_checked",
     "multi_cast_transpose",
     "multi_empty_share_metadata",
@@ -86,7 +87,6 @@
     "reglu",
     "relu",
     "rmsnorm",
-    "set_current_pass",
     "swiglu",
     "te_to_torch_dtype",
     "Tensor",
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 93d837a32a..f560cfebaa 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -1,6 +1,6 @@
 from typing import Sequence
 import torch
-from . import _nvte
+from . import _nvte, meta_tensor_context
 from .tensor import Tensor
 from .dtype import te_to_torch_dtype, is_fp8
 
@@ -8,30 +8,7 @@
 
 
 def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
-    if shape == ():
-        return Tensor(
-            dtype,
-            torch.Tensor(),
-            torch.Tensor(),
-            torch.Tensor(),
-            torch.Tensor(),
-        )
-    if is_fp8(dtype):
-        return Tensor(
-            dtype,
-            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.zeros(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda"),
-            torch.ones(1, dtype=torch.float32, device="cuda"),
-            torch.ones(1, dtype=torch.float32, device="cuda"),
-        )
-    else:
-        return Tensor(
-            dtype,
-            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.Tensor(),
-            torch.Tensor(),
-            torch.Tensor(),
-        )
+    return multi_empty_share_metadata((shape, dtype))[0]
 
 
 def empty_like(t: Tensor):
@@ -39,10 +16,7 @@ def empty_like(t: Tensor):
 
 
 def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]):
-    amax = torch.zeros(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda")
-    scale = torch.ones(1, dtype=torch.float32, device="cuda")
-    scale_inv = torch.ones(1, dtype=torch.float32, device="cuda")
-
+    amax, scale, scale_inv = _create_metatensors()
     return tuple(
         Tensor(
             dtype,
@@ -52,12 +26,34 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
             scale_inv,
         )
         if is_fp8(dtype)
-        else Tensor(
-            dtype,
-            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            torch.Tensor(),
-            torch.Tensor(),
-            torch.Tensor(),
+        else (
+            Tensor(
+                dtype,
+                torch.Tensor(),
+                torch.Tensor(),
+                torch.Tensor(),
+                torch.Tensor(),
+            )
+            if shape == ()
+            else Tensor(
+                dtype,
+                torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
+                torch.Tensor(),
+                torch.Tensor(),
+                torch.Tensor(),
+            )
         )
         for shape, dtype in shapes_dtypes
     )
+
+
+def _create_metatensors():
+    meta_tensor_context.current().next_tensor()
+    if meta_tensor_context.current().has_metatensors():
+        amax, scale, scale_inv = meta_tensor_context.current().get_metatensors()
+    else:
+        amax = torch.zeros(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda")
+        scale = torch.ones(1, dtype=torch.float32, device="cuda")
+        scale_inv = torch.ones(1, dtype=torch.float32, device="cuda")
+        meta_tensor_context.current().set_metatensors((amax, scale, scale_inv))
+    return amax, scale, scale_inv
diff --git a/transformer_engine/pytorch/sequential/nvte/interface.py b/transformer_engine/pytorch/sequential/nvte/interface.py
deleted file mode 100644
index e7aa9f6b69..0000000000
--- a/transformer_engine/pytorch/sequential/nvte/interface.py
+++ /dev/null
@@ -1,6 +0,0 @@
-from typing import Literal
-from . import _pass
-
-
-def set_current_pass(pass__: Literal["forward", "backward", "inference"]):
-    _pass.pass_ = pass__
diff --git a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
new file mode 100644
index 0000000000..5265205683
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
@@ -0,0 +1,87 @@
+from __future__ import annotations
+from typing import Literal
+import torch
+from . import _pass
+
+
+class MetaTensorContext:
+    last_iter_fwd: int | None
+    last_iter_bwd: int | None
+    current_pass: Literal["forward", "backward"]
+    current_iter: int
+    is_first_iter: bool
+    prev: MetaTensorContext | None
+    metatensors: dict[int, tuple[torch.Tensor, torch.Tensor, torch.Tensor]] | None
+
+    def __init__(self):
+        self.last_iter_fwd = None
+        self.last_iter_bwd = None
+        self.metatensors = None
+
+    def __call__(self, current_pass: Literal["forward", "backward"], current_iter: int):
+        last_iter = (
+            self.last_iter_fwd if current_pass == "forward" else self.last_iter_bwd
+        )
+        if last_iter is not None and self.current_iter != last_iter + 1:
+            raise ValueError(
+                "Detected skipped iteration. This would most likely invalidate the current metatensors. Recreate the context instead."
+            )
+
+        self.current_pass = current_pass
+        self.current_iter = current_iter
+        return self
+
+    def __enter__(self):
+        global _current
+        self.prev = _current
+        self.is_first_iter = self.last_iter_fwd is None and self.last_iter_bwd is None
+        if self.is_first_iter:
+            assert self.metatensors is None
+            self.metatensors = {}
+        self.current_tensor = 0
+        _pass = self.current_pass
+        _current = self
+
+    def __exit__(self):
+        global _current
+        _current = self.prev
+        if self.current_pass == "forward":
+            self.last_iter_fwd = self.current_iter
+        else:
+            self.last_iter_bwd = self.current_iter
+        del self.current_pass
+        del self.current_iter
+        del self.is_first_iter
+        del self.prev
+        del self.current_tensor
+
+    def next_tensor(self):
+        self.current_tensor += 1
+
+    def has_metatensors(self):
+        assert self.current_pass is not None
+        if self.is_first_iter:
+            return False
+        assert self.metatensors is not None
+        assert self.current_tensor in self.metatensors
+        return True
+
+    def set_metatensors(self, mts: tuple[torch.Tensor, torch.Tensor, torch.Tensor]):
+        assert self.is_first_iter
+        assert self.metatensors is not None
+        assert self.current_tensor not in self.metatensors
+        self.metatensors[self.current_tensor] = mts
+
+    def get_metatensors(self):
+        assert not self.is_first_iter
+        assert self.metatensors is not None
+        assert self.current_tensor in self.metatensors
+        return self.metatensors[self.current_tensor]
+
+
+_current: MetaTensorContext | None = None
+
+
+def current():
+    assert _current is not None
+    return _current

From 06018eefeb647f1258a66e271565b2757bf0c772 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 23:45:38 +0200
Subject: [PATCH 176/535] fix __exit__ signature

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/meta_tensor_context.py              | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
index 5265205683..d16ab2102a 100644
--- a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
+++ b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
@@ -42,7 +42,7 @@ def __enter__(self):
         _pass = self.current_pass
         _current = self
 
-    def __exit__(self):
+    def __exit__(self, exc_type: type, exc_value: object, exc_tb: object):
         global _current
         _current = self.prev
         if self.current_pass == "forward":

From 87e42358a7c27408c94ae9946c6cf54f2cd0771a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 21 Aug 2023 23:47:40 +0200
Subject: [PATCH 177/535] fix attr access error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/meta_tensor_context.py              | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
index d16ab2102a..2c0dc0f41c 100644
--- a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
+++ b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
@@ -22,7 +22,7 @@ def __call__(self, current_pass: Literal["forward", "backward"], current_iter: i
         last_iter = (
             self.last_iter_fwd if current_pass == "forward" else self.last_iter_bwd
         )
-        if last_iter is not None and self.current_iter != last_iter + 1:
+        if last_iter is not None and current_iter != last_iter + 1:
             raise ValueError(
                 "Detected skipped iteration. This would most likely invalidate the current metatensors. Recreate the context instead."
             )

From f22dd76df37cd6ab0d196d490d7902f7703acb9d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 22 Aug 2023 00:37:04 +0200
Subject: [PATCH 178/535] don't unnecesarily allocate metatensors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/empty.py | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index f560cfebaa..ce01cbcd84 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -16,14 +16,15 @@ def empty_like(t: Tensor):
 
 
 def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]):
-    amax, scale, scale_inv = _create_metatensors()
+    if any(is_fp8(dtype) for _, dtype in shapes_dtypes):
+        amax, scale, scale_inv = _create_metatensors()
     return tuple(
         Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            amax,
-            scale,
-            scale_inv,
+            amax,  # type:ignore[possibly-unbound]
+            scale,  # type:ignore[possibly-unbound]
+            scale_inv,  # type:ignore[possibly-unbound]
         )
         if is_fp8(dtype)
         else (

From 28d3057b9f4986fe291a1ce5746f914b0e58ace9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 22 Aug 2023 00:49:32 +0200
Subject: [PATCH 179/535] properly split metatensors for forward and backward

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/empty.py          |  6 ++---
 .../sequential/nvte/meta_tensor_context.py    | 25 +++++++++++--------
 2 files changed, 18 insertions(+), 13 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index ce01cbcd84..7d07782246 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -22,9 +22,9 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
         Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            amax,  # type:ignore[possibly-unbound]
-            scale,  # type:ignore[possibly-unbound]
-            scale_inv,  # type:ignore[possibly-unbound]
+            amax,  # type: ignore[possibly-unbound]
+            scale,  # type: ignore[possibly-unbound]
+            scale_inv,  # type: ignore[possibly-unbound]
         )
         if is_fp8(dtype)
         else (
diff --git a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
index 2c0dc0f41c..87a6b55650 100644
--- a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
+++ b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 from typing import Literal
 import torch
-from . import _pass
+from ._pass import pass_
 
 
 class MetaTensorContext:
@@ -11,12 +11,15 @@ class MetaTensorContext:
     current_iter: int
     is_first_iter: bool
     prev: MetaTensorContext | None
-    metatensors: dict[int, tuple[torch.Tensor, torch.Tensor, torch.Tensor]] | None
+    metatensors: dict[int, tuple[torch.Tensor, torch.Tensor, torch.Tensor]]
+    metatensors_fwd: dict[int, tuple[torch.Tensor, torch.Tensor, torch.Tensor]] | None
+    metatensors_bwd: dict[int, tuple[torch.Tensor, torch.Tensor, torch.Tensor]] | None
 
     def __init__(self):
         self.last_iter_fwd = None
         self.last_iter_bwd = None
-        self.metatensors = None
+        self.metatensors_fwd = None
+        self.metatensors_bwd = None
 
     def __call__(self, current_pass: Literal["forward", "backward"], current_iter: int):
         last_iter = (
@@ -35,11 +38,13 @@ def __enter__(self):
         global _current
         self.prev = _current
         self.is_first_iter = self.last_iter_fwd is None and self.last_iter_bwd is None
-        if self.is_first_iter:
-            assert self.metatensors is None
-            self.metatensors = {}
+        if self.current_pass == "forward":
+            self.metatensors = self.metatensors_fwd or {}
+        else:
+            self.metatensors = self.metatensors_bwd or {}
         self.current_tensor = 0
-        _pass = self.current_pass
+        global pass_
+        pass_ = self.current_pass
         _current = self
 
     def __exit__(self, exc_type: type, exc_value: object, exc_tb: object):
@@ -47,13 +52,16 @@ def __exit__(self, exc_type: type, exc_value: object, exc_tb: object):
         _current = self.prev
         if self.current_pass == "forward":
             self.last_iter_fwd = self.current_iter
+            self.metatensors_fwd = self.metatensors
         else:
             self.last_iter_bwd = self.current_iter
+            self.metatensors_bwd = self.metatensors
         del self.current_pass
         del self.current_iter
         del self.is_first_iter
         del self.prev
         del self.current_tensor
+        del self.metatensors
 
     def next_tensor(self):
         self.current_tensor += 1
@@ -62,19 +70,16 @@ def has_metatensors(self):
         assert self.current_pass is not None
         if self.is_first_iter:
             return False
-        assert self.metatensors is not None
         assert self.current_tensor in self.metatensors
         return True
 
     def set_metatensors(self, mts: tuple[torch.Tensor, torch.Tensor, torch.Tensor]):
         assert self.is_first_iter
-        assert self.metatensors is not None
         assert self.current_tensor not in self.metatensors
         self.metatensors[self.current_tensor] = mts
 
     def get_metatensors(self):
         assert not self.is_first_iter
-        assert self.metatensors is not None
         assert self.current_tensor in self.metatensors
         return self.metatensors[self.current_tensor]
 

From cd7b44eafe7d8c25bc14e7e8ebf080d8a519f6d6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 22 Aug 2023 00:53:15 +0200
Subject: [PATCH 180/535] fix first iter check

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/meta_tensor_context.py             | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
index 87a6b55650..6aabf6d96a 100644
--- a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
+++ b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
@@ -37,11 +37,12 @@ def __call__(self, current_pass: Literal["forward", "backward"], current_iter: i
     def __enter__(self):
         global _current
         self.prev = _current
-        self.is_first_iter = self.last_iter_fwd is None and self.last_iter_bwd is None
         if self.current_pass == "forward":
             self.metatensors = self.metatensors_fwd or {}
+            self.is_first_iter = self.last_iter_fwd is None
         else:
             self.metatensors = self.metatensors_bwd or {}
+            self.is_first_iter = self.last_iter_bwd is None
         self.current_tensor = 0
         global pass_
         pass_ = self.current_pass

From f334fa7795776cc0d61c9e16ea292a9af16892a2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 22 Aug 2023 01:03:23 +0200
Subject: [PATCH 181/535] iterate over amax history

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/meta_tensor_context.py           | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
index 6aabf6d96a..d2f3932758 100644
--- a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
+++ b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
@@ -82,7 +82,10 @@ def set_metatensors(self, mts: tuple[torch.Tensor, torch.Tensor, torch.Tensor]):
     def get_metatensors(self):
         assert not self.is_first_iter
         assert self.current_tensor in self.metatensors
-        return self.metatensors[self.current_tensor]
+        amax_history, scale, scale_inv = self.metatensors[self.current_tensor]
+        amax = amax_history[self.current_iter % amax_history.shape[0]]
+        # TODO compute scale and scale_inv
+        return amax, scale, scale_inv
 
 
 _current: MetaTensorContext | None = None

From 3ad75c3085d109993fd529cc6f18166125b35d19 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 22 Aug 2023 18:30:41 +0200
Subject: [PATCH 182/535] refactor implementation

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py                                      |  2 +-
 .../_nvte.py => cpp_extensions/__init__.py}   |  0
 .../_nvte.pyi => cpp_extensions/__init__.pyi} |  0
 .../sequential/cpp_extensions/py.typed        |  0
 .../{cpp_extensions => cppsrc}/pybind.cpp     |  0
 .../{cpp_extensions => cppsrc}/type_list.h    |  0
 .../pytorch/sequential/identity.py            | 25 -----
 .../pytorch/sequential/iteration_info.py      | 55 +++++++++++
 .../pytorch/sequential/nvte/__init__.py       | 12 ++-
 .../pytorch/sequential/nvte/_common.py        |  4 +-
 .../pytorch/sequential/nvte/_pass.py          |  2 -
 .../pytorch/sequential/nvte/activation.py     | 23 +++--
 .../pytorch/sequential/nvte/add.py            |  8 +-
 .../pytorch/sequential/nvte/cast_transpose.py | 24 ++---
 .../pytorch/sequential/nvte/dtype.py          |  3 +-
 .../pytorch/sequential/nvte/empty.py          | 28 ++----
 .../sequential/nvte/execution_state.py        | 13 +++
 .../sequential/nvte/meta_tensor_context.py    | 96 -------------------
 .../pytorch/sequential/nvte/misc_fusions.py   | 17 ++--
 .../pytorch/sequential/nvte/mmt.py            | 29 +++---
 .../pytorch/sequential/nvte/normalization.py  | 65 ++++++-------
 .../pytorch/sequential/persistent.py          | 19 ++++
 .../pytorch/sequential/tensor/meta.py         | 56 +++++++++++
 .../_tensor_debug.py => tensor/printing.py}   | 19 ++--
 .../pytorch/sequential/tensor/recipe.py       | 13 +++
 .../sequential/{nvte => tensor}/tensor.py     |  5 +-
 26 files changed, 272 insertions(+), 246 deletions(-)
 rename transformer_engine/pytorch/sequential/{nvte/_nvte.py => cpp_extensions/__init__.py} (100%)
 rename transformer_engine/pytorch/sequential/{nvte/_nvte.pyi => cpp_extensions/__init__.pyi} (100%)
 create mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/py.typed
 rename transformer_engine/pytorch/sequential/{cpp_extensions => cppsrc}/pybind.cpp (100%)
 rename transformer_engine/pytorch/sequential/{cpp_extensions => cppsrc}/type_list.h (100%)
 delete mode 100644 transformer_engine/pytorch/sequential/identity.py
 create mode 100644 transformer_engine/pytorch/sequential/iteration_info.py
 delete mode 100644 transformer_engine/pytorch/sequential/nvte/_pass.py
 create mode 100644 transformer_engine/pytorch/sequential/nvte/execution_state.py
 delete mode 100644 transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
 create mode 100644 transformer_engine/pytorch/sequential/persistent.py
 create mode 100644 transformer_engine/pytorch/sequential/tensor/meta.py
 rename transformer_engine/pytorch/sequential/{nvte/_tensor_debug.py => tensor/printing.py} (96%)
 create mode 100644 transformer_engine/pytorch/sequential/tensor/recipe.py
 rename transformer_engine/pytorch/sequential/{nvte => tensor}/tensor.py (87%)

diff --git a/setup.py b/setup.py
index 2d14534b01..54213b6577 100644
--- a/setup.py
+++ b/setup.py
@@ -538,7 +538,7 @@ def setup_pytorch_extension() -> setuptools.Extension:
 
 def setup_sequential_extension() -> setuptools.Extension:
     # Source files
-    src_dir = root_path / "transformer_engine" / "pytorch" / "sequential" / "cpp_extensions"
+    src_dir = root_path / "transformer_engine" / "pytorch" / "sequential" / "cppsrc"
     sources = [
         src_dir / "pybind.cpp"
     ]
diff --git a/transformer_engine/pytorch/sequential/nvte/_nvte.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
similarity index 100%
rename from transformer_engine/pytorch/sequential/nvte/_nvte.py
rename to transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
diff --git a/transformer_engine/pytorch/sequential/nvte/_nvte.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
similarity index 100%
rename from transformer_engine/pytorch/sequential/nvte/_nvte.pyi
rename to transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/py.typed b/transformer_engine/pytorch/sequential/cpp_extensions/py.typed
new file mode 100644
index 0000000000..e69de29bb2
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
similarity index 100%
rename from transformer_engine/pytorch/sequential/cpp_extensions/pybind.cpp
rename to transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/type_list.h b/transformer_engine/pytorch/sequential/cppsrc/type_list.h
similarity index 100%
rename from transformer_engine/pytorch/sequential/cpp_extensions/type_list.h
rename to transformer_engine/pytorch/sequential/cppsrc/type_list.h
diff --git a/transformer_engine/pytorch/sequential/identity.py b/transformer_engine/pytorch/sequential/identity.py
deleted file mode 100644
index 0a83d093e8..0000000000
--- a/transformer_engine/pytorch/sequential/identity.py
+++ /dev/null
@@ -1,25 +0,0 @@
-from typing import Generic, TypeVar
-import inspect
-
-
-def identity():
-    return hash(tuple((info.filename, info.positions) for info in inspect.stack()))
-
-
-T = TypeVar("T")
-
-
-class Persistent(Generic[T]):
-    identity: int
-    value: T
-
-    def __init__(self, value: T):
-        self.identity = identity()
-        self.value = value
-
-
-for i in range(10):
-    if i % 2 == 0:
-        print(Persistent[int](i).identity)
-    else:
-        print(Persistent[int](i).identity)
diff --git a/transformer_engine/pytorch/sequential/iteration_info.py b/transformer_engine/pytorch/sequential/iteration_info.py
new file mode 100644
index 0000000000..0704c8cb2d
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/iteration_info.py
@@ -0,0 +1,55 @@
+from __future__ import annotations
+from abc import ABC, abstractmethod
+
+
+class IterationAware:
+    __iter_info: IterationInfoProvider
+    __cur_iter: int | None = None
+    __index: int = 0
+    __max_index: int = 0
+
+    def __init__(self, iter_info: IterationInfoProvider):
+        self.__iter_info = iter_info
+
+    def iteration(self):
+        return self.__iter_info.iteration()
+
+    def is_new_iteration(self):
+        return self.__iter_info.is_new_iteration(self)
+
+    def index_within_iteration(self):
+        return self.__iter_info.index_within_iteration(self)
+
+    def max_index(self):
+        assert self.iteration() != 1
+        return self.__max_index
+
+
+class IterationInfoProvider(ABC):
+    @abstractmethod
+    def iteration(self) -> int:
+        ...
+
+    def __is_new_iteration(self, asker: IterationAware, __update: bool):
+        if asker.__cur_iter is None or asker.__cur_iter == self.iteration() - 1:
+            if __update:
+                asker.__cur_iter = self.iteration()
+            return True
+        elif asker.__cur_iter == self.iteration():
+            return False
+        else:
+            raise AssertionError()
+
+    def is_new_iteration(self, asker: IterationAware):
+        return self.__is_new_iteration(asker, True)
+
+    def index_within_iteration(self, asker: IterationAware):
+        if self.__is_new_iteration(asker, False):
+            asker.__index = 1
+        else:
+            asker.__index += 1
+            if self.iteration() == 1:
+                asker.__max_index = asker.__index
+            else:
+                assert asker.__index <= asker.__max_index
+        return asker.__index - 1
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index fadecb785a..44803a5112 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -1,6 +1,12 @@
 from ._common import make_nvte_tensor
-from ._nvte import QKVLayout, BiasType, MaskType, FusedAttnBackend, DType
-from .tensor import Tensor
+from ..cpp_extensions import (
+    QKVLayout,
+    BiasType,
+    MaskType,
+    FusedAttnBackend,
+    DType,
+    Tensor,
+)
 from .add import add, dbias
 from .cast_transpose import (
     cast_checked,
@@ -26,7 +32,6 @@
     dswiglu,
 )
 from .normalization import layernorm, dlayernorm, rmsnorm, drmsnorm
-from .meta_tensor_context import MetaTensorContext
 from .misc_fusions import (
     cast_transpose_dbias_checked,
     cast_transpose_dbias_dgelu_checked,
@@ -79,7 +84,6 @@
     "matmul_transpose_gelu_add",
     "matmul_transpose_gelu",
     "matmul_transpose",
-    "MetaTensorContext",
     "multi_cast_transpose_checked",
     "multi_cast_transpose",
     "multi_empty_share_metadata",
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index fb4c33cef6..a2006df7be 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,10 +1,10 @@
 import torch
-from .tensor import Tensor
+from .. import cpp_extensions as _nvte
 from .dtype import torch_to_te_dtype
 
 
 def make_nvte_tensor(t: torch.Tensor):
-    return Tensor(
+    return _nvte.Tensor(
         torch_to_te_dtype(t.dtype),
         t.data,
         torch.Tensor(),
diff --git a/transformer_engine/pytorch/sequential/nvte/_pass.py b/transformer_engine/pytorch/sequential/nvte/_pass.py
deleted file mode 100644
index 1c460e4682..0000000000
--- a/transformer_engine/pytorch/sequential/nvte/_pass.py
+++ /dev/null
@@ -1,2 +0,0 @@
-from typing import Literal
-pass_: Literal["forward", "backward", "inference"] = None  # type: ignore
diff --git a/transformer_engine/pytorch/sequential/nvte/activation.py b/transformer_engine/pytorch/sequential/nvte/activation.py
index d532ad3d8b..c1fa65cbba 100644
--- a/transformer_engine/pytorch/sequential/nvte/activation.py
+++ b/transformer_engine/pytorch/sequential/nvte/activation.py
@@ -1,63 +1,62 @@
-from . import _nvte
-from .tensor import Tensor
+from .. import cpp_extensions as _nvte
 from .empty import empty
 
 
-def relu(x: Tensor, out_dtype: _nvte.DType):
+def relu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.relu(x, output)
     return output
 
 
-def drelu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
+def drelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.drelu(grad, x, output)
     return output
 
 
-def gelu(x: Tensor, out_dtype: _nvte.DType):
+def gelu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.gelu(x, output)
     return output
 
 
-def dgelu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
+def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.dgelu(grad, x, output)
     return output
 
 
-def reglu(x: Tensor, out_dtype: _nvte.DType):
+def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.reglu(x, output)
     return output
 
 
-def dreglu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
+def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.dreglu(grad, x, output)
     return output
 
 
-def geglu(x: Tensor, out_dtype: _nvte.DType):
+def geglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.geglu(x, output)
     return output
 
 
-def dgeglu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
+def dgeglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.dgeglu(grad, x, output)
     return output
 
 
-def swiglu(x: Tensor, out_dtype: _nvte.DType):
+def swiglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.swiglu(x, output)
     return output
 
 
-def dswiglu(grad: Tensor, x: Tensor, out_dtype: _nvte.DType):
+def dswiglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
     output = empty(x.shape, out_dtype)
     _nvte.dswiglu(grad, x, output)
     return output
diff --git a/transformer_engine/pytorch/sequential/nvte/add.py b/transformer_engine/pytorch/sequential/nvte/add.py
index f75d30e1c9..366b08e205 100644
--- a/transformer_engine/pytorch/sequential/nvte/add.py
+++ b/transformer_engine/pytorch/sequential/nvte/add.py
@@ -1,11 +1,11 @@
 import torch
-from . import _nvte
-from .tensor import Tensor
+from .. import cpp_extensions as _nvte
+
 from ._common import make_nvte_tensor
 from .dtype import is_fp8, te_to_torch_dtype
 
 
-def add(A: Tensor, B: Tensor, out_dtype: _nvte.DType):
+def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
     if is_fp8(A) or is_fp8(B):
         raise NotImplementedError()
     else:
@@ -14,7 +14,7 @@ def add(A: Tensor, B: Tensor, out_dtype: _nvte.DType):
         return make_nvte_tensor(output)
 
 
-def dbias(grad: Tensor, out_dtype: _nvte.DType):
+def dbias(grad: _nvte.Tensor, out_dtype: _nvte.DType):
     if is_fp8(grad):
         raise NotImplementedError()
     else:
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index a3f40869a3..3f18fa8d72 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -1,10 +1,10 @@
-from . import _nvte
-from .tensor import Tensor
+from .. import cpp_extensions as _nvte
+
 from .dtype import is_fp8
 from .empty import empty, multi_empty_share_metadata
 
 
-def cast(t: Tensor, dtype: _nvte.DType):
+def cast(t: _nvte.Tensor, dtype: _nvte.DType):
     assert t.dtype != dtype
     if is_fp8(t):
         assert not is_fp8(dtype)
@@ -20,20 +20,20 @@ def cast(t: Tensor, dtype: _nvte.DType):
     return output
 
 
-def cast_checked(t: Tensor, dtype: _nvte.DType | None):
+def cast_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
     if dtype is None or t.dtype == dtype:
         return t
     else:
         return cast(t, dtype)
 
 
-def transpose(t: Tensor):
+def transpose(t: _nvte.Tensor):
     output = empty(t.shape[::-1], t.dtype)
     _nvte.transpose(t, output)
     return output
 
 
-def cast_transpose(t: Tensor, dtype: _nvte.DType):
+def cast_transpose(t: _nvte.Tensor, dtype: _nvte.DType):
     assert t.dtype != dtype
     if is_fp8(t):
         assert not is_fp8(dtype)
@@ -46,14 +46,14 @@ def cast_transpose(t: Tensor, dtype: _nvte.DType):
     return out_cast, out_transpose
 
 
-def cast_transpose_checked(t: Tensor, dtype: _nvte.DType | None):
+def cast_transpose_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
     if dtype is None or t.dtype == dtype:
         return t, transpose(t)
     else:
         return cast_transpose(t, dtype)
 
 
-def multi_cast_transpose(*desc: tuple[Tensor, _nvte.DType]):
+def multi_cast_transpose(*desc: tuple[_nvte.Tensor, _nvte.DType]):
     outs = [
         multi_empty_share_metadata((t.shape, dtype), (t.shape[::-1], dtype))
         for t, dtype in desc
@@ -64,9 +64,9 @@ def multi_cast_transpose(*desc: tuple[Tensor, _nvte.DType]):
     return outs
 
 
-def multi_cast_transpose_checked(*desc: tuple[Tensor, _nvte.DType | None]):
-    transpose_results = list[tuple[Tensor, Tensor] | None]()
-    to_cast_transpose = list[tuple[Tensor, _nvte.DType]]()
+def multi_cast_transpose_checked(*desc: tuple[_nvte.Tensor, _nvte.DType | None]):
+    transpose_results = list[tuple[_nvte.Tensor, _nvte.Tensor] | None]()
+    to_cast_transpose = list[tuple[_nvte.Tensor, _nvte.DType]]()
     for t, dtype in desc:
         if dtype is None or t.dtype == dtype:
             transpose_results.append((t, transpose(t)))
@@ -76,7 +76,7 @@ def multi_cast_transpose_checked(*desc: tuple[Tensor, _nvte.DType | None]):
     cast_transpose_results = (
         multi_cast_transpose(*to_cast_transpose) if to_cast_transpose else []
     )
-    results = list[tuple[Tensor, Tensor]]()
+    results = list[tuple[_nvte.Tensor, _nvte.Tensor]]()
     i = 0
     for result in transpose_results:
         if result is None:
diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index 22efec11e8..09669944e9 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -1,6 +1,5 @@
 import torch
-from . import _nvte
-from ._pass import pass_
+from .. import cpp_extensions as _nvte
 
 
 def te_to_torch_dtype(dtype: _nvte.DType):
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 7d07782246..21068f9a6c 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -1,25 +1,23 @@
 from typing import Sequence
 import torch
-from . import _nvte, meta_tensor_context
-from .tensor import Tensor
+from .. import cpp_extensions as _nvte
 from .dtype import te_to_torch_dtype, is_fp8
-
-_AMAX_HISTORY_LEN = 512
+from .execution_state import meta_tensor_provider
 
 
 def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
     return multi_empty_share_metadata((shape, dtype))[0]
 
 
-def empty_like(t: Tensor):
+def empty_like(t: _nvte.Tensor):
     return empty(t.shape, t.dtype)
 
 
 def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]):
     if any(is_fp8(dtype) for _, dtype in shapes_dtypes):
-        amax, scale, scale_inv = _create_metatensors()
+        amax, scale, scale_inv = meta_tensor_provider()
     return tuple(
-        Tensor(
+        _nvte.Tensor(
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
             amax,  # type: ignore[possibly-unbound]
@@ -28,7 +26,7 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
         )
         if is_fp8(dtype)
         else (
-            Tensor(
+            _nvte.Tensor(
                 dtype,
                 torch.Tensor(),
                 torch.Tensor(),
@@ -36,7 +34,7 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
                 torch.Tensor(),
             )
             if shape == ()
-            else Tensor(
+            else _nvte.Tensor(
                 dtype,
                 torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
                 torch.Tensor(),
@@ -46,15 +44,3 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
         )
         for shape, dtype in shapes_dtypes
     )
-
-
-def _create_metatensors():
-    meta_tensor_context.current().next_tensor()
-    if meta_tensor_context.current().has_metatensors():
-        amax, scale, scale_inv = meta_tensor_context.current().get_metatensors()
-    else:
-        amax = torch.zeros(_AMAX_HISTORY_LEN, dtype=torch.float32, device="cuda")
-        scale = torch.ones(1, dtype=torch.float32, device="cuda")
-        scale_inv = torch.ones(1, dtype=torch.float32, device="cuda")
-        meta_tensor_context.current().set_metatensors((amax, scale, scale_inv))
-    return amax, scale, scale_inv
diff --git a/transformer_engine/pytorch/sequential/nvte/execution_state.py b/transformer_engine/pytorch/sequential/nvte/execution_state.py
new file mode 100644
index 0000000000..e060a5691d
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/execution_state.py
@@ -0,0 +1,13 @@
+from typing import Literal
+import torch
+from ..persistent import Persistent
+
+FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
+
+pass_: Literal["forward", "backward", "inference"] = None  # type: ignore
+meta_tensor_provider: Persistent[FP8Meta] = None  # type: ignore
+
+
+def set_meta_tensor_provider(provider: Persistent[FP8Meta]):
+    global meta_tensor_provider
+    meta_tensor_provider = provider
diff --git a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py b/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
deleted file mode 100644
index d2f3932758..0000000000
--- a/transformer_engine/pytorch/sequential/nvte/meta_tensor_context.py
+++ /dev/null
@@ -1,96 +0,0 @@
-from __future__ import annotations
-from typing import Literal
-import torch
-from ._pass import pass_
-
-
-class MetaTensorContext:
-    last_iter_fwd: int | None
-    last_iter_bwd: int | None
-    current_pass: Literal["forward", "backward"]
-    current_iter: int
-    is_first_iter: bool
-    prev: MetaTensorContext | None
-    metatensors: dict[int, tuple[torch.Tensor, torch.Tensor, torch.Tensor]]
-    metatensors_fwd: dict[int, tuple[torch.Tensor, torch.Tensor, torch.Tensor]] | None
-    metatensors_bwd: dict[int, tuple[torch.Tensor, torch.Tensor, torch.Tensor]] | None
-
-    def __init__(self):
-        self.last_iter_fwd = None
-        self.last_iter_bwd = None
-        self.metatensors_fwd = None
-        self.metatensors_bwd = None
-
-    def __call__(self, current_pass: Literal["forward", "backward"], current_iter: int):
-        last_iter = (
-            self.last_iter_fwd if current_pass == "forward" else self.last_iter_bwd
-        )
-        if last_iter is not None and current_iter != last_iter + 1:
-            raise ValueError(
-                "Detected skipped iteration. This would most likely invalidate the current metatensors. Recreate the context instead."
-            )
-
-        self.current_pass = current_pass
-        self.current_iter = current_iter
-        return self
-
-    def __enter__(self):
-        global _current
-        self.prev = _current
-        if self.current_pass == "forward":
-            self.metatensors = self.metatensors_fwd or {}
-            self.is_first_iter = self.last_iter_fwd is None
-        else:
-            self.metatensors = self.metatensors_bwd or {}
-            self.is_first_iter = self.last_iter_bwd is None
-        self.current_tensor = 0
-        global pass_
-        pass_ = self.current_pass
-        _current = self
-
-    def __exit__(self, exc_type: type, exc_value: object, exc_tb: object):
-        global _current
-        _current = self.prev
-        if self.current_pass == "forward":
-            self.last_iter_fwd = self.current_iter
-            self.metatensors_fwd = self.metatensors
-        else:
-            self.last_iter_bwd = self.current_iter
-            self.metatensors_bwd = self.metatensors
-        del self.current_pass
-        del self.current_iter
-        del self.is_first_iter
-        del self.prev
-        del self.current_tensor
-        del self.metatensors
-
-    def next_tensor(self):
-        self.current_tensor += 1
-
-    def has_metatensors(self):
-        assert self.current_pass is not None
-        if self.is_first_iter:
-            return False
-        assert self.current_tensor in self.metatensors
-        return True
-
-    def set_metatensors(self, mts: tuple[torch.Tensor, torch.Tensor, torch.Tensor]):
-        assert self.is_first_iter
-        assert self.current_tensor not in self.metatensors
-        self.metatensors[self.current_tensor] = mts
-
-    def get_metatensors(self):
-        assert not self.is_first_iter
-        assert self.current_tensor in self.metatensors
-        amax_history, scale, scale_inv = self.metatensors[self.current_tensor]
-        amax = amax_history[self.current_iter % amax_history.shape[0]]
-        # TODO compute scale and scale_inv
-        return amax, scale, scale_inv
-
-
-_current: MetaTensorContext | None = None
-
-
-def current():
-    assert _current is not None
-    return _current
diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index 532b9aeeeb..11e3079e79 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -1,13 +1,12 @@
 from .dtype import is_fp8
-from . import _nvte
+from .. import cpp_extensions as _nvte
 from .cast_transpose import cast_transpose_checked
 from .empty import multi_empty_share_metadata, empty, empty_like
 from .add import dbias
-from .tensor import Tensor
 
 
 def cast_transpose_dbias_checked(
-    grad: Tensor, cast_dtype: _nvte.DType | None, dbias_dtype: _nvte.DType
+    grad: _nvte.Tensor, cast_dtype: _nvte.DType | None, dbias_dtype: _nvte.DType
 ):
     if (
         dbias_dtype == grad.dtype
@@ -23,7 +22,7 @@ def cast_transpose_dbias_checked(
             _nvte.cast_transpose_dbias(
                 grad, grad_cast, grad_transpose, out_dbias, workspace
             )
-            workspace = empty_like(workspace.query_shape_and_dtype_())
+            workspace = empty_like(workspace)
         return grad_cast, grad_transpose, out_dbias
     elif is_fp8(grad) and (cast_dtype is None or cast_dtype == grad.dtype):
         grad_transpose = empty(grad.shape[::-1], grad.dtype)
@@ -31,7 +30,7 @@ def cast_transpose_dbias_checked(
         workspace = empty()
         for _ in range(2):
             _nvte.fp8_transpose_dbias(grad, grad_transpose, out_dbias, workspace)
-            workspace = empty_like(workspace.query_shape_and_dtype_())
+            workspace = empty_like(workspace)
         return grad, grad_transpose, out_dbias
     else:
         grad_cast, grad_transpose = cast_transpose_checked(grad, cast_dtype)
@@ -40,8 +39,8 @@ def cast_transpose_dbias_checked(
 
 
 def cast_transpose_dbias_dgelu_checked(
-    grad: Tensor,
-    pre_gelu: Tensor,
+    grad: _nvte.Tensor,
+    pre_gelu: _nvte.Tensor,
     cast_dtype: _nvte.DType | None,
     dbias_dtype: _nvte.DType,
 ):
@@ -60,7 +59,7 @@ def cast_transpose_dbias_dgelu_checked(
             _nvte.cast_transpose_dbias_dgelu(
                 grad, pre_gelu, dgelu_cast, dgelu_transpose, out_dbias, workspace
             )
-            workspace = empty_like(workspace.query_shape_and_dtype_())
+            workspace = empty_like(workspace)
         return dgelu_cast, dgelu_transpose, out_dbias
     else:
         dgelu = empty(grad.shape, cast_dtype or grad.dtype)
@@ -69,7 +68,7 @@ def cast_transpose_dbias_dgelu_checked(
 
 
 def cast_transpose_dgeglu_checked(
-    grad: Tensor, pre_geglu: Tensor, cast_dtype: _nvte.DType | None
+    grad: _nvte.Tensor, pre_geglu: _nvte.Tensor, cast_dtype: _nvte.DType | None
 ):
     if (
         grad.dtype == pre_geglu.dtype
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 9afbb15d79..c92bb82b24 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -1,10 +1,9 @@
 import subprocess
 from functools import cache
 import torch
-from . import _nvte
+from .. import cpp_extensions as _nvte
 from .empty import empty
-from ._pass import pass_
-from .tensor import Tensor
+from .execution_state import pass_
 
 
 @cache
@@ -23,31 +22,33 @@ def _is_hopper():
 def _cublas_workspace():
     workspace_size = 33_554_432 if _is_hopper() else 4_194_304
     data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
-    return Tensor(
+    return _nvte.Tensor(
         _nvte.DType.Byte, data, torch.Tensor(), torch.Tensor(), torch.Tensor()
     )
 
 
-def _to_cublas_args(A: Tensor, B: Tensor, transA: bool, transB: bool):
+def _to_cublas_args(A: _nvte.Tensor, B: _nvte.Tensor, transA: bool, transB: bool):
     return B, A, not transA, not transB
 
 
-def matmul_transpose(mat: Tensor, mul: Tensor, out_dtype: _nvte.DType):
+def matmul_transpose(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
     "returns mat @ mul^T"
     return matmul_transpose_add(mat, mul, empty(), out_dtype)
 
 
-def matmul_transpose_gelu(mat: Tensor, mul: Tensor, out_dtype: _nvte.DType):
+def matmul_transpose_gelu(mat: _nvte.Tensor, mul: _nvte.Tensor, out_dtype: _nvte.DType):
     "returns mat @ mul^T, GELU(mat @ mul^T)"
     return matmul_transpose_add_gelu(mat, mul, empty(), out_dtype)
 
 
-def matmul_transpose_gelu_add(mat: Tensor, mul: Tensor, add: Tensor):
+def matmul_transpose_gelu_add(mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor):
     "returns mat @ mul^T, GELU(mat @ mul^T) + add"
     return matmul_transpose_add_gelu_add(mat, mul, empty(), add)
 
 
-def matmul_transpose_add(mat: Tensor, mul: Tensor, add: Tensor, out_dtype: _nvte.DType):
+def matmul_transpose_add(
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
+):
     "returns mat @ mul^T + add"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
@@ -69,7 +70,7 @@ def matmul_transpose_add(mat: Tensor, mul: Tensor, add: Tensor, out_dtype: _nvte
 
 
 def matmul_transpose_add_gelu(
-    mat: Tensor, mul: Tensor, add: Tensor, out_dtype: _nvte.DType
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
 ):
     "returns mat @ mul^T + add, GELU(mat @ mul^T + add)"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
@@ -92,7 +93,9 @@ def matmul_transpose_add_gelu(
     return pre_gelu, out
 
 
-def matmul_transpose_add_add(mat: Tensor, mul: Tensor, add1: Tensor, add2: Tensor):
+def matmul_transpose_add_add(
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
+):
     "returns mat @ mul^T + add1 + add2"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     _nvte.cublas_gemm(
@@ -112,7 +115,9 @@ def matmul_transpose_add_add(mat: Tensor, mul: Tensor, add1: Tensor, add2: Tenso
     return add2
 
 
-def matmul_transpose_add_gelu_add(mat: Tensor, mul: Tensor, add1: Tensor, add2: Tensor):
+def matmul_transpose_add_gelu_add(
+    mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
+):
     "returns mat @ mul^T + add1, GELU(mat @ mul^T + add1) + add2"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     pre_gelu = empty(add2.shape, add1.dtype)
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index 2bc1ba16b9..d06006a128 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -2,11 +2,10 @@
 from functools import cache
 from contextlib import contextmanager
 import torch
-from . import _nvte
-from ._pass import pass_
+from .. import cpp_extensions as _nvte
+from .execution_state import pass_
 from .dtype import dtype_name
 from .empty import empty, empty_like
-from .tensor import Tensor
 
 
 @cache
@@ -36,7 +35,9 @@ def _sm_margin():
 
 
 class _NormConfig:
-    def __init__(self, hidden_size: int, gamma: Tensor, x: Tensor, out: Tensor):
+    def __init__(
+        self, hidden_size: int, gamma: _nvte.Tensor, x: _nvte.Tensor, out: _nvte.Tensor
+    ):
         self.hidden_size = hidden_size
         self.gamma_dtype_name = dtype_name(gamma.dtype)
         self.x_dtype_name = dtype_name(x.dtype)
@@ -57,9 +58,9 @@ def __str__(self):
 def _handle_unsupported_config(
     func_name: str,
     hidden_size: int,
-    gamma: Tensor,
-    x: Tensor,
-    out: Tensor,
+    gamma: _nvte.Tensor,
+    x: _nvte.Tensor,
+    out: _nvte.Tensor,
 ):
     try:
         yield
@@ -76,11 +77,11 @@ def _handle_unsupported_config(
 
 
 def layernorm(
-    x: Tensor,
+    x: _nvte.Tensor,
     eps: float,
     zero_centered_gamma: bool,
-    gamma: Tensor,
-    beta: Tensor,
+    gamma: _nvte.Tensor,
+    beta: _nvte.Tensor,
     out_dtype: _nvte.DType,
 ):
     "returns (x - mean(x)) / sqrt(var(x) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
@@ -112,19 +113,19 @@ def layernorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace.query_shape_and_dtype_())
-            barrier = empty_like(barrier.query_shape_and_dtype_())
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
 
     return out, mu, rsigma
 
 
 def dlayernorm(
-    grad: Tensor,
+    grad: _nvte.Tensor,
     zero_centered_gamma: bool,
-    x: Tensor,
-    gamma: Tensor,
-    mu: Tensor,
-    rsigma: Tensor,
+    x: _nvte.Tensor,
+    gamma: _nvte.Tensor,
+    mu: _nvte.Tensor,
+    rsigma: _nvte.Tensor,
     dx_dtype: _nvte.DType,
     dgamma_dtype: _nvte.DType,
     dbeta_dtype: _nvte.DType,
@@ -161,19 +162,19 @@ def dlayernorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace.query_shape_and_dtype_())
-            barrier = empty_like(barrier.query_shape_and_dtype_())
-            dgamma_part = empty_like(dgamma_part.query_shape_and_dtype_())
-            dbeta_part = empty_like(dbeta_part.query_shape_and_dtype_())
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
+            dgamma_part = empty_like(dgamma_part)
+            dbeta_part = empty_like(dbeta_part)
 
     return dx, dgamma, dbeta
 
 
 def rmsnorm(
-    x: Tensor,
+    x: _nvte.Tensor,
     eps: float,
     zero_centered_gamma: bool,
-    gamma: Tensor,
+    gamma: _nvte.Tensor,
     out_dtype: _nvte.DType,
 ):
     "returns x / sqrt(var(x) + eps) * gamma, rsigma (for bwd)"
@@ -203,18 +204,18 @@ def rmsnorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace.query_shape_and_dtype_())
-            barrier = empty_like(barrier.query_shape_and_dtype_())
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
 
     return out, rsigma
 
 
 def drmsnorm(
-    grad: Tensor,
+    grad: _nvte.Tensor,
     zero_centered_gamma: bool,
-    x: Tensor,
-    gamma: Tensor,
-    rsigma: Tensor,
+    x: _nvte.Tensor,
+    gamma: _nvte.Tensor,
+    rsigma: _nvte.Tensor,
     dx_dtype: _nvte.DType,
     dgamma_dtype: _nvte.DType,
 ):
@@ -245,8 +246,8 @@ def drmsnorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace.query_shape_and_dtype_())
-            barrier = empty_like(barrier.query_shape_and_dtype_())
-            dgamma_part = empty_like(dgamma_part.query_shape_and_dtype_())
+            workspace = empty_like(workspace)
+            barrier = empty_like(barrier)
+            dgamma_part = empty_like(dgamma_part)
 
     return dx, dgamma
diff --git a/transformer_engine/pytorch/sequential/persistent.py b/transformer_engine/pytorch/sequential/persistent.py
new file mode 100644
index 0000000000..03308bfbd9
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/persistent.py
@@ -0,0 +1,19 @@
+from __future__ import annotations
+from abc import ABC, abstractmethod
+from typing import Generic, TypeVar
+from .iteration_info import IterationAware
+
+
+T = TypeVar("T")
+
+
+class Persistent(Generic[T], ABC, IterationAware):
+    """
+    Storage for data that is to be persisted between iterations.
+    Examples include fp8 metatensors (during training)
+    and KV cache (during inference).
+    """
+
+    @abstractmethod
+    def __call__(self) -> T:
+        ...
diff --git a/transformer_engine/pytorch/sequential/tensor/meta.py b/transformer_engine/pytorch/sequential/tensor/meta.py
new file mode 100644
index 0000000000..8bd760962a
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/tensor/meta.py
@@ -0,0 +1,56 @@
+from typing import Callable
+import torch
+from ..persistent import Persistent
+from . import recipe
+
+FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
+
+
+class PersistentFP8Meta(Persistent[FP8Meta]):
+    amaxes: torch.Tensor  # (amax_history_len, num_tensors)
+    scaling_factors: torch.Tensor  # (num_tensors,)
+    scaling_factors_inversed: torch.Tensor  # (num_tensors,)
+
+    def __call__(self):
+        if self.iteration() == 1:
+            if self.is_new_iteration():
+                # Allocate first iteration metatensors
+                self._one = torch.ones(1, device="cuda")
+                self._first_iteration_amaxes = list[torch.Tensor]()
+            amax = torch.zeros(1, device="cuda")
+            self._first_iteration_amaxes.append(amax)
+            self.index_within_iteration()  # increment tensor index
+            return (amax, self._one, self._one)
+        else:
+            if self.iteration() == 2 and self.is_new_iteration():
+                # Allocate metatensors
+                self.amaxes = torch.zeros(
+                    (recipe.current().amax_history_len, self.max_index()), device="cuda"
+                )
+                self.scaling_factors = torch.ones(self.max_index(), device="cuda")
+                self.scaling_factors_inversed = torch.ones(
+                    self.max_index(), device="cuda"
+                )
+                # Copy amaxes from first iteration
+                self.amaxes[0] = torch.cat(self._first_iteration_amaxes)
+                # Delete first iteration amaxes
+                del self._first_iteration_amaxes
+            if self.iteration() % recipe.current().amax_reduction_period == 0:
+                amaxes_t = self.amaxes.T  # (num_tensors, amax_history_len)
+                reduced = recipe.current().amax_reduction_method(
+                    amaxes_t
+                )  # (num_tensors,)
+                recipe.current().scaling_factor_compute_method(
+                    reduced, self.scaling_factors
+                )
+                torch.reciprocal(
+                    self.scaling_factors, out=self.scaling_factors_inversed
+                )
+            tensor_idx = self.index_within_iteration()
+            return (
+                self.amaxes[
+                    self.iteration() % recipe.current().amax_history_len, tensor_idx
+                ],
+                self.scaling_factors[tensor_idx],
+                self.scaling_factors_inversed[tensor_idx],
+            )
diff --git a/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py b/transformer_engine/pytorch/sequential/tensor/printing.py
similarity index 96%
rename from transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
rename to transformer_engine/pytorch/sequential/tensor/printing.py
index 214abc84ce..091c9fc02d 100644
--- a/transformer_engine/pytorch/sequential/nvte/_tensor_debug.py
+++ b/transformer_engine/pytorch/sequential/tensor/printing.py
@@ -1,11 +1,14 @@
 import torch
-from ._nvte import Tensor, DType
-from .dtype import dtype_name
+from ..cpp_extensions import Tensor, DType
 
 
 def tensor_repr(tensor: Tensor):
-    if tensor.dtype == DType.Float8E4M3:
-        conv_table = torch.tensor(DEBUG_FP8E4M3_TO_F32, device="cpu")
+    if tensor.dtype == DType.Float8E4M3 or DType.Float8E5M2:
+        conv_table = (
+            torch.tensor(ALL_FP8E4M3_VALUES, device="cpu")
+            if tensor.dtype == DType.Float8E4M3
+            else torch.tensor(ALL_FP8E5M2_VALUES, device="cpu")
+        )
         fp32_values = conv_table[tensor.data.cpu().int()]
         data_repr = repr(fp32_values)
     else:
@@ -14,7 +17,7 @@ def tensor_repr(tensor: Tensor):
     data_repr = "T" + data_repr[1:]
     return f"""\
 {data_repr},
-       dtype={dtype_name(tensor.dtype)},\
+       dtype={tensor.dtype.name},\
  amax={tensor.amax[0].item() if tensor.amax.numel() else None},\
  scale={tensor.scale.item() if tensor.scale.numel() else None},\
  scale_inv={tensor.scale_inv.item() if tensor.scale_inv.numel() else None}\
@@ -24,7 +27,7 @@ def tensor_repr(tensor: Tensor):
 # fmt: off
 nan = float("nan")
 inf = float("inf")
-DEBUG_FP8E4M3_TO_F32 = [
+ALL_FP8E4M3_VALUES = [
    0.         ,    0.001953125,    0.00390625 ,    0.005859375,    0.0078125  ,    0.009765625,    0.01171875 ,    0.013671875,
    0.015625   ,    0.017578125,    0.01953125 ,    0.021484375,    0.0234375  ,    0.025390625,    0.02734375 ,    0.029296875,
    0.03125    ,    0.03515625 ,    0.0390625  ,    0.04296875 ,    0.046875   ,    0.05078125 ,    0.0546875  ,    0.05859375 ,
@@ -58,9 +61,8 @@ def tensor_repr(tensor: Tensor):
 -128.         , -144.         , -160.         , -176.         , -192.         , -208.         , -224.         , -240.         ,
 -256.         , -288.         , -320.         , -352.         , -384.         , -416.         , -448.         ,  nan          ,
 ]
-"All values representable with FP8E4M3"
 
-DEBUG_FP8E5M2_TO_F32 = [
+ALL_FP8E5M2_VALUES = [
       0.                ,      0.0000152587890625,      0.000030517578125 ,      0.0000457763671875,      0.00006103515625  ,     0.0000762939453125,      0.000091552734375 ,      0.0001068115234375,
       0.0001220703125   ,      0.000152587890625 ,      0.00018310546875  ,      0.000213623046875 ,      0.000244140625    ,     0.00030517578125  ,      0.0003662109375   ,      0.00042724609375  ,
       0.00048828125     ,      0.0006103515625   ,      0.000732421875    ,      0.0008544921875   ,      0.0009765625      ,     0.001220703125    ,      0.00146484375     ,      0.001708984375    ,
@@ -94,4 +96,3 @@ def tensor_repr(tensor: Tensor):
   -8192.                , -10240.                , -12288.                , -14336.                , -16384.                , 20480.                , -24576.                , -28672.                ,
  -32768.                , -40960.                , -49152.                , -57344.                ,   -inf                 ,   nan                 ,    nan                 ,    nan                 ,
 ]
-"All values representable with FP8E5M2"
diff --git a/transformer_engine/pytorch/sequential/tensor/recipe.py b/transformer_engine/pytorch/sequential/tensor/recipe.py
new file mode 100644
index 0000000000..b9a47f08ca
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/tensor/recipe.py
@@ -0,0 +1,13 @@
+from typing import Callable
+import torch
+
+
+class Recipe:
+    amax_history_len: int
+    amax_reduction_period: int
+    amax_reduction_method: Callable[[torch.Tensor], torch.Tensor]
+    scaling_factor_compute_method: Callable[[torch.Tensor, torch.Tensor], torch.Tensor]
+
+
+def current() -> Recipe:
+    raise NotImplementedError()
diff --git a/transformer_engine/pytorch/sequential/nvte/tensor.py b/transformer_engine/pytorch/sequential/tensor/tensor.py
similarity index 87%
rename from transformer_engine/pytorch/sequential/nvte/tensor.py
rename to transformer_engine/pytorch/sequential/tensor/tensor.py
index f0ff89b68b..00962b901c 100644
--- a/transformer_engine/pytorch/sequential/nvte/tensor.py
+++ b/transformer_engine/pytorch/sequential/tensor/tensor.py
@@ -1,6 +1,6 @@
 import torch
-from ._nvte import Tensor as TensorBase, DType
-from ._tensor_debug import tensor_repr
+from ..cpp_extensions import Tensor as TensorBase, DType
+from .printing import tensor_repr
 
 
 class Tensor(TensorBase):
@@ -33,5 +33,4 @@ def query_shape_and_dtype_(self):
         return self
 
     def __repr__(self):
-        self.query_shape_and_dtype_()
         return tensor_repr(self)

From 28f6e79d9095268c60fc4411eb0f1cfcd17825fa Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 22 Aug 2023 18:48:24 +0200
Subject: [PATCH 183/535] almost finish refactor of metatensors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    |  4 +++
 .../sequential/compute_pipeline_function.py   | 14 +++-----
 .../pytorch/sequential/nvte/__init__.py       |  2 ++
 .../sequential/nvte/execution_state.py        |  9 +++--
 .../pytorch/sequential/tensor/__init__.py     |  8 +++++
 .../pytorch/sequential/tensor/meta.py         |  1 -
 .../pytorch/sequential/tensor/printing.py     |  2 ++
 .../pytorch/sequential/tensor/tensor.py       | 36 -------------------
 8 files changed, 27 insertions(+), 49 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/tensor/__init__.py
 delete mode 100644 transformer_engine/pytorch/sequential/tensor/tensor.py

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 6aac044cc2..09a20590b6 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -6,6 +6,7 @@
 from .fusions import FusedOp, get_fused_op_list
 from .utils import set_attribute
 from .environment import Environment
+from .tensor import PersistentFP8Meta
 
 
 class SelfContainedOp(Op):
@@ -137,6 +138,9 @@ def __init__(self, ops: list[Op], env: Environment):
         )
         self.forward = tuple(op for f in self.functions for op in f.fwds)
         self.backward = tuple(op for f in self.functions for op in f.bwds)
+        self.meta_inf = PersistentFP8Meta()
+        self.meta_fwd = PersistentFP8Meta()
+        self.meta_bwd = PersistentFP8Meta()
 
     def run_inference(self, x: nvte.Tensor) -> nvte.Tensor:
         for op in self._inf:
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 89a7369d90..9cc8703093 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -45,12 +45,8 @@ def forward(  # type: ignore[arg-type]
         assert isinstance(nvte_x, nvte.Tensor)
         assert isinstance(current_iteration, int)
 
-        if not hasattr(op, "_nvte_metatensor_context"):
-            setattr(op, "_nvte_metatensor_context", nvte.MetaTensorContext())
-        metatensor_context = getattr(op, "_nvte_metatensor_context")
-
-        with metatensor_context("forward", current_iteration):
-            y, to_save = op.forward(nvte_x)
+        nvte.set_execution_state("forward", meta_tensor_provider)
+        y, to_save = op.forward(nvte_x)
 
         # Expose backward context for tracing
         bwd_ctx = list[torch.Tensor]()
@@ -159,10 +155,8 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
             nvte_grad = preceding_backward.nvte_grad_output
         del grad_output
 
-        metatensor_context = getattr(op, "_nvte_metatensor_context")
-
-        with metatensor_context("backward", current_iteration):
-            data_grad, param_grads = op.backward(saved, nvte_grad)
+        nvte.set_execution_state("backward", meta_tensor_provider)
+        data_grad, param_grads = op.backward(saved, nvte_grad)
 
         # Store real gradient for next backward in pipeline
         if upcoming_backward is None:
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index 44803a5112..d3bc2af977 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -19,6 +19,7 @@
 )
 from .dtype import te_to_torch_dtype, torch_to_te_dtype, bit_width, dtype_name, is_fp8
 from .empty import empty, empty_like, multi_empty_share_metadata
+from .execution_state import set_execution_state
 from .activation import (
     relu,
     drelu,
@@ -91,6 +92,7 @@
     "reglu",
     "relu",
     "rmsnorm",
+    "set_execution_state",
     "swiglu",
     "te_to_torch_dtype",
     "Tensor",
diff --git a/transformer_engine/pytorch/sequential/nvte/execution_state.py b/transformer_engine/pytorch/sequential/nvte/execution_state.py
index e060a5691d..76d1d0c4ab 100644
--- a/transformer_engine/pytorch/sequential/nvte/execution_state.py
+++ b/transformer_engine/pytorch/sequential/nvte/execution_state.py
@@ -8,6 +8,11 @@
 meta_tensor_provider: Persistent[FP8Meta] = None  # type: ignore
 
 
-def set_meta_tensor_provider(provider: Persistent[FP8Meta]):
+def set_execution_state(
+    pass__: Literal["forward", "backward", "inference"],
+    meta_tensor_provider_: Persistent[FP8Meta],
+):
     global meta_tensor_provider
-    meta_tensor_provider = provider
+    meta_tensor_provider = meta_tensor_provider_
+    global pass_
+    pass_ = pass__
diff --git a/transformer_engine/pytorch/sequential/tensor/__init__.py b/transformer_engine/pytorch/sequential/tensor/__init__.py
new file mode 100644
index 0000000000..102b220341
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/tensor/__init__.py
@@ -0,0 +1,8 @@
+import printing # for side effects
+from .meta import PersistentFP8Meta
+from .recipe import Recipe
+
+__all__ = [
+    "PersistentFP8Meta",
+    "Recipe",
+]
diff --git a/transformer_engine/pytorch/sequential/tensor/meta.py b/transformer_engine/pytorch/sequential/tensor/meta.py
index 8bd760962a..9acb0ad283 100644
--- a/transformer_engine/pytorch/sequential/tensor/meta.py
+++ b/transformer_engine/pytorch/sequential/tensor/meta.py
@@ -1,4 +1,3 @@
-from typing import Callable
 import torch
 from ..persistent import Persistent
 from . import recipe
diff --git a/transformer_engine/pytorch/sequential/tensor/printing.py b/transformer_engine/pytorch/sequential/tensor/printing.py
index 091c9fc02d..2234d95caa 100644
--- a/transformer_engine/pytorch/sequential/tensor/printing.py
+++ b/transformer_engine/pytorch/sequential/tensor/printing.py
@@ -23,6 +23,8 @@ def tensor_repr(tensor: Tensor):
  scale_inv={tensor.scale_inv.item() if tensor.scale_inv.numel() else None}\
 )"""
 
+setattr(Tensor, "__repr__", tensor_repr)
+
 
 # fmt: off
 nan = float("nan")
diff --git a/transformer_engine/pytorch/sequential/tensor/tensor.py b/transformer_engine/pytorch/sequential/tensor/tensor.py
deleted file mode 100644
index 00962b901c..0000000000
--- a/transformer_engine/pytorch/sequential/tensor/tensor.py
+++ /dev/null
@@ -1,36 +0,0 @@
-import torch
-from ..cpp_extensions import Tensor as TensorBase, DType
-from .printing import tensor_repr
-
-
-class Tensor(TensorBase):
-    _cached_dtype: DType
-    _cached_shape: tuple[int, ...]
-
-    def __init__(
-        self,
-        dtype: DType,
-        data: torch.Tensor,
-        amax: torch.Tensor,
-        scale: torch.Tensor,
-        scale_inv: torch.Tensor,
-    ):
-        self._cached_dtype = dtype
-        self._cached_shape = data.shape
-        super().__init__(dtype, data, amax, scale, scale_inv)
-
-    @property
-    def dtype(self):  # type: ignore[incompatible-override]
-        return self._cached_dtype
-
-    @property
-    def shape(self):  # type: ignore[incompatible-override]
-        return self._cached_shape
-
-    def query_shape_and_dtype_(self):
-        self._cached_dtype = super().dtype
-        self._cached_shape = tuple(super().shape)
-        return self
-
-    def __repr__(self):
-        return tensor_repr(self)

From 988ceb0494f1f2ccece1b308a7cc1ec3ed915943 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 13:18:50 +0200
Subject: [PATCH 184/535] encapsulate fp8 metatensors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    |   7 +-
 .../sequential/compute_pipeline_function.py   | 108 ++++++++++--------
 .../pytorch/sequential/iteration_info.py      |  55 ---------
 .../sequential/nvte/execution_state.py        |   4 +-
 .../pytorch/sequential/persistent.py          |  68 ++++++++++-
 .../pytorch/sequential/tensor/meta.py         |  23 ++--
 6 files changed, 142 insertions(+), 123 deletions(-)
 delete mode 100644 transformer_engine/pytorch/sequential/iteration_info.py

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 09a20590b6..4f0f8bcd67 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -138,15 +138,18 @@ def __init__(self, ops: list[Op], env: Environment):
         )
         self.forward = tuple(op for f in self.functions for op in f.fwds)
         self.backward = tuple(op for f in self.functions for op in f.bwds)
-        self.meta_inf = PersistentFP8Meta()
         self.meta_fwd = PersistentFP8Meta()
         self.meta_bwd = PersistentFP8Meta()
 
-    def run_inference(self, x: nvte.Tensor) -> nvte.Tensor:
+    def run_inference(self, x: nvte.Tensor):
         for op in self._inf:
             x = op.inference(x)
         return x
 
+    def next_iteration(self):
+        self.meta_fwd.next_iteration()
+        self.meta_bwd.next_iteration()
+
     def __repr__(self):
         return f"""ComputePipeline(
     forward: {self.forward},
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 9cc8703093..df9531cd6e 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -3,16 +3,23 @@
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
+from typing import Final
+from .persistent import Persistent
 from . import nvte
 from .ops import Context, Op
 from .compute_pipeline import ComputePipeline
 
+FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
+
 
 @dataclass
-class CommWithLoop:
+class ForwardArgs:
     nvte_x: nvte.Tensor
     is_exposed_x_squished_now: bool
     upcoming_backward: BackwardComm | None
+    op: Final[Op]
+    meta_tensor_provider_fwd: Final[Persistent[FP8Meta]]
+    meta_tensor_provider_bwd: Final[Persistent[FP8Meta]]
 
 
 class BackwardComm:
@@ -24,29 +31,21 @@ class ComputePipelineFunction(autograd.Function):
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *args: torch.Tensor | Op | CommWithLoop | int,
+        *exposed_args: torch.Tensor | ForwardArgs,
     ):
         """
         exposed_x is used only to let autograd construct the computation graph
         real input and output is in list, as nvte.Tensor is immutable
         exposed_tensors are exposed for the optimizer to later apply gradients
         """
-        exposed_tensors, op, comm, current_iteration = (
-            args[:-3],
-            args[-3],
-            args[-2],
-            args[-1],
-        )
+        exposed_tensors, args = exposed_args[:-1], exposed_args[-1]
         del exposed_tensors
+        assert isinstance(args, ForwardArgs)
 
-        assert isinstance(op, Op)
-        assert isinstance(comm, CommWithLoop)
-        nvte_x = comm.nvte_x
-        assert isinstance(nvte_x, nvte.Tensor)
-        assert isinstance(current_iteration, int)
+        nvte_x = args.nvte_x
 
-        nvte.set_execution_state("forward", meta_tensor_provider)
-        y, to_save = op.forward(nvte_x)
+        nvte.set_execution_state("forward", args.meta_tensor_provider_fwd)
+        y, to_save = args.op.forward(nvte_x)
 
         # Expose backward context for tracing
         bwd_ctx = list[torch.Tensor]()
@@ -62,14 +61,24 @@ def forward(  # type: ignore[arg-type]
 
         # Save real context
         setattr(ctx, "nvte_ctx", to_save)
-        setattr(ctx, "nvte_op", op)
-        setattr(ctx, "nvte_current_iteration", current_iteration)
+        setattr(ctx, "nvte_op", args.op)
+        setattr(ctx, "nvte_meta_tensor_provider_bwd", args.meta_tensor_provider_bwd)
 
         # Actually store the result
-        comm.nvte_x = y
+        args.nvte_x = y
+
+        # Pytorch will break the computation graph
+        # if it will see an output tensor of an integer type.
+        # As fp8 tensors internally have dtype int8,
+        # we need to pretend that this type is actually different
+        # by "squishing" it into a floating point dtype.
+        # ("Squishing" because, while the new dtype is larger,
+        # the numel() gets smaller).
+        # This doesn't work in TorchScript, but this code
+        # won't run at inference anyway.
 
         # Unsquish x if needed:
-        if comm.is_exposed_x_squished_now:
+        if args.is_exposed_x_squished_now:
             # Intentionally commented out - _unsquish(exposed_x)
             # We don't need to perform the unsquish itself, as this
             # data will not be read anyway.
@@ -77,7 +86,7 @@ def forward(  # type: ignore[arg-type]
             # cannot be modified in place.
             # It is only really neccesarry to notify
             # the backward.
-            comm.is_exposed_x_squished_now = False
+            args.is_exposed_x_squished_now = False
             # If the input to the forward was squished,
             # Pytorch will expect its gradient to be squished
             # as well. The backward of this forward will be
@@ -97,12 +106,6 @@ def forward(  # type: ignore[arg-type]
 
         # Squish y if fp8:
         if exposed_y.data.dtype == torch.int8:
-            # Pytorch will break the computation graph
-            # if it will see an output tensor of an integer type.
-            # As fp8 tensors internally have dtype int8,
-            # we need to pretend that this type is actually different.
-            # This doesn't work in TorchScript, but this code
-            # won't run at inference anyway.
             _squish(exposed_y)
             # Because the output is squished, the gradient also needs to be.
             # The backward of this forward recieves the gradient of the
@@ -110,19 +113,19 @@ def forward(  # type: ignore[arg-type]
             # to squish it, while the backward coresponding to this
             # forward needs to unsquish it.
             setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
-            comm.is_exposed_x_squished_now = True
+            args.is_exposed_x_squished_now = True
         else:
             setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
-            comm.is_exposed_x_squished_now = False
+            args.is_exposed_x_squished_now = False
 
         # Save backward comm
         # This object is allows for the current backward to
         # pass data to the next backward (the backward of the
         # preceding operation). This is needed to pass
         # fp8 gradients properly.
-        setattr(ctx, "nvte_upcoming_backward_comm", comm.upcoming_backward)
-        comm.upcoming_backward = BackwardComm()
-        setattr(ctx, "nvte_preceding_backward_comm", comm.upcoming_backward)
+        setattr(ctx, "nvte_upcoming_backward_comm", args.upcoming_backward)
+        args.upcoming_backward = BackwardComm()
+        setattr(ctx, "nvte_preceding_backward_comm", args.upcoming_backward)
 
         return exposed_y
 
@@ -131,17 +134,9 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         # The context needs to think that the tensors were read
         _ = ctx.saved_tensors  # type: ignore
 
-        grad_output = grad_output.contiguous()  # TODO: use transposed gradient instead
-
-        # Check if incoming gradient needs to be unsquished
-        unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
-        if unsquish_incoming_dgrad:
-            _unsquish(grad_output)
-
         # Get real context
         saved: Context = getattr(ctx, "nvte_ctx")
         op: Op = getattr(ctx, "nvte_op")
-        current_iteration: int = getattr(ctx, "nvte_current_iteration")
         preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
         upcoming_backward: BackwardComm | None = getattr(
             ctx, "nvte_upcoming_backward_comm"
@@ -150,11 +145,21 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         # Get real gradient
         if preceding_backward.nvte_grad_output is None:
             # This is the first backward in the compute pipeline
+
+            grad_output = grad_output.contiguous()  # TODO: try to avoid this
+
+            # Check if incoming gradient needs to be unsquished
+            unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
+            if unsquish_incoming_dgrad:
+                _unsquish(grad_output)
             nvte_grad = nvte.make_nvte_tensor(grad_output)
         else:
             nvte_grad = preceding_backward.nvte_grad_output
         del grad_output
 
+        meta_tensor_provider: Persistent[FP8Meta] = getattr(
+            ctx, "nvte_meta_tensor_provider_bwd"
+        )
         nvte.set_execution_state("backward", meta_tensor_provider)
         data_grad, param_grads = op.backward(saved, nvte_grad)
 
@@ -180,9 +185,6 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         return (*torch_grads, None, None, None)
 
 
-iteration: int = 0
-
-
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
     if not training:
         raise NotImplementedError()  # TODO
@@ -190,11 +192,10 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         assert not nvte.is_fp8(y)
         return y.data
     else:
-        global iteration
-        current_iteration = iteration
-        iteration += 1
-
-        comm = CommWithLoop(nvte.make_nvte_tensor(x), False, None)
+        pipeline.next_iteration()
+        nvte_x = nvte.make_nvte_tensor(x)
+        is_exposed_x_squished_now = False
+        upcoming_backward = None
         for contained_op in pipeline.functions:
             nvte_tensors = contained_op.require_grad()
             exposed_tensors = list[torch.Tensor]()
@@ -203,14 +204,21 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                     nvte_tensor
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
-            x = ComputePipelineFunction.apply(  # type: ignore
-                x, *exposed_tensors, contained_op, comm, current_iteration
+            args = ForwardArgs(
+                nvte_x,
+                is_exposed_x_squished_now,
+                upcoming_backward,
+                contained_op,
+                pipeline.meta_fwd,
+                pipeline.meta_bwd,
             )
+            x = ComputePipelineFunction.apply(x, *exposed_tensors, args)  # type: ignore
+            nvte_x = args.nvte_x
         return x
 
 
 # The squish needs to be invertible and
-# always reduce the size of the tensor by the same
+# always reduce the numel() of the tensor by the same
 # amount.
 #
 # If a tensor is to be squished, it must have been
diff --git a/transformer_engine/pytorch/sequential/iteration_info.py b/transformer_engine/pytorch/sequential/iteration_info.py
deleted file mode 100644
index 0704c8cb2d..0000000000
--- a/transformer_engine/pytorch/sequential/iteration_info.py
+++ /dev/null
@@ -1,55 +0,0 @@
-from __future__ import annotations
-from abc import ABC, abstractmethod
-
-
-class IterationAware:
-    __iter_info: IterationInfoProvider
-    __cur_iter: int | None = None
-    __index: int = 0
-    __max_index: int = 0
-
-    def __init__(self, iter_info: IterationInfoProvider):
-        self.__iter_info = iter_info
-
-    def iteration(self):
-        return self.__iter_info.iteration()
-
-    def is_new_iteration(self):
-        return self.__iter_info.is_new_iteration(self)
-
-    def index_within_iteration(self):
-        return self.__iter_info.index_within_iteration(self)
-
-    def max_index(self):
-        assert self.iteration() != 1
-        return self.__max_index
-
-
-class IterationInfoProvider(ABC):
-    @abstractmethod
-    def iteration(self) -> int:
-        ...
-
-    def __is_new_iteration(self, asker: IterationAware, __update: bool):
-        if asker.__cur_iter is None or asker.__cur_iter == self.iteration() - 1:
-            if __update:
-                asker.__cur_iter = self.iteration()
-            return True
-        elif asker.__cur_iter == self.iteration():
-            return False
-        else:
-            raise AssertionError()
-
-    def is_new_iteration(self, asker: IterationAware):
-        return self.__is_new_iteration(asker, True)
-
-    def index_within_iteration(self, asker: IterationAware):
-        if self.__is_new_iteration(asker, False):
-            asker.__index = 1
-        else:
-            asker.__index += 1
-            if self.iteration() == 1:
-                asker.__max_index = asker.__index
-            else:
-                assert asker.__index <= asker.__max_index
-        return asker.__index - 1
diff --git a/transformer_engine/pytorch/sequential/nvte/execution_state.py b/transformer_engine/pytorch/sequential/nvte/execution_state.py
index 76d1d0c4ab..2bae388782 100644
--- a/transformer_engine/pytorch/sequential/nvte/execution_state.py
+++ b/transformer_engine/pytorch/sequential/nvte/execution_state.py
@@ -4,8 +4,8 @@
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
-pass_: Literal["forward", "backward", "inference"] = None  # type: ignore
-meta_tensor_provider: Persistent[FP8Meta] = None  # type: ignore
+pass_: Literal["forward", "backward", "inference"]
+meta_tensor_provider: Persistent[FP8Meta]
 
 
 def set_execution_state(
diff --git a/transformer_engine/pytorch/sequential/persistent.py b/transformer_engine/pytorch/sequential/persistent.py
index 03308bfbd9..7b881a9df3 100644
--- a/transformer_engine/pytorch/sequential/persistent.py
+++ b/transformer_engine/pytorch/sequential/persistent.py
@@ -1,19 +1,81 @@
 from __future__ import annotations
 from abc import ABC, abstractmethod
 from typing import Generic, TypeVar
-from .iteration_info import IterationAware
 
 
 T = TypeVar("T")
 
 
-class Persistent(Generic[T], ABC, IterationAware):
+class Persistent(Generic[T], ABC):
     """
     Storage for data that is to be persisted between iterations.
     Examples include fp8 metatensors (during training)
     and KV cache (during inference).
     """
 
+    # abstract
     @abstractmethod
-    def __call__(self) -> T:
+    def _generate(self) -> T:
         ...
+
+    # public
+    def __call__(self):
+        result = self._generate()
+        if __debug__:
+            if self._iteration() == 1:
+                self.__values.append(result)
+            else:
+                assert self.__values[self.__index_within_iteration(False)] is result
+        return result
+
+    def next_iteration(self):
+        self.__user_set_iteration += 1
+
+    # protected
+    def _iteration(self):
+        assert self.__user_set_iteration > 0
+        return self.__user_set_iteration
+
+    def _is_new_iteration(self):
+        return self.__is_new_iteration(True)
+
+    def _index_within_iteration(self):
+        return self.__index_within_iteration(True)
+
+    def _max_index(self):
+        assert self._iteration() != 1
+        return self.__max_index
+
+    # private
+    __index: int = 0
+    __max_index: int = 0
+    __user_set_iteration: int = 0
+    __derived_seen_iteration: int = 0
+    if __debug__:
+        __values = list[T]()
+
+    def __is_new_iteration(self, update: bool):
+        if self.__derived_seen_iteration == self._iteration() - 1:
+            if update:
+                self.__derived_seen_iteration = self._iteration()
+            return True
+        elif self.__derived_seen_iteration == self._iteration():
+            return False
+        elif self.__derived_seen_iteration > self._iteration():
+            raise AssertionError("Iteration cannot decrease.")
+        else:  # self.__cur_iter == self._iteration() - k, k > 1
+            raise AssertionError("Cannot skip iterations.")
+
+    def __index_within_iteration(self, update: bool):
+        if update:
+            if self.__is_new_iteration(False):
+                self.__index = 1
+            else:
+                self.__index += 1
+                if self._iteration() == 1:
+                    self.__max_index = self.__index
+
+        assert self.__index > 0
+        assert self.__index <= self.__max_index
+
+        return self.__index - 1
diff --git a/transformer_engine/pytorch/sequential/tensor/meta.py b/transformer_engine/pytorch/sequential/tensor/meta.py
index 9acb0ad283..d190d63096 100644
--- a/transformer_engine/pytorch/sequential/tensor/meta.py
+++ b/transformer_engine/pytorch/sequential/tensor/meta.py
@@ -10,31 +10,32 @@ class PersistentFP8Meta(Persistent[FP8Meta]):
     scaling_factors: torch.Tensor  # (num_tensors,)
     scaling_factors_inversed: torch.Tensor  # (num_tensors,)
 
-    def __call__(self):
-        if self.iteration() == 1:
-            if self.is_new_iteration():
+    def _generate(self):
+        if self._iteration() == 1:
+            if self._is_new_iteration():
                 # Allocate first iteration metatensors
                 self._one = torch.ones(1, device="cuda")
                 self._first_iteration_amaxes = list[torch.Tensor]()
             amax = torch.zeros(1, device="cuda")
             self._first_iteration_amaxes.append(amax)
-            self.index_within_iteration()  # increment tensor index
+            self._index_within_iteration()  # increment tensor index
             return (amax, self._one, self._one)
         else:
-            if self.iteration() == 2 and self.is_new_iteration():
+            if self._iteration() == 2 and self._is_new_iteration():
                 # Allocate metatensors
                 self.amaxes = torch.zeros(
-                    (recipe.current().amax_history_len, self.max_index()), device="cuda"
+                    (recipe.current().amax_history_len, self._max_index()),
+                    device="cuda",
                 )
-                self.scaling_factors = torch.ones(self.max_index(), device="cuda")
+                self.scaling_factors = torch.ones(self._max_index(), device="cuda")
                 self.scaling_factors_inversed = torch.ones(
-                    self.max_index(), device="cuda"
+                    self._max_index(), device="cuda"
                 )
                 # Copy amaxes from first iteration
                 self.amaxes[0] = torch.cat(self._first_iteration_amaxes)
                 # Delete first iteration amaxes
                 del self._first_iteration_amaxes
-            if self.iteration() % recipe.current().amax_reduction_period == 0:
+            if self._iteration() % recipe.current().amax_reduction_period == 0:
                 amaxes_t = self.amaxes.T  # (num_tensors, amax_history_len)
                 reduced = recipe.current().amax_reduction_method(
                     amaxes_t
@@ -45,10 +46,10 @@ def __call__(self):
                 torch.reciprocal(
                     self.scaling_factors, out=self.scaling_factors_inversed
                 )
-            tensor_idx = self.index_within_iteration()
+            tensor_idx = self._index_within_iteration()
             return (
                 self.amaxes[
-                    self.iteration() % recipe.current().amax_history_len, tensor_idx
+                    self._iteration() % recipe.current().amax_history_len, tensor_idx
                 ],
                 self.scaling_factors[tensor_idx],
                 self.scaling_factors_inversed[tensor_idx],

From cd984b9d19e51e99b06ece3fd07765b29ce13bd9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 13:22:53 +0200
Subject: [PATCH 185/535] fix import error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/empty.py           |  4 ++--
 .../pytorch/sequential/nvte/mmt.py             | 18 +++++++++---------
 .../pytorch/sequential/nvte/normalization.py   |  6 +++---
 3 files changed, 14 insertions(+), 14 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 21068f9a6c..66fca8ad5b 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -2,7 +2,7 @@
 import torch
 from .. import cpp_extensions as _nvte
 from .dtype import te_to_torch_dtype, is_fp8
-from .execution_state import meta_tensor_provider
+from . import execution_state
 
 
 def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
@@ -15,7 +15,7 @@ def empty_like(t: _nvte.Tensor):
 
 def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]):
     if any(is_fp8(dtype) for _, dtype in shapes_dtypes):
-        amax, scale, scale_inv = meta_tensor_provider()
+        amax, scale, scale_inv = execution_state.meta_tensor_provider()
     return tuple(
         _nvte.Tensor(
             dtype,
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index c92bb82b24..3343237698 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -3,7 +3,7 @@
 import torch
 from .. import cpp_extensions as _nvte
 from .empty import empty
-from .execution_state import pass_
+from . import execution_state
 
 
 @cache
@@ -60,10 +60,10 @@ def matmul_transpose_add(
         empty(),
         trans_a,
         trans_b,
-        pass_ == "backward",
+        execution_state.pass_ == "backward",
         _cublas_workspace(),
         False,
-        pass_ == "backward",
+        execution_state.pass_ == "backward",
         0,
     )
     return out
@@ -84,10 +84,10 @@ def matmul_transpose_add_gelu(
         pre_gelu,
         trans_a,
         trans_b,
-        pass_ == "backward",
+        execution_state.pass_ == "backward",
         _cublas_workspace(),
         False,
-        pass_ == "backward",
+        execution_state.pass_ == "backward",
         0,
     )
     return pre_gelu, out
@@ -106,10 +106,10 @@ def matmul_transpose_add_add(
         empty(),
         trans_a,
         trans_b,
-        pass_ == "backward",
+        execution_state.pass_ == "backward",
         _cublas_workspace(),
         True,
-        pass_ == "backward",
+        execution_state.pass_ == "backward",
         0,
     )
     return add2
@@ -129,10 +129,10 @@ def matmul_transpose_add_gelu_add(
         pre_gelu,
         trans_a,
         trans_b,
-        pass_ == "backward",
+        execution_state.pass_ == "backward",
         _cublas_workspace(),
         True,
-        pass_ == "backward",
+        execution_state.pass_ == "backward",
         0,
     )
     return pre_gelu, add2
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index d06006a128..83edd84a4a 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -3,7 +3,7 @@
 from contextlib import contextmanager
 import torch
 from .. import cpp_extensions as _nvte
-from .execution_state import pass_
+from . import execution_state
 from .dtype import dtype_name
 from .empty import empty, empty_like
 
@@ -26,9 +26,9 @@ def _sm_total_count() -> int:
 
 
 def _sm_margin():
-    if pass_ == "backward":
+    if execution_state.pass_ == "backward":
         return _bwd_sm_margin()
-    elif pass_ == "forward":
+    elif execution_state.pass_ == "forward":
         return _fwd_sm_margin()
     else:
         return 0

From d7fb0578af8ce4a21ba5fae901e477298f9d3bc0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 13:23:54 +0200
Subject: [PATCH 186/535] fix other import error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/tensor/__init__.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/tensor/__init__.py b/transformer_engine/pytorch/sequential/tensor/__init__.py
index 102b220341..88b17c4449 100644
--- a/transformer_engine/pytorch/sequential/tensor/__init__.py
+++ b/transformer_engine/pytorch/sequential/tensor/__init__.py
@@ -1,4 +1,4 @@
-import printing # for side effects
+from . import printing  # for side effects
 from .meta import PersistentFP8Meta
 from .recipe import Recipe
 

From e80ab0afe2070e94c8d51ac27aa1790c809b61a0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 13:27:16 +0200
Subject: [PATCH 187/535] update loop variables

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py         | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index df9531cd6e..8be72e9964 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -213,7 +213,11 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 pipeline.meta_bwd,
             )
             x = ComputePipelineFunction.apply(x, *exposed_tensors, args)  # type: ignore
-            nvte_x = args.nvte_x
+            nvte_x, is_exposed_x_squished_now, upcoming_backward = (
+                args.nvte_x,
+                args.is_exposed_x_squished_now,
+                args.upcoming_backward,
+            )
         return x
 
 

From f855babbb5a8f7446b6a7774e527159ce1a1248b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 14:45:23 +0200
Subject: [PATCH 188/535] refactor recipe

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/__init__.py            |  6 +--
 .../pytorch/sequential/compute_pipeline.py    |  8 +--
 .../sequential/cpp_extensions/__init__.py     |  1 +
 .../{tensor => cpp_extensions}/printing.py    |  0
 .../pytorch/sequential/environment.py         | 34 ------------
 .../pytorch/sequential/{tensor => }/meta.py   | 14 ++---
 .../pytorch/sequential/module/base.py         |  8 +--
 .../pytorch/sequential/nvte/add.py            |  4 +-
 .../sequential/nvte/execution_state.py        | 12 ++++-
 .../pytorch/sequential/nvte/normalization.py  |  4 +-
 .../pytorch/sequential/recipe.py              | 53 +++++++++++++++++++
 .../pytorch/sequential/tensor/__init__.py     |  8 ---
 .../pytorch/sequential/tensor/recipe.py       | 13 -----
 13 files changed, 87 insertions(+), 78 deletions(-)
 rename transformer_engine/pytorch/sequential/{tensor => cpp_extensions}/printing.py (100%)
 delete mode 100644 transformer_engine/pytorch/sequential/environment.py
 rename transformer_engine/pytorch/sequential/{tensor => }/meta.py (84%)
 create mode 100644 transformer_engine/pytorch/sequential/recipe.py
 delete mode 100644 transformer_engine/pytorch/sequential/tensor/__init__.py
 delete mode 100644 transformer_engine/pytorch/sequential/tensor/recipe.py

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index 46457c257d..b07faf4e8e 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -11,7 +11,7 @@
     Sequential,
 )
 from . import nvte, ops, fusions, module
-from .environment import environment
+from .recipe import Recipe
 
 __all__ = [
     # nn.Modules
@@ -30,6 +30,6 @@
     "ops",
     "fusions",
     "module",
-    # Environment context manager
-    "environment",
+    # Recipe context manager
+    "Recipe",
 ]
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 4f0f8bcd67..4f560784ac 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -5,8 +5,8 @@
 from .ops import Op, Grads, Context
 from .fusions import FusedOp, get_fused_op_list
 from .utils import set_attribute
-from .environment import Environment
-from .tensor import PersistentFP8Meta
+from .recipe import Recipe
+from .meta import PersistentFP8Meta
 
 
 class SelfContainedOp(Op):
@@ -75,7 +75,7 @@ def force_use_precision(ops: list[Op], allowed: nvte.DType):
 
 
 def model_parallel_transform(ops: list[Op]):
-    raise NotImplementedError()
+    raise NotImplementedError()  # TODO
 
 
 def name_ops(ops: list[Op]):
@@ -123,7 +123,7 @@ def copy_op_list(ops: list[Op]):
 
 
 class ComputePipeline:
-    def __init__(self, ops: list[Op], env: Environment):
+    def __init__(self, ops: list[Op], env: Recipe):
         ops = copy_op_list(ops)
 
         name_ops(ops)
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 5dccd89c78..0613b9d9c1 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1 +1,2 @@
 from transformer_engine_cuda import *  # type: ignore
+from . import printing  # for side effects
diff --git a/transformer_engine/pytorch/sequential/tensor/printing.py b/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
similarity index 100%
rename from transformer_engine/pytorch/sequential/tensor/printing.py
rename to transformer_engine/pytorch/sequential/cpp_extensions/printing.py
diff --git a/transformer_engine/pytorch/sequential/environment.py b/transformer_engine/pytorch/sequential/environment.py
deleted file mode 100644
index a9a63ea926..0000000000
--- a/transformer_engine/pytorch/sequential/environment.py
+++ /dev/null
@@ -1,34 +0,0 @@
-import torch
-from dataclasses import dataclass
-from contextlib import contextmanager
-from .nvte import DType
-
-_lowp: DType = DType.Float32
-_world_size: int = 1
-
-
-@dataclass
-class Environment:
-    lowp: DType
-    world_size: int
-
-    @staticmethod
-    def current():
-        return Environment(_lowp, _world_size)
-
-
-@contextmanager
-def environment(lowp: DType = DType.Float32, world_size: int = 1):
-    global _lowp, _world_size
-
-    prev_lowp = _lowp
-    prev_world_size = _world_size
-
-    _lowp = lowp
-    _world_size = world_size
-
-    try:
-        yield
-    finally:
-        _lowp = prev_lowp
-        _world_size = prev_world_size
diff --git a/transformer_engine/pytorch/sequential/tensor/meta.py b/transformer_engine/pytorch/sequential/meta.py
similarity index 84%
rename from transformer_engine/pytorch/sequential/tensor/meta.py
rename to transformer_engine/pytorch/sequential/meta.py
index d190d63096..cd5b47cb05 100644
--- a/transformer_engine/pytorch/sequential/tensor/meta.py
+++ b/transformer_engine/pytorch/sequential/meta.py
@@ -1,6 +1,6 @@
 import torch
-from ..persistent import Persistent
-from . import recipe
+from .persistent import Persistent
+from .recipe import Recipe
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
@@ -24,7 +24,7 @@ def _generate(self):
             if self._iteration() == 2 and self._is_new_iteration():
                 # Allocate metatensors
                 self.amaxes = torch.zeros(
-                    (recipe.current().amax_history_len, self._max_index()),
+                    (Recipe.current().amax_history_len, self._max_index()),
                     device="cuda",
                 )
                 self.scaling_factors = torch.ones(self._max_index(), device="cuda")
@@ -35,12 +35,12 @@ def _generate(self):
                 self.amaxes[0] = torch.cat(self._first_iteration_amaxes)
                 # Delete first iteration amaxes
                 del self._first_iteration_amaxes
-            if self._iteration() % recipe.current().amax_reduction_period == 0:
+            if self._iteration() % Recipe.current().amax_reduction_period == 0:
                 amaxes_t = self.amaxes.T  # (num_tensors, amax_history_len)
-                reduced = recipe.current().amax_reduction_method(
+                reduced = Recipe.current().amax_reduction_method(
                     amaxes_t
                 )  # (num_tensors,)
-                recipe.current().scaling_factor_compute_method(
+                Recipe.current().scaling_factor_compute_method(
                     reduced, self.scaling_factors
                 )
                 torch.reciprocal(
@@ -49,7 +49,7 @@ def _generate(self):
             tensor_idx = self._index_within_iteration()
             return (
                 self.amaxes[
-                    self._iteration() % recipe.current().amax_history_len, tensor_idx
+                    self._iteration() % Recipe.current().amax_history_len, tensor_idx
                 ],
                 self.scaling_factors[tensor_idx],
                 self.scaling_factors_inversed[tensor_idx],
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index b065df9d6f..9da423ff3f 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -1,7 +1,7 @@
 import torch
 from torch import nn
 from ..ops import Op
-from ..environment import Environment
+from ..recipe import Recipe
 from ..compute_pipeline import ComputePipeline
 from ..compute_pipeline_function import apply
 
@@ -9,7 +9,7 @@
 class BaseModule(nn.Module):
     ops: list[Op]
     pipeline: ComputePipeline | None
-    compile_env: Environment | None
+    compile_env: Recipe | None
 
     def __init__(self, *ops: Op | None):
         "Note: nn.Module.__init__ must be called by the derived class"
@@ -45,5 +45,5 @@ def forward(
             self.compile_env = env
         return apply(x, self.pipeline, self.training)
 
-    def _current_env(self) -> Environment:
-        return Environment.current()
+    def _current_env(self) -> Recipe:
+        return Recipe.current()
diff --git a/transformer_engine/pytorch/sequential/nvte/add.py b/transformer_engine/pytorch/sequential/nvte/add.py
index 366b08e205..b76316ba0f 100644
--- a/transformer_engine/pytorch/sequential/nvte/add.py
+++ b/transformer_engine/pytorch/sequential/nvte/add.py
@@ -7,7 +7,7 @@
 
 def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
     if is_fp8(A) or is_fp8(B):
-        raise NotImplementedError()
+        raise NotImplementedError() # TODO
     else:
         output = torch.empty(A.shape, dtype=te_to_torch_dtype(out_dtype), device="cuda")
         torch.add(A.data, B.data, out=output)
@@ -16,7 +16,7 @@ def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
 
 def dbias(grad: _nvte.Tensor, out_dtype: _nvte.DType):
     if is_fp8(grad):
-        raise NotImplementedError()
+        raise NotImplementedError() # TODO
     else:
         output = torch.sum(grad.data, dtype=te_to_torch_dtype(out_dtype), dim=0)
         return make_nvte_tensor(output)
diff --git a/transformer_engine/pytorch/sequential/nvte/execution_state.py b/transformer_engine/pytorch/sequential/nvte/execution_state.py
index 2bae388782..0c8bebfff8 100644
--- a/transformer_engine/pytorch/sequential/nvte/execution_state.py
+++ b/transformer_engine/pytorch/sequential/nvte/execution_state.py
@@ -1,6 +1,8 @@
 from typing import Literal
+from contextlib import contextmanager
 import torch
 from ..persistent import Persistent
+from ..meta import PersistentFP8Meta
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
@@ -8,11 +10,19 @@
 meta_tensor_provider: Persistent[FP8Meta]
 
 
+@contextmanager
 def set_execution_state(
     pass__: Literal["forward", "backward", "inference"],
     meta_tensor_provider_: Persistent[FP8Meta],
 ):
     global meta_tensor_provider
-    meta_tensor_provider = meta_tensor_provider_
     global pass_
+
+    meta_tensor_provider = meta_tensor_provider_
     pass_ = pass__
+    try:
+        yield
+    finally:
+        meta_tensor_provider = PersistentFP8Meta()
+        meta_tensor_provider.next_iteration()
+        pass_ = "inference"
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index 83edd84a4a..cc353eb72f 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -186,7 +186,7 @@ def rmsnorm(
     out = empty(x.shape, out_dtype)
 
     if zero_centered_gamma:
-        raise NotImplementedError()
+        raise NotImplementedError() # TODO
     else:
         func = _nvte.rmsnorm_fwd
 
@@ -225,7 +225,7 @@ def drmsnorm(
     dgamma = empty(gamma.shape, dgamma_dtype)
 
     if zero_centered_gamma:
-        raise NotImplementedError()
+        raise NotImplementedError() # TODO
     else:
         func = _nvte.rmsnorm_bwd
 
diff --git a/transformer_engine/pytorch/sequential/recipe.py b/transformer_engine/pytorch/sequential/recipe.py
new file mode 100644
index 0000000000..35c8d0d882
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/recipe.py
@@ -0,0 +1,53 @@
+from __future__ import annotations
+from typing import Callable, TypeVar
+from types import TracebackType
+from dataclasses import dataclass
+from .cpp_extensions import DType
+import torch
+
+T = TypeVar("T")
+
+
+@dataclass
+class Recipe:
+    amax_history_len: int
+    amax_reduction_period: int
+    amax_reduction_method: Callable[[torch.Tensor], torch.Tensor]
+    scaling_factor_compute_method: Callable[[torch.Tensor, torch.Tensor], None]
+    lowp: DType
+    world_size: int
+
+    def __enter__(self):
+        __recipe_stack.append(self)
+
+    def __exit__(self, exc_type: type[T], exc_value: T, exc_traceback: TracebackType):
+        assert __recipe_stack[-1] is self
+        __recipe_stack.pop()
+
+    @staticmethod
+    def current() -> Recipe:
+        return __recipe_stack[-1]
+
+
+def _default_amax_reduction_method(
+    per_tensor_amax_histories: torch.Tensor,
+) -> torch.Tensor:
+    return per_tensor_amax_histories.max(dim=1).values  # type: ignore
+
+
+def _default_scaling_factor_compute_method(
+    per_tensor_amaxes: torch.Tensor, out: torch.Tensor
+):
+    out.fill_(1.0)  # TODO
+
+
+__recipe_stack = [
+    Recipe(
+        1024,
+        10,
+        _default_amax_reduction_method,
+        _default_scaling_factor_compute_method,
+        DType.Float32,
+        1,
+    )
+]
diff --git a/transformer_engine/pytorch/sequential/tensor/__init__.py b/transformer_engine/pytorch/sequential/tensor/__init__.py
deleted file mode 100644
index 88b17c4449..0000000000
--- a/transformer_engine/pytorch/sequential/tensor/__init__.py
+++ /dev/null
@@ -1,8 +0,0 @@
-from . import printing  # for side effects
-from .meta import PersistentFP8Meta
-from .recipe import Recipe
-
-__all__ = [
-    "PersistentFP8Meta",
-    "Recipe",
-]
diff --git a/transformer_engine/pytorch/sequential/tensor/recipe.py b/transformer_engine/pytorch/sequential/tensor/recipe.py
deleted file mode 100644
index b9a47f08ca..0000000000
--- a/transformer_engine/pytorch/sequential/tensor/recipe.py
+++ /dev/null
@@ -1,13 +0,0 @@
-from typing import Callable
-import torch
-
-
-class Recipe:
-    amax_history_len: int
-    amax_reduction_period: int
-    amax_reduction_method: Callable[[torch.Tensor], torch.Tensor]
-    scaling_factor_compute_method: Callable[[torch.Tensor, torch.Tensor], torch.Tensor]
-
-
-def current() -> Recipe:
-    raise NotImplementedError()

From 957f30063d7b76953cac832d8ce91090ccb28b86 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 14:50:06 +0200
Subject: [PATCH 189/535] update tests

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/simple_prec_compare.py       | 15 +++---
 tests/sequential/test_matrix2.py              | 12 ++---
 .../pytorch/sequential/recipe.py              | 51 +++++++++----------
 3 files changed, 37 insertions(+), 41 deletions(-)

diff --git a/tests/sequential/simple_prec_compare.py b/tests/sequential/simple_prec_compare.py
index 7e2db27363..c78543e245 100644
--- a/tests/sequential/simple_prec_compare.py
+++ b/tests/sequential/simple_prec_compare.py
@@ -14,19 +14,20 @@
 
 torch.set_printoptions(precision=4, sci_mode=False)
 
-with seq.environment(seq.nvte.DType.Float8E4M3):
-    y = m(x)
-    y.sum().backward()
-    print(x.grad)
-    x.grad = None
+with seq.Recipe(lowp=seq.nvte.DType.Float8E4M3):
+    for _ in range(100):
+        y = m(x)
+        y.sum().backward()
+        print(x.grad)
+        x.grad = None
 
-with seq.environment(seq.nvte.DType.BFloat16):
+with seq.Recipe(lowp=seq.nvte.DType.BFloat16):
     y = m(x)
     y.sum().backward()
     print(x.grad)
     x.grad = None
 
-with seq.environment(seq.nvte.DType.Float32):
+with seq.Recipe(lowp=seq.nvte.DType.Float32):
     y = m(x)
     y.sum().backward()
     print(x.grad)
diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index 1aba447e35..3561db05f9 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -276,18 +276,18 @@ def test(
     with autocast("cuda", torch.bfloat16):
         pt_bf16 = pt_test(*args)
 
-    with seq.environment(DType.Float32):
+    with seq.Recipe(lowp=DType.Float32):
         sequ_fp32 = seq_test_unfused(*args)
-    with seq.environment(DType.BFloat16):
+    with seq.Recipe(lowp=DType.BFloat16):
         sequ_bf16 = seq_test_unfused(*args)
-    with seq.environment(DType.Float16):
+    with seq.Recipe(lowp=DType.Float16):
         sequ_fp16 = seq_test_unfused(*args)
 
-    with seq.environment(DType.Float32):
+    with seq.Recipe(lowp=DType.Float32):
         seqf_fp32 = seq_test_fused(*args)
-    with seq.environment(DType.BFloat16):
+    with seq.Recipe(lowp=DType.BFloat16):
         seqf_bf16 = seq_test_fused(*args)
-    with seq.environment(DType.Float16):
+    with seq.Recipe(lowp=DType.Float16):
         seqf_fp16 = seq_test_fused(*args)
 
     for i, ref in enumerate([pt_fp32, pt_tf32, pt_fp16, pt_bf16]):
diff --git a/transformer_engine/pytorch/sequential/recipe.py b/transformer_engine/pytorch/sequential/recipe.py
index 35c8d0d882..92d8a5f623 100644
--- a/transformer_engine/pytorch/sequential/recipe.py
+++ b/transformer_engine/pytorch/sequential/recipe.py
@@ -8,14 +8,30 @@
 T = TypeVar("T")
 
 
+def _default_amax_reduction_method(
+    per_tensor_amax_histories: torch.Tensor,
+) -> torch.Tensor:
+    return per_tensor_amax_histories.max(dim=1).values  # type: ignore
+
+
+def _default_scaling_factor_compute_method(
+    per_tensor_amaxes: torch.Tensor, out: torch.Tensor
+):
+    out.fill_(1.0)  # TODO
+
+
 @dataclass
 class Recipe:
-    amax_history_len: int
-    amax_reduction_period: int
-    amax_reduction_method: Callable[[torch.Tensor], torch.Tensor]
-    scaling_factor_compute_method: Callable[[torch.Tensor, torch.Tensor], None]
-    lowp: DType
-    world_size: int
+    amax_history_len: int = 1024
+    amax_reduction_period: int = 10
+    amax_reduction_method: Callable[
+        [torch.Tensor], torch.Tensor
+    ] = _default_amax_reduction_method
+    scaling_factor_compute_method: Callable[
+        [torch.Tensor, torch.Tensor], None
+    ] = _default_scaling_factor_compute_method
+    lowp: DType = DType.Float32
+    world_size: int = 1
 
     def __enter__(self):
         __recipe_stack.append(self)
@@ -29,25 +45,4 @@ def current() -> Recipe:
         return __recipe_stack[-1]
 
 
-def _default_amax_reduction_method(
-    per_tensor_amax_histories: torch.Tensor,
-) -> torch.Tensor:
-    return per_tensor_amax_histories.max(dim=1).values  # type: ignore
-
-
-def _default_scaling_factor_compute_method(
-    per_tensor_amaxes: torch.Tensor, out: torch.Tensor
-):
-    out.fill_(1.0)  # TODO
-
-
-__recipe_stack = [
-    Recipe(
-        1024,
-        10,
-        _default_amax_reduction_method,
-        _default_scaling_factor_compute_method,
-        DType.Float32,
-        1,
-    )
-]
+__recipe_stack = [Recipe()]

From 199c6143006458e87bd495931dff934ef82d347c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 14:54:38 +0200
Subject: [PATCH 190/535] fix global var use

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/recipe.py | 12 +++++++-----
 1 file changed, 7 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/recipe.py b/transformer_engine/pytorch/sequential/recipe.py
index 92d8a5f623..af5b729e30 100644
--- a/transformer_engine/pytorch/sequential/recipe.py
+++ b/transformer_engine/pytorch/sequential/recipe.py
@@ -33,16 +33,18 @@ class Recipe:
     lowp: DType = DType.Float32
     world_size: int = 1
 
+    recipe_stack: list[Recipe] = []  # static
+
     def __enter__(self):
-        __recipe_stack.append(self)
+        Recipe.recipe_stack.append(self)
 
     def __exit__(self, exc_type: type[T], exc_value: T, exc_traceback: TracebackType):
-        assert __recipe_stack[-1] is self
-        __recipe_stack.pop()
+        assert Recipe.recipe_stack[-1] is self
+        Recipe.recipe_stack.pop()
 
     @staticmethod
     def current() -> Recipe:
-        return __recipe_stack[-1]
+        return Recipe.recipe_stack[-1]
 
 
-__recipe_stack = [Recipe()]
+Recipe.recipe_stack.append(Recipe())

From fcac9a7a2a67a3e8122fd0e5532acdd62a729c3a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 14:57:36 +0200
Subject: [PATCH 191/535] use ClassVar

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/recipe.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/recipe.py b/transformer_engine/pytorch/sequential/recipe.py
index af5b729e30..6dc42fd59f 100644
--- a/transformer_engine/pytorch/sequential/recipe.py
+++ b/transformer_engine/pytorch/sequential/recipe.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-from typing import Callable, TypeVar
+from typing import Callable, TypeVar, ClassVar
 from types import TracebackType
 from dataclasses import dataclass
 from .cpp_extensions import DType
@@ -33,7 +33,7 @@ class Recipe:
     lowp: DType = DType.Float32
     world_size: int = 1
 
-    recipe_stack: list[Recipe] = []  # static
+    recipe_stack: ClassVar[list[Recipe]] = []  # static
 
     def __enter__(self):
         Recipe.recipe_stack.append(self)

From 21cd23d198f7d571b2ba3c67ce75ebc5f1339c9a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 15:06:54 +0200
Subject: [PATCH 192/535] allow using nvte functions outside of compute
 pipeline

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/execution_state.py       | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/execution_state.py b/transformer_engine/pytorch/sequential/nvte/execution_state.py
index 0c8bebfff8..8d4c15d2d5 100644
--- a/transformer_engine/pytorch/sequential/nvte/execution_state.py
+++ b/transformer_engine/pytorch/sequential/nvte/execution_state.py
@@ -6,8 +6,13 @@
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
-pass_: Literal["forward", "backward", "inference"]
-meta_tensor_provider: Persistent[FP8Meta]
+def _default_meta_tensor_provider():
+    meta_tensor_provider = PersistentFP8Meta()
+    meta_tensor_provider.next_iteration()
+    return meta_tensor_provider
+
+pass_: Literal["forward", "backward", "inference"] = "inference"
+meta_tensor_provider: Persistent[FP8Meta] = _default_meta_tensor_provider()
 
 
 @contextmanager
@@ -23,6 +28,5 @@ def set_execution_state(
     try:
         yield
     finally:
-        meta_tensor_provider = PersistentFP8Meta()
-        meta_tensor_provider.next_iteration()
+        meta_tensor_provider = _default_meta_tensor_provider()
         pass_ = "inference"

From f4ed3fd7383cf1f8e434f55ae8c7a7ef631acb73 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 16:37:25 +0200
Subject: [PATCH 193/535] implement utils unsupported by torch compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/nvte/execution_state.py        |  4 +-
 .../pytorch/sequential/nvte/mmt.py            |  2 +-
 .../pytorch/sequential/nvte/normalization.py  |  7 ++-
 .../pytorch/sequential/utils.py               | 46 ++++++++++++++++++-
 4 files changed, 51 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/execution_state.py b/transformer_engine/pytorch/sequential/nvte/execution_state.py
index 8d4c15d2d5..67f0c8188f 100644
--- a/transformer_engine/pytorch/sequential/nvte/execution_state.py
+++ b/transformer_engine/pytorch/sequential/nvte/execution_state.py
@@ -1,16 +1,18 @@
 from typing import Literal
-from contextlib import contextmanager
 import torch
+from ..utils import contextmanager
 from ..persistent import Persistent
 from ..meta import PersistentFP8Meta
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
+
 def _default_meta_tensor_provider():
     meta_tensor_provider = PersistentFP8Meta()
     meta_tensor_provider.next_iteration()
     return meta_tensor_provider
 
+
 pass_: Literal["forward", "backward", "inference"] = "inference"
 meta_tensor_provider: Persistent[FP8Meta] = _default_meta_tensor_provider()
 
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 3343237698..335fd6f08b 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -1,5 +1,5 @@
 import subprocess
-from functools import cache
+from ..utils import cache
 import torch
 from .. import cpp_extensions as _nvte
 from .empty import empty
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index cc353eb72f..f02f117232 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -1,7 +1,6 @@
 import os
-from functools import cache
-from contextlib import contextmanager
 import torch
+from ..utils import contextmanager, cache
 from .. import cpp_extensions as _nvte
 from . import execution_state
 from .dtype import dtype_name
@@ -186,7 +185,7 @@ def rmsnorm(
     out = empty(x.shape, out_dtype)
 
     if zero_centered_gamma:
-        raise NotImplementedError() # TODO
+        raise NotImplementedError()  # TODO
     else:
         func = _nvte.rmsnorm_fwd
 
@@ -225,7 +224,7 @@ def drmsnorm(
     dgamma = empty(gamma.shape, dgamma_dtype)
 
     if zero_centered_gamma:
-        raise NotImplementedError() # TODO
+        raise NotImplementedError()  # TODO
     else:
         func = _nvte.rmsnorm_bwd
 
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index c3777a0c5b..caaf17a8e3 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -1,6 +1,48 @@
-from contextlib import contextmanager
-from typing import Any
+from typing import Any, Callable, Generic, Generator, TypeVar
+from types import TracebackType
+from typing_extensions import ParamSpec
 
+PS = ParamSpec("PS")
+T = TypeVar("T")
+ExcT = TypeVar("ExcT")
+
+
+class contextmanager(Generic[PS, T]):
+    def __init__(self, func: Callable[PS, Generator[T, None, None]]):
+        self.func = func
+
+    def __call__(self, *args: PS.args, **kwargs: PS.kwargs):
+        class Context:
+            def __init__(
+                self,
+                func: Callable[PS, Generator[T, None, None]],
+                *args: PS.args,
+                **kwargs: PS.kwargs
+            ):
+                self.func = func
+                self.args = args
+                self.kwargs = kwargs
+
+            def __enter__(self):
+                gen = self.func(*self.args, **self.kwargs)
+                self.gen = gen
+                return next(gen)
+
+            def __exit__(
+                self,
+                exc_type: type[ExcT],
+                exc_value: ExcT,
+                exc_traceback: TracebackType,
+            ):
+                next(self.gen)
+
+        return Context(self.func, *args, **kwargs)
+
+def cache(func: Callable[[],T])->Callable[[],T]:
+    result = func()
+    def wrapper():
+        return result
+    return wrapper
 
 @contextmanager
 def set_attribute(obj: object, attr: str, value: Any):

From 7d061496a2e0970131a31d26400ff33ccea84c80 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 16:41:37 +0200
Subject: [PATCH 194/535] fix for torch compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 59 ++++++++++---------
 1 file changed, 32 insertions(+), 27 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index caaf17a8e3..c1de9465c1 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -7,43 +7,48 @@
 ExcT = TypeVar("ExcT")
 
 
+class __Context:
+    def __init__(
+        self,
+        func: Callable[PS, Generator[T, None, None]],
+        *args: PS.args,
+        **kwargs: PS.kwargs
+    ):
+        self.func = func
+        self.args = args
+        self.kwargs = kwargs
+
+    def __enter__(self):
+        gen = self.func(*self.args, **self.kwargs)
+        self.gen = gen
+        return next(gen)
+
+    def __exit__(
+        self,
+        exc_type: type[ExcT],
+        exc_value: ExcT,
+        exc_traceback: TracebackType,
+    ):
+        next(self.gen)
+
+
 class contextmanager(Generic[PS, T]):
     def __init__(self, func: Callable[PS, Generator[T, None, None]]):
         self.func = func
 
     def __call__(self, *args: PS.args, **kwargs: PS.kwargs):
-        class Context:
-            def __init__(
-                self,
-                func: Callable[PS, Generator[T, None, None]],
-                *args: PS.args,
-                **kwargs: PS.kwargs
-            ):
-                self.func = func
-                self.args = args
-                self.kwargs = kwargs
-
-            def __enter__(self):
-                gen = self.func(*self.args, **self.kwargs)
-                self.gen = gen
-                return next(gen)
-
-            def __exit__(
-                self,
-                exc_type: type[ExcT],
-                exc_value: ExcT,
-                exc_traceback: TracebackType,
-            ):
-                next(self.gen)
-
-        return Context(self.func, *args, **kwargs)
-
-def cache(func: Callable[[],T])->Callable[[],T]:
+        return __Context(self.func, *args, **kwargs)
+
+
+def cache(func: Callable[[], T]) -> Callable[[], T]:
     result = func()
+
     def wrapper():
         return result
+
     return wrapper
 
+
 @contextmanager
 def set_attribute(obj: object, attr: str, value: Any):
     """Set an attribute on an object, and reset it to its original value when the context manager exits."""

From 09420f7f0f5f81860aa0dab4fd29e3053098fff2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 16:42:28 +0200
Subject: [PATCH 195/535] fix for torch compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index c1de9465c1..e33ae45ffb 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -7,7 +7,7 @@
 ExcT = TypeVar("ExcT")
 
 
-class __Context:
+class __Context(Generic[PS, T]):
     def __init__(
         self,
         func: Callable[PS, Generator[T, None, None]],

From 820cb756d116f7003a7896b90df6904df48791ed Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 16:43:50 +0200
Subject: [PATCH 196/535] fix for torch compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index e33ae45ffb..982e4b1c57 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -7,7 +7,7 @@
 ExcT = TypeVar("ExcT")
 
 
-class __Context(Generic[PS, T]):
+class _Context(Generic[PS, T]):
     def __init__(
         self,
         func: Callable[PS, Generator[T, None, None]],
@@ -37,7 +37,7 @@ def __init__(self, func: Callable[PS, Generator[T, None, None]]):
         self.func = func
 
     def __call__(self, *args: PS.args, **kwargs: PS.kwargs):
-        return __Context(self.func, *args, **kwargs)
+        return _Context(self.func, *args, **kwargs)
 
 
 def cache(func: Callable[[], T]) -> Callable[[], T]:

From 2a8013f1f3c31ae5c16565d9d631150f798d09e0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 16:47:39 +0200
Subject: [PATCH 197/535] fix for torch compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 4f560784ac..3ddffa0a07 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -116,10 +116,13 @@ def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
     return functions
 
 
+# Needed for copy_op_list
+# Shouldn't cause any issues
+setattr(nvte.Tensor, "__deepcopy__", lambda self, memo: self) # type: ignore
+
 def copy_op_list(ops: list[Op]):
     "Deep copy ops, except for tensors"
-    with set_attribute(nvte.Tensor, "__deepcopy__", lambda self, memo: self):  # type: ignore[unknown-lambda-type]
-        return copy.deepcopy(ops)
+    return copy.deepcopy(ops)
 
 
 class ComputePipeline:

From b583419f03db91c1bb9a90f54ee3494965aaa75c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 16:47:46 +0200
Subject: [PATCH 198/535] fix for torch compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 16 ----------------
 1 file changed, 16 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 982e4b1c57..59279bee7e 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -47,19 +47,3 @@ def wrapper():
         return result
 
     return wrapper
-
-
-@contextmanager
-def set_attribute(obj: object, attr: str, value: Any):
-    """Set an attribute on an object, and reset it to its original value when the context manager exits."""
-    had_value = hasattr(obj, attr)
-    if had_value:
-        old_value = getattr(obj, attr)
-    setattr(obj, attr, value)
-    try:
-        yield
-    finally:
-        if had_value:
-            setattr(obj, attr, old_value)  # type:ignore
-        else:
-            delattr(obj, attr)

From a64b61627c8a3937e5f75aa415651cf81312106c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 16:48:26 +0200
Subject: [PATCH 199/535] fix for torch compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 3ddffa0a07..d67273a4b6 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -4,7 +4,6 @@
 from . import nvte
 from .ops import Op, Grads, Context
 from .fusions import FusedOp, get_fused_op_list
-from .utils import set_attribute
 from .recipe import Recipe
 from .meta import PersistentFP8Meta
 
@@ -118,7 +117,8 @@ def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
 
 # Needed for copy_op_list
 # Shouldn't cause any issues
-setattr(nvte.Tensor, "__deepcopy__", lambda self, memo: self) # type: ignore
+setattr(nvte.Tensor, "__deepcopy__", lambda self, memo: self)  # type: ignore
+
 
 def copy_op_list(ops: list[Op]):
     "Deep copy ops, except for tensors"

From 42e2bbea4d9ba049add13b3e9be0f95a7352bc7c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 17:12:33 +0200
Subject: [PATCH 200/535] fix for torch compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py     | 14 --------------
 .../pytorch/sequential/module/activation.py    |  7 ++++---
 .../pytorch/sequential/module/base.py          | 18 +++++++++++-------
 .../sequential/module/dot_product_attention.py | 12 ++++--------
 .../pytorch/sequential/module/linear.py        |  7 ++++---
 .../pytorch/sequential/module/normalization.py | 13 +++++++------
 .../pytorch/sequential/module/sequential.py    | 10 ++++------
 7 files changed, 34 insertions(+), 47 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index d67273a4b6..5060e206c5 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -1,4 +1,3 @@
-import copy
 from functools import reduce
 import operator
 from . import nvte
@@ -114,21 +113,8 @@ def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
         functions.append(SelfContainedOp(used_forwards, used_backwards))
     return functions
 
-
-# Needed for copy_op_list
-# Shouldn't cause any issues
-setattr(nvte.Tensor, "__deepcopy__", lambda self, memo: self)  # type: ignore
-
-
-def copy_op_list(ops: list[Op]):
-    "Deep copy ops, except for tensors"
-    return copy.deepcopy(ops)
-
-
 class ComputePipeline:
     def __init__(self, ops: list[Op], env: Recipe):
-        ops = copy_op_list(ops)
-
         name_ops(ops)
         force_use_precision(ops, env.lowp)
         if env.world_size > 1:
diff --git a/transformer_engine/pytorch/sequential/module/activation.py b/transformer_engine/pytorch/sequential/module/activation.py
index 0eea8eb771..b8124e1c2f 100644
--- a/transformer_engine/pytorch/sequential/module/activation.py
+++ b/transformer_engine/pytorch/sequential/module/activation.py
@@ -1,13 +1,14 @@
 from abc import ABC
-from torch import nn
 from .base import BaseModule
 from .. import ops
 
 
 class Activation(BaseModule, ABC):
     def __init__(self):
-        nn.Module.__init__(self)  # type: ignore
-        super().__init__(type(self)._op_type())
+        super().__init__()
+
+    def _ops(self) -> list[ops.Op | None]:
+        return [type(self)._op_type()]
 
     _op_type: type[ops.Activation]
 
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 9da423ff3f..98a690e33a 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -1,3 +1,4 @@
+from abc import ABC, abstractmethod
 import torch
 from torch import nn
 from ..ops import Op
@@ -6,15 +7,16 @@
 from ..compute_pipeline_function import apply
 
 
-class BaseModule(nn.Module):
-    ops: list[Op]
+class BaseModule(nn.Module, ABC):
     pipeline: ComputePipeline | None
     compile_env: Recipe | None
 
-    def __init__(self, *ops: Op | None):
-        "Note: nn.Module.__init__ must be called by the derived class"
-        ops_clean = [op for op in ops if op is not None]
-        self.ops = ops_clean
+    @abstractmethod
+    def _ops(self) -> list[Op | None]:
+        ...
+
+    def __init__(self):
+        super().__init__()  # type: ignore
         self.pipeline = None
         self.compile_env = None
 
@@ -41,7 +43,9 @@ def forward(
 
         env = self._current_env()
         if self.pipeline is None or env != self.compile_env:
-            self.pipeline = ComputePipeline(self.ops, env)
+            self.pipeline = ComputePipeline(
+                [op for op in self._ops() if op is not None], env
+            )
             self.compile_env = env
         return apply(x, self.pipeline, self.training)
 
diff --git a/transformer_engine/pytorch/sequential/module/dot_product_attention.py b/transformer_engine/pytorch/sequential/module/dot_product_attention.py
index 849b24e436..b43d63be29 100644
--- a/transformer_engine/pytorch/sequential/module/dot_product_attention.py
+++ b/transformer_engine/pytorch/sequential/module/dot_product_attention.py
@@ -1,10 +1,6 @@
 from abc import abstractmethod, ABC
-from math import sqrt
-import torch
-from torch import nn
 from .base import BaseModule
 from .. import ops
-from ..nvte import DType, make_nvte_tensor
 
 class Attention(ABC):
     @abstractmethod
@@ -29,11 +25,11 @@ def __init__(
         assert num_kv_heads <= num_query_heads
         assert num_query_heads % num_kv_heads == 0
         assert token_dim % num_query_heads == 0
-        nn.Module.__init__(self)  # type: ignore
+        self.attention_mechanism = attention_mechanism
+        super().__init__()
 
-        return super().__init__(
-            attention_type(),
-        )
+    def _ops(self) -> list[ops.Op | None]:
+        return [self.attention_mechanism.make_op()]
 
 
 class MultiQuerySelfAttention(GroupedQuerySelfAttention):
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 200efbb869..31e347bd22 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -29,7 +29,7 @@ def __init__(
         weight_init_method: ParameterInitMethod = _default_weight_init_method,
         bias_init_method: ParameterInitMethod = _default_bias_init_method,
     ):
-        nn.Module.__init__(self)  # type: ignore
+        super().__init__()
 
         self.in_features = in_features
         self.out_features = out_features
@@ -49,10 +49,11 @@ def __init__(
             else None
         )
 
-        super().__init__(
+    def _ops(self) -> list[ops.Op | None]:
+        return [
             ops.MMT(make_nvte_tensor(self.weight)),
             ops.Add(make_nvte_tensor(self.bias)) if self.bias is not None else None,
-        )
+        ]
 
     def extra_repr(self):
         return f"in_features={self.in_features}, out_features={self.out_features}, bias={self.bias is not None}"
diff --git a/transformer_engine/pytorch/sequential/module/normalization.py b/transformer_engine/pytorch/sequential/module/normalization.py
index 800db39aa1..34e0afa6f5 100644
--- a/transformer_engine/pytorch/sequential/module/normalization.py
+++ b/transformer_engine/pytorch/sequential/module/normalization.py
@@ -14,7 +14,7 @@ def __init__(
         zero_centered_gamma: bool = False,
         param_dtype: torch.dtype = torch.get_default_dtype(),
     ):
-        nn.Module.__init__(self)  # type: ignore
+        super().__init__()
 
         self.features = features
         self.eps = eps
@@ -31,18 +31,19 @@ def __init__(
             else None
         )
 
-        super().__init__(
+    def _ops(self) -> list[ops.Op | None]:
+        return [
             type(self)._op_type(
                 *(
                     (
-                        eps,
-                        zero_centered_gamma,
+                        self.eps,
+                        self.zero_centered_gamma,
                         make_nvte_tensor(self.weight),
                     )
                     + ((make_nvte_tensor(self.bias),) if self.bias is not None else ())
                 )
-            )
-        )
+            ),
+        ]
 
     def extra_repr(self):
         return f"features={self.features}, eps={self.eps}, zero_centered_gamma={self.zero_centered_gamma}"
diff --git a/transformer_engine/pytorch/sequential/module/sequential.py b/transformer_engine/pytorch/sequential/module/sequential.py
index edba3d1e1c..c9fa0e45db 100644
--- a/transformer_engine/pytorch/sequential/module/sequential.py
+++ b/transformer_engine/pytorch/sequential/module/sequential.py
@@ -26,10 +26,8 @@ def __init__(
         self,
         *args: BaseModule | OrderedDict[str, BaseModule],
     ):
-        nn.Module.__init__(self)  # type: ignore
-        modules = self._modules_from_args(args)
-        ops = self._ops_from_modules(modules)
-        super().__init__(*ops)
+        super().__init__()
+        self.contained_modules = self._modules_from_args(args)
 
     def _modules_from_args(
         self, args: tuple[BaseModule | OrderedDict[str, BaseModule], ...]
@@ -54,8 +52,8 @@ def _modules_from_args(
                 self.add_module(submodule_name, submodule)
         return modules
 
-    def _ops_from_modules(self, modules: list[tuple[str, BaseModule]]):
-        return [op for _, module in modules for op in module.ops]
+    def _ops(self):
+        return [op for _, module in self.contained_modules for op in module._ops()]
 
     def __len__(self):
         return len(self._modules)

From 92f854ac73715766c663f5381e261d925e358c15 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 23 Aug 2023 17:33:49 +0200
Subject: [PATCH 201/535] fix for torch compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py        | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 5060e206c5..7528463fb1 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -52,12 +52,12 @@ def require_grad(self):
 
 def force_use_precision(ops: list[Op], allowed: nvte.DType):
     PRECISION = {
-        nvte.DType.Float8E4M3: 0,
-        nvte.DType.Float8E5M2: 0,
-        nvte.DType.BFloat16: 1,
-        nvte.DType.Float16: 2,
-        nvte.DType.Float32: 3,
-        nvte.DType.Int64: 4,
+        nvte.DType.Float8E4M3.value: 0,
+        nvte.DType.Float8E5M2.value: 0,
+        nvte.DType.BFloat16.value: 1,
+        nvte.DType.Float16.value: 2,
+        nvte.DType.Float32.value: 3,
+        nvte.DType.Int64.value: 4,
     }
 
     for op in ops:
@@ -67,7 +67,7 @@ def force_use_precision(ops: list[Op], allowed: nvte.DType):
             attr_val = getattr(op, dtype_attribute)
             if (
                 isinstance(attr_val, nvte.DType)
-                and PRECISION[attr_val] < PRECISION[allowed]
+                and PRECISION[attr_val.value] < PRECISION[allowed.value]
             ):
                 setattr(op, dtype_attribute, allowed)
 
@@ -113,6 +113,7 @@ def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
         functions.append(SelfContainedOp(used_forwards, used_backwards))
     return functions
 
+
 class ComputePipeline:
     def __init__(self, ops: list[Op], env: Recipe):
         name_ops(ops)

From ee93e43eacdc50209c92b963b86727189ec86e64 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 14:51:39 +0200
Subject: [PATCH 202/535] make cpp extension a pytorch library

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     |  60 ++++++++-
 .../sequential/cpp_extensions/enums.py        |   0
 .../pytorch/sequential/cppsrc/pybind.cpp      | 120 ++++++++----------
 .../pytorch/sequential/fusions/_common.py     |  29 ++---
 .../pytorch/sequential/utils.py               |  95 +++++++++++++-
 5 files changed, 211 insertions(+), 93 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/enums.py

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 0613b9d9c1..33add5aaea 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,2 +1,58 @@
-from transformer_engine_cuda import *  # type: ignore
-from . import printing  # for side effects
+from ..utils import import_file_as_module, get_arg_types
+
+import_file_as_module("printing", only_for_side_effects=True)
+
+from enum import Enum
+import inspect
+import transformer_engine_cuda  # type: ignore
+
+stub = import_file_as_module("__init__.pyi")
+from typing import TypeVar, Any
+
+T1 = TypeVar("T1")
+T2 = TypeVar("T2")
+
+
+def to_dict(l: list[tuple[T1, T2]], /) -> dict[T1, T2]:
+    return {t[0]: t[1] for t in l}
+
+
+stub_functions = to_dict(inspect.getmembers(stub, inspect.isfunction))
+stub_types = to_dict(inspect.getmembers(stub, inspect.isclass))
+enum_names = {
+    type_name
+    for type_name, type_obj in stub_types.items()
+    if issubclass(type_obj, Enum)
+}
+
+real_functions = to_dict(
+    inspect.getmembers(transformer_engine_cuda, inspect.isfunction)
+)
+real_types = to_dict(inspect.getmembers(transformer_engine_cuda, inspect.isclass))
+
+for enum_name in enum_names:
+    globals()[enum_name] = stub_types[enum_name]
+
+for class_name in stub_types.keys() - enum_names:
+    stub_type = stub_types[class_name]
+    real_type = real_types[class_name]
+    real_type.__annotations__ = stub_type.__annotations__
+    for attr_name, attr_obj in real_type.__dict__.items():
+        attr_obj.__annotations__ = stub_type.__dict__[attr_name].__annotations__
+    globals()[class_name] = real_type
+
+for func_name, func_obj in stub_functions.items():
+    stub_arg_types = tuple(get_arg_types(func_obj))
+
+    def wrapper(*args: Any):
+        real_args = ()
+        for arg in args:
+            if isinstance(arg, Enum):
+                real_args += (arg.value,)
+            else:
+                real_args += (arg,)
+        func_obj(*real_args)
+
+    wrapper.__name__ = func_name
+    wrapper.__annotations__ = func_obj.__annotations__
+    globals()[func_name] = wrapper
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/enums.py b/transformer_engine/pytorch/sequential/cpp_extensions/enums.py
new file mode 100644
index 0000000000..e69de29bb2
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 79ffd5a772..cf68341b9b 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -21,9 +21,9 @@
 #include <cuda_runtime.h>
 #include <exception>
 #include <memory>
-#include <pybind11/pybind11.h>
 #include <stdexcept>
 #include <torch/extension.h>
+#include <torch/script.h>
 #include <torch/torch.h>
 #include <transformer_engine/activation.h>
 #include <transformer_engine/cast.h>
@@ -36,8 +36,10 @@
 #include <transformer_engine/transpose.h>
 #include <type_traits>
 
+
 #include "type_list.h"
 
+// ----------- Wrapper for NVTETensor -----------
 void cuda_check() {
   static const bool perform_check = []() {
     const char *var = std::getenv("CUDA_LAUNCH_BLOCKING");
@@ -57,16 +59,15 @@ void cuda_check() {
     }
   }
 }
-
-namespace py = pybind11;
-
-struct Tensor {
+struct Tensor : torch::CustomClassHolder {
   static_assert(std::is_same_v<NVTETensor, void *>);
 
-  NVTEDType dtype() const { return nvte_tensor_type((NVTETensor)pimpl.get()); }
-  std::vector<size_t> shape() const {
+  int64_t dtype() const {
+    return (int64_t)nvte_tensor_type((NVTETensor)pimpl.get());
+  }
+  std::vector<int64_t> shape() const {
     NVTEShape s = nvte_tensor_shape((NVTETensor)pimpl.get());
-    return std::vector<size_t>(s.data, s.data + s.ndim);
+    return std::vector<int64_t>(s.data, s.data + s.ndim);
   }
 
   std::shared_ptr<void> pimpl;
@@ -91,17 +92,18 @@ struct Tensor {
     }
   }
 
-  Tensor(NVTEDType dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
+  Tensor(int64_t dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
          at::Tensor scale_inv)
       : pimpl{nvte_create_tensor(getDataPtr(data),
                                  NVTEShape{(size_t *)(data.sizes().data()),
                                            data.sizes().size()},
-                                 dtype, getDataPtr(amax), getDataPtr(scale),
-                                 getDataPtr(scale_inv)),
+                                 NVTEDType(dtype), getDataPtr(amax),
+                                 getDataPtr(scale), getDataPtr(scale_inv)),
               [](NVTETensor impl) { nvte_destroy_tensor(impl); }},
         data{data}, amax{amax}, scale{scale}, scale_inv{scale_inv} {}
 };
 
+// ----------- Wrapper for NVTETensorPack -----------
 struct TensorPack : NVTETensorPack {
   TensorPack(const std::vector<Tensor> &tensors_) : NVTETensorPack{} {
     size = tensors_.size();
@@ -117,26 +119,37 @@ struct TensorPack : NVTETensorPack {
   ~TensorPack() { nvte_tensor_pack_destroy(this); }
 };
 
+// ----------- Function subsitution template machinery -----------
 template <typename T> struct trait {
   using type = T;
 };
-
-template <typename T> struct wrapped_arg : trait<T> {};
-template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {};
-template <> struct wrapped_arg<NVTETensorPack> : trait<std::vector<Tensor>> {};
-
-template <typename T> using wrapped_arg_t = typename wrapped_arg<T>::type;
-
-template <typename T> decltype(auto) unwrap_arg(T &&arg) {
-  if constexpr (std::is_same_v<std::decay_t<T>, wrapped_arg_t<NVTETensor>>) {
-    return (NVTETensor)arg.pimpl.get();
-  } else if constexpr (std::is_same_v<std::decay_t<T>,
-                                      wrapped_arg_t<NVTETensorPack>>) {
-    return TensorPack(arg);
-  } else {
-    { return arg; }
+template <typename T &&> struct wrapped_arg : trait<T &&> {
+  static T &&unwrap(T &&arg) { return std::forward<T>(arg); }
+};
+template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {
+  static NVTETensor unwrap(Tensor arg) { return (NVTETensor)arg.pimpl.get(); }
+};
+template <> struct wrapped_arg<NVTETensorPack> : trait<std::vector<Tensor>> {
+  static TensorPack unwrap(std::vector<Tensor> arg) { return TensorPack(arg); }
+};
+template <> struct wrapped_arg<NVTEDType> : trait<int64_t> {
+  static NVTEDType unwrap(int64_t arg) { return NVTEDType(arg); }
+};
+template <> struct wrapped_arg<NVTE_Fused_Attn_Backend> : trait<int64_t> {
+  static NVTE_Fused_Attn_Backend unwrap(int64_t arg) {
+    return NVTE_Fused_Attn_Backend(arg);
   }
-}
+};
+template <> struct wrapped_arg<NVTE_QKV_Layout> : trait<int64_t> {
+  static NVTE_QKV_Layout unwrap(int64_t arg) { return NVTE_QKV_Layout(arg); }
+};
+template <> struct wrapped_arg<NVTE_Bias_Type> : trait<int64_t> {
+  static NVTE_Bias_Type unwrap(int64_t arg) { return NVTE_Bias_Type(arg); }
+};
+template <> struct wrapped_arg<NVTE_Mask_Type> : trait<int64_t> {
+  static NVTE_Mask_Type unwrap(int64_t arg) { return NVTE_Mask_Type(arg); }
+};
+template <typename T> using wrapped_arg_t = typename wrapped_arg<T>::type;
 
 template <typename Ret, typename... PrefixArgs, typename... SuffixArgs,
           typename... Args>
@@ -145,8 +158,11 @@ remove_cuda_stream_arg_helper(Ret(func)(Args...), type_list<PrefixArgs...>,
                               type_list<SuffixArgs...>) noexcept {
   return [func](wrapped_arg_t<PrefixArgs>... prefixArgs,
                 wrapped_arg_t<SuffixArgs>... suffixArgs) -> Ret {
-    return func(unwrap_arg(prefixArgs)..., at::cuda::getCurrentCUDAStream(),
-                unwrap_arg(suffixArgs)...);
+    auto result = func(wrapped_arg_t<PrefixArgs>::unwrap(prefixArgs)...,
+                       at::cuda::getCurrentCUDAStream(),
+                       wrapped_arg_t<SuffixArgs>::unwrap(suffixArgs)...);
+    cuda_check();
+    return result;
   };
 }
 
@@ -160,7 +176,7 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
     return remove_cuda_stream_arg_helper(func, prefix(), suffix());
   } else {
     return [func](wrapped_arg_t<Args>... args) -> Ret {
-      auto result = func(unwrap_arg(args)...);
+      auto result = func(wrapped_arg_t<Args>::unwrap(args)...);
       cuda_check();
       return result;
     };
@@ -189,43 +205,13 @@ void multi_cast_transpose(const std::vector<Tensor> &inputs,
   cuda_check();
 }
 
-PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
-  py::enum_<NVTEDType>(m, "DType", py::module_local())
-      .value("Byte", kNVTEByte)
-      .value("Int32", kNVTEInt32)
-      .value("Int64", kNVTEInt64)
-      .value("Float32", kNVTEFloat32)
-      .value("Float16", kNVTEFloat16)
-      .value("BFloat16", kNVTEBFloat16)
-      .value("Float8E4M3", kNVTEFloat8E4M3)
-      .value("Float8E5M2", kNVTEFloat8E5M2);
-
-  py::enum_<NVTE_Fused_Attn_Backend>(m, "FusedAttnBackend", py::module_local())
-      .value("No_Backend", NVTE_No_Backend)
-      .value("F16_max512_seqlen", NVTE_F16_max512_seqlen)
-      .value("F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
-      .value("FP8", NVTE_FP8);
-
-  py::enum_<NVTE_QKV_Layout>(m, "QKVLayout", py::module_local())
-      .value("NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
-      .value("QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
-      .value("KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
-
-  py::enum_<NVTE_Bias_Type>(m, "BiasType", py::module_local())
-      .value("NO_BIAS", NVTE_NO_BIAS)
-      .value("PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
-      .value("POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
-
-  py::enum_<NVTE_Mask_Type>(m, "MaskType", py::module_local())
-      .value("NO_MASK", NVTE_NO_MASK)
-      .value("PADDING_MASK", NVTE_PADDING_MASK)
-      .value("CAUSAL_MASK", NVTE_CAUSAL_MASK);
-
-  py::class_<Tensor>(m, "Tensor", py::module_local())
-      .def(
-          py::init<NVTEDType, at::Tensor, at::Tensor, at::Tensor, at::Tensor>())
-      .def_property_readonly("dtype", &Tensor::dtype)
-      .def_property_readonly("shape", &Tensor::shape)
+// ----------- Registration of torch.ops -----------
+TORCH_LIBRARY(transformer_engine_cuda, m) {
+  m.class_<Tensor>(m, "Tensor")
+      .def(torch::init<int64_t, at::Tensor, at::Tensor, at::Tensor,
+                       at::Tensor>())
+      .def_property("dtype", &Tensor::dtype)
+      .def_property("shape", &Tensor::shape)
       .def_readonly("data", &Tensor::data)
       .def_readonly("amax", &Tensor::amax)
       .def_readonly("scale", &Tensor::scale)
diff --git a/transformer_engine/pytorch/sequential/fusions/_common.py b/transformer_engine/pytorch/sequential/fusions/_common.py
index 80a0217ab0..8759ea1af6 100644
--- a/transformer_engine/pytorch/sequential/fusions/_common.py
+++ b/transformer_engine/pytorch/sequential/fusions/_common.py
@@ -1,31 +1,18 @@
 from __future__ import annotations
-import ast
-import typing
-from typing import Callable, Any
+from typing import Callable
 from typing_extensions import TypeVarTuple, Unpack
 from ..ops import Context, Grads
 from .. import nvte
 from ._storage import FUSIONS_FWD, FUSIONS_BWD, FUSIONS_INF
+from ..utils import get_arg_types
 
 _Ops = TypeVarTuple("_Ops")
 _OpsAndCtxs = TypeVarTuple("_OpsAndCtxs")
 
 
-def _get_arg_types(f: Callable[..., Any]):
-    annotations = typing.get_type_hints(f)
-    annotations.pop("return", None)
-    arg_type_annotations: tuple[str | type] = tuple(annotations.values())
-    assert all(isinstance(val, (str, type)) for val in arg_type_annotations)
-    arg_types: tuple[type] = tuple(
-        ast.literal_eval(val) if isinstance(val, str) else val
-        for val in arg_type_annotations
-    )
-    return arg_types
-
-
 def register_fusion_inference(f: Callable[[Unpack[_Ops], nvte.Tensor], nvte.Tensor]):  # type: ignore[invalid-typevar-use]
-    fused_modules = _get_arg_types(f)[:-1]
-    FUSIONS_INF[fused_modules] = f
+    fused_modules = get_arg_types(f)[:-1]
+    FUSIONS_INF[tuple(fused_modules)] = f
     return f
 
 
@@ -35,8 +22,8 @@ def register_fusion_forward(
         tuple[nvte.Tensor, tuple[Context, ...]],
     ]
 ):
-    fused_modules = _get_arg_types(f)[:-1]
-    FUSIONS_FWD[fused_modules] = f
+    fused_modules = get_arg_types(f)[:-1]
+    FUSIONS_FWD[tuple(fused_modules)] = f
     return f
 
 
@@ -46,8 +33,8 @@ def register_fusion_backward(
         tuple[nvte.Tensor, tuple[Grads, ...]],
     ]
 ):
-    arg_types = _get_arg_types(f)
+    arg_types = get_arg_types(f)
     module_count = (len(arg_types) - 1) // 2
     fused_modules = arg_types[:module_count]
-    FUSIONS_BWD[fused_modules] = f
+    FUSIONS_BWD[tuple(fused_modules)] = f
     return f
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 59279bee7e..743bb611e9 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -1,5 +1,6 @@
-from typing import Any, Callable, Generic, Generator, TypeVar
-from types import TracebackType
+from __future__ import annotations
+from typing import Any, Callable, Generic, Generator, Literal, TypeVar, overload
+from types import TracebackType, ModuleType
 from typing_extensions import ParamSpec
 
 PS = ParamSpec("PS")
@@ -12,7 +13,7 @@ def __init__(
         self,
         func: Callable[PS, Generator[T, None, None]],
         *args: PS.args,
-        **kwargs: PS.kwargs
+        **kwargs: PS.kwargs,
     ):
         self.func = func
         self.args = args
@@ -47,3 +48,91 @@ def wrapper():
         return result
 
     return wrapper
+
+
+@overload
+def import_file_as_module(
+    file_path: str,
+    run_module: bool = True,
+    *,
+    only_for_side_effects: Literal[False] = False,
+) -> ModuleType:
+    ...
+
+
+@overload
+def import_file_as_module(
+    file_path: str,
+    run_module: bool = True,
+    *,
+    only_for_side_effects: Literal[True] = True,
+) -> None:
+    ...
+
+
+def import_file_as_module(
+    file_path: str, run_module: bool = True, *, only_for_side_effects: bool = False
+):
+    if only_for_side_effects and not run_module:
+        raise ValueError("Cannot import file for side effects only without running it!")
+
+    from importlib.util import spec_from_loader, module_from_spec
+    from importlib.machinery import SourceFileLoader
+    from pathlib import Path
+    import inspect
+    import sys
+    import os
+
+    try:
+        caller_path = Path(inspect.getframeinfo(sys._getframe(1))[0]).resolve(
+            strict=True
+        )
+        old_cwd = os.getcwd()
+        os.chdir(caller_path)
+    except:
+        old_cwd = None
+
+    try:
+        path = Path(file_path).resolve(strict=True)
+        if not path.suffix:
+            path = path.with_suffix(".py")
+
+        spec = spec_from_loader(path.name, SourceFileLoader(path.name, str(path)))
+        if spec is None:
+            raise ImportError(
+                f'Failed to load file "{path}" as module: spec_from_loader returned None'
+            )
+        mod = module_from_spec(spec)
+        if run_module:
+            if spec.loader is None:
+                raise ImportError(
+                    f'Failed to run file "{path}" as module: spec_from_loader returned spec with a None loader'
+                )
+            spec.loader.exec_module(mod)
+        if only_for_side_effects:
+            return None
+        else:
+            return mod
+    finally:
+        if old_cwd is not None:
+            os.chdir(old_cwd)
+
+
+def get_arg_types(f: Callable[..., Any]) -> list[type]:
+    import typing
+    import ast
+
+    annotations = typing.get_type_hints(f)
+    annotations.pop("return", None)
+    arg_type_annotations = tuple(annotations.values())
+    if not all(isinstance(val, (str, type)) for val in arg_type_annotations):
+        raise ValueError("Unsupported function (type annotations not supported)")
+    else:
+        arg_types = [
+            ast.literal_eval(val) if isinstance(val, str) else val
+            for val in arg_type_annotations
+        ]
+        if not all(isinstance(val, type) for val in arg_types):
+            raise ValueError("Unsupported function (type annotations not supported)")
+
+        return arg_types

From df15d967e47e6c2cf1e44794aba49cd7869593a3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 14:57:29 +0200
Subject: [PATCH 203/535] remove empty file

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/enums.py | 0
 transformer_engine/pytorch/sequential/fusions/__init__.py     | 4 +++-
 2 files changed, 3 insertions(+), 1 deletion(-)
 delete mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/enums.py

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/enums.py b/transformer_engine/pytorch/sequential/cpp_extensions/enums.py
deleted file mode 100644
index e69de29bb2..0000000000
diff --git a/transformer_engine/pytorch/sequential/fusions/__init__.py b/transformer_engine/pytorch/sequential/fusions/__init__.py
index 8150f83d79..68fe015793 100644
--- a/transformer_engine/pytorch/sequential/fusions/__init__.py
+++ b/transformer_engine/pytorch/sequential/fusions/__init__.py
@@ -1,4 +1,6 @@
 from .interface import FusedOp, get_fused_op_list
-from . import mmt  # imported for side effects
+from ..utils import import_file_as_module
+
+import_file_as_module("mmt", only_for_side_effects=True)
 
 __all__ = ["FusedOp", "get_fused_op_list"]

From 6d6ccfaedbf360c7f135db862bd6e0054a17df5b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 15:04:23 +0200
Subject: [PATCH 204/535] fix cpp syntax error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index cf68341b9b..3745ac9e10 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -36,7 +36,6 @@
 #include <transformer_engine/transpose.h>
 #include <type_traits>
 
-
 #include "type_list.h"
 
 // ----------- Wrapper for NVTETensor -----------
@@ -123,7 +122,9 @@ struct TensorPack : NVTETensorPack {
 template <typename T> struct trait {
   using type = T;
 };
-template <typename T &&> struct wrapped_arg : trait<T &&> {
+
+template <typename T> struct wrapped_arg;
+template <typename T> struct wrapped_arg<T &&> : trait<T &&> {
   static T &&unwrap(T &&arg) { return std::forward<T>(arg); }
 };
 template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {

From 3bacca4cd6a8b7a7f9fde0c8590888244230fde8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 15:16:08 +0200
Subject: [PATCH 205/535] fix cpp errors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp          | 15 +++++++--------
 1 file changed, 7 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 3745ac9e10..fc2d60ad92 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -123,14 +123,13 @@ template <typename T> struct trait {
   using type = T;
 };
 
-template <typename T> struct wrapped_arg;
-template <typename T> struct wrapped_arg<T &&> : trait<T &&> {
-  static T &&unwrap(T &&arg) { return std::forward<T>(arg); }
+template <typename T> struct wrapped_arg : trait<T> {
+  static T unwrap(T arg) { return arg; }
 };
 template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {
   static NVTETensor unwrap(Tensor arg) { return (NVTETensor)arg.pimpl.get(); }
 };
-template <> struct wrapped_arg<NVTETensorPack> : trait<std::vector<Tensor>> {
+template <> struct wrapped_arg<NVTETensorPack *> : trait<std::vector<Tensor>> {
   static TensorPack unwrap(std::vector<Tensor> arg) { return TensorPack(arg); }
 };
 template <> struct wrapped_arg<NVTEDType> : trait<int64_t> {
@@ -159,9 +158,9 @@ remove_cuda_stream_arg_helper(Ret(func)(Args...), type_list<PrefixArgs...>,
                               type_list<SuffixArgs...>) noexcept {
   return [func](wrapped_arg_t<PrefixArgs>... prefixArgs,
                 wrapped_arg_t<SuffixArgs>... suffixArgs) -> Ret {
-    auto result = func(wrapped_arg_t<PrefixArgs>::unwrap(prefixArgs)...,
+    auto result = func(wrapped_arg<PrefixArgs>::unwrap(prefixArgs)...,
                        at::cuda::getCurrentCUDAStream(),
-                       wrapped_arg_t<SuffixArgs>::unwrap(suffixArgs)...);
+                       wrapped_arg<SuffixArgs>::unwrap(suffixArgs)...);
     cuda_check();
     return result;
   };
@@ -177,7 +176,7 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
     return remove_cuda_stream_arg_helper(func, prefix(), suffix());
   } else {
     return [func](wrapped_arg_t<Args>... args) -> Ret {
-      auto result = func(wrapped_arg_t<Args>::unwrap(args)...);
+      auto result = func(wrapped_arg<Args>::unwrap(args)...);
       cuda_check();
       return result;
     };
@@ -208,7 +207,7 @@ void multi_cast_transpose(const std::vector<Tensor> &inputs,
 
 // ----------- Registration of torch.ops -----------
 TORCH_LIBRARY(transformer_engine_cuda, m) {
-  m.class_<Tensor>(m, "Tensor")
+  m.class_<Tensor>("Tensor")
       .def(torch::init<int64_t, at::Tensor, at::Tensor, at::Tensor,
                        at::Tensor>())
       .def_property("dtype", &Tensor::dtype)

From a9735510a88cca83a668826a4eb6406aabb5d732 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 15:17:52 +0200
Subject: [PATCH 206/535] typo

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index fc2d60ad92..a3873bdc13 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -118,7 +118,7 @@ struct TensorPack : NVTETensorPack {
   ~TensorPack() { nvte_tensor_pack_destroy(this); }
 };
 
-// ----------- Function subsitution template machinery -----------
+// ----------- Function substitution template machinery -----------
 template <typename T> struct trait {
   using type = T;
 };

From f4975998348fe3b5b32d95cb3a33e21e5edd8157 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 15:24:23 +0200
Subject: [PATCH 207/535] fix return type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp      | 19 +++++++++++--------
 1 file changed, 11 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index a3873bdc13..91deb69f69 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -158,14 +158,18 @@ remove_cuda_stream_arg_helper(Ret(func)(Args...), type_list<PrefixArgs...>,
                               type_list<SuffixArgs...>) noexcept {
   return [func](wrapped_arg_t<PrefixArgs>... prefixArgs,
                 wrapped_arg_t<SuffixArgs>... suffixArgs) -> Ret {
-    auto result = func(wrapped_arg<PrefixArgs>::unwrap(prefixArgs)...,
-                       at::cuda::getCurrentCUDAStream(),
-                       wrapped_arg<SuffixArgs>::unwrap(suffixArgs)...);
-    cuda_check();
-    return result;
+    at_scope_exit _{cuda_check};
+    return func(wrapped_arg<PrefixArgs>::unwrap(prefixArgs)...,
+                at::cuda::getCurrentCUDAStream(),
+                wrapped_arg<SuffixArgs>::unwrap(suffixArgs)...);
   };
 }
 
+struct at_scope_exit {
+  void (*ptr)();
+  ~at_scope_exit() { ptr(); }
+};
+
 template <typename Ret, typename... Args>
 constexpr auto wrap(Ret(func)(Args...)) noexcept {
   using tl = type_list<Args...>;
@@ -176,9 +180,8 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
     return remove_cuda_stream_arg_helper(func, prefix(), suffix());
   } else {
     return [func](wrapped_arg_t<Args>... args) -> Ret {
-      auto result = func(wrapped_arg<Args>::unwrap(args)...);
-      cuda_check();
-      return result;
+      at_scope_exit _{cuda_check};
+      return func(wrapped_arg<Args>::unwrap(args)...);
     };
   }
 }

From dae5263a04c70c1469614f9ec6b5ee4d762144a8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 15:32:29 +0200
Subject: [PATCH 208/535] fix float as arg

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp             | 12 +++++++-----
 1 file changed, 7 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 91deb69f69..f9302df1f5 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -126,6 +126,9 @@ template <typename T> struct trait {
 template <typename T> struct wrapped_arg : trait<T> {
   static T unwrap(T arg) { return arg; }
 };
+template <> struct wrapped_arg<float> : trait<double> {
+  static double unwrap(float arg) { return arg; }
+};
 template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {
   static NVTETensor unwrap(Tensor arg) { return (NVTETensor)arg.pimpl.get(); }
 };
@@ -150,6 +153,10 @@ template <> struct wrapped_arg<NVTE_Mask_Type> : trait<int64_t> {
   static NVTE_Mask_Type unwrap(int64_t arg) { return NVTE_Mask_Type(arg); }
 };
 template <typename T> using wrapped_arg_t = typename wrapped_arg<T>::type;
+struct at_scope_exit {
+  void (*ptr)();
+  ~at_scope_exit() { ptr(); }
+};
 
 template <typename Ret, typename... PrefixArgs, typename... SuffixArgs,
           typename... Args>
@@ -165,11 +172,6 @@ remove_cuda_stream_arg_helper(Ret(func)(Args...), type_list<PrefixArgs...>,
   };
 }
 
-struct at_scope_exit {
-  void (*ptr)();
-  ~at_scope_exit() { ptr(); }
-};
-
 template <typename Ret, typename... Args>
 constexpr auto wrap(Ret(func)(Args...)) noexcept {
   using tl = type_list<Args...>;

From ad2d3f3fdddd2b31902369377de7d9b22386b4cd Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 15:40:59 +0200
Subject: [PATCH 209/535] fix size_t use

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index f9302df1f5..47d1efb770 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -129,6 +129,9 @@ template <typename T> struct wrapped_arg : trait<T> {
 template <> struct wrapped_arg<float> : trait<double> {
   static double unwrap(float arg) { return arg; }
 };
+template <> struct wrapped_arg<size_t> : trait<int64_t> {
+  static int64_t unwrap(size_t arg) { return (int64_t)arg; }
+};
 template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {
   static NVTETensor unwrap(Tensor arg) { return (NVTETensor)arg.pimpl.get(); }
 };

From 3fe3ca172cf1c2e4b2ce4a713f80930af3c905a6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 15:46:19 +0200
Subject: [PATCH 210/535] fix bool use

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 47d1efb770..ab8c5d403d 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -132,6 +132,9 @@ template <> struct wrapped_arg<float> : trait<double> {
 template <> struct wrapped_arg<size_t> : trait<int64_t> {
   static int64_t unwrap(size_t arg) { return (int64_t)arg; }
 };
+template <> struct wrapped_arg<bool> : trait<int64_t> {
+  static int64_t unwrap(bool arg) { return (int64_t)arg; }
+};
 template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {
   static NVTETensor unwrap(Tensor arg) { return (NVTETensor)arg.pimpl.get(); }
 };

From b816be93f0fbc22dabedc8c2b1b92f716dc47e06 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 15:51:07 +0200
Subject: [PATCH 211/535] fix another conversion error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index ab8c5d403d..52c1a8b4b0 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -132,8 +132,11 @@ template <> struct wrapped_arg<float> : trait<double> {
 template <> struct wrapped_arg<size_t> : trait<int64_t> {
   static int64_t unwrap(size_t arg) { return (int64_t)arg; }
 };
-template <> struct wrapped_arg<bool> : trait<int64_t> {
-  static int64_t unwrap(bool arg) { return (int64_t)arg; }
+template <> struct wrapped_arg<int> : trait<int64_t> {
+  static int64_t unwrap(int arg) { return (int64_t)arg; }
+};
+template <> struct wrapped_arg<unsigned int> : trait<int64_t> {
+  static int64_t unwrap(unsigned int arg) { return (int64_t)arg; }
 };
 template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {
   static NVTETensor unwrap(Tensor arg) { return (NVTETensor)arg.pimpl.get(); }

From e719511e2d9ab2c9c6dbca5fe0cc4189fff4b5f8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 16:11:30 +0200
Subject: [PATCH 212/535] fix properties

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp      | 51 ++++++++++++-------
 1 file changed, 32 insertions(+), 19 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 52c1a8b4b0..664f186941 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -61,14 +61,6 @@ void cuda_check() {
 struct Tensor : torch::CustomClassHolder {
   static_assert(std::is_same_v<NVTETensor, void *>);
 
-  int64_t dtype() const {
-    return (int64_t)nvte_tensor_type((NVTETensor)pimpl.get());
-  }
-  std::vector<int64_t> shape() const {
-    NVTEShape s = nvte_tensor_shape((NVTETensor)pimpl.get());
-    return std::vector<int64_t>(s.data, s.data + s.ndim);
-  }
-
   std::shared_ptr<void> pimpl;
   at::Tensor data;
   at::Tensor amax;
@@ -115,6 +107,7 @@ struct TensorPack : NVTETensorPack {
     nvte_tensor_pack_create(this);
   }
   operator NVTETensorPack *() { return this; }
+  operator const NVTETensorPack *() const { return this; }
   ~TensorPack() { nvte_tensor_pack_destroy(this); }
 };
 
@@ -123,27 +116,38 @@ template <typename T> struct trait {
   using type = T;
 };
 
+#define TO_INT64_T(...)                                                        \
+  template <> struct wrapped_arg<__VA_ARGS__> : trait<int64_t> {               \
+    static int64_t unwrap(__VA_ARGS__ arg) { return (int64_t)arg; }            \
+  }
+
+TO_INT64_T(char)
+TO_INT64_T(unsigned char)
+TO_INT64_T(signed char)
+TO_INT64_T(unsigned short)
+TO_INT64_T(signed short)
+TO_INT64_T(unsigned int)
+TO_INT64_T(signed int)
+TO_INT64_T(unsigned long)
+TO_INT64_T(signed long)
+TO_INT64_T(unsigned long long)
+
 template <typename T> struct wrapped_arg : trait<T> {
   static T unwrap(T arg) { return arg; }
 };
 template <> struct wrapped_arg<float> : trait<double> {
   static double unwrap(float arg) { return arg; }
 };
-template <> struct wrapped_arg<size_t> : trait<int64_t> {
-  static int64_t unwrap(size_t arg) { return (int64_t)arg; }
-};
-template <> struct wrapped_arg<int> : trait<int64_t> {
-  static int64_t unwrap(int arg) { return (int64_t)arg; }
-};
-template <> struct wrapped_arg<unsigned int> : trait<int64_t> {
-  static int64_t unwrap(unsigned int arg) { return (int64_t)arg; }
-};
 template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {
   static NVTETensor unwrap(Tensor arg) { return (NVTETensor)arg.pimpl.get(); }
 };
 template <> struct wrapped_arg<NVTETensorPack *> : trait<std::vector<Tensor>> {
   static TensorPack unwrap(std::vector<Tensor> arg) { return TensorPack(arg); }
 };
+template <>
+struct wrapped_arg<const NVTETensorPack *> : trait<std::vector<Tensor>> {
+  static TensorPack unwrap(std::vector<Tensor> arg) { return TensorPack(arg); }
+};
 template <> struct wrapped_arg<NVTEDType> : trait<int64_t> {
   static NVTEDType unwrap(int64_t arg) { return NVTEDType(arg); }
 };
@@ -224,8 +228,17 @@ TORCH_LIBRARY(transformer_engine_cuda, m) {
   m.class_<Tensor>("Tensor")
       .def(torch::init<int64_t, at::Tensor, at::Tensor, at::Tensor,
                        at::Tensor>())
-      .def_property("dtype", &Tensor::dtype)
-      .def_property("shape", &Tensor::shape)
+      .def_property("dtype",
+                    [](const c10::intrusive_ptr<Tensor> &self) {
+                      return (int64_t)nvte_tensor_type(
+                          (NVTETensor)(self->pimpl.get()));
+                    })
+      .def_property("shape",
+                    [](const c10::intrusive_ptr<Tensor> &self) {
+                      NVTEShape s =
+                          nvte_tensor_shape((NVTETensor)(self->pimpl.get()));
+                      return std::vector<int64_t>(s.data, s.data + s.ndim);
+                    })
       .def_readonly("data", &Tensor::data)
       .def_readonly("amax", &Tensor::amax)
       .def_readonly("scale", &Tensor::scale)

From 03c82cac080bd13946bb7bb783243443707cbf5a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 16:15:42 +0200
Subject: [PATCH 213/535] fix order of statements

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 664f186941..5efa635b40 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -116,6 +116,8 @@ template <typename T> struct trait {
   using type = T;
 };
 
+template <typename T> struct wrapped_arg;
+
 #define TO_INT64_T(...)                                                        \
   template <> struct wrapped_arg<__VA_ARGS__> : trait<int64_t> {               \
     static int64_t unwrap(__VA_ARGS__ arg) { return (int64_t)arg; }            \

From 329815b247870476d41cc8a5403d048a1fdad1bf Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 16:19:28 +0200
Subject: [PATCH 214/535] semicolons

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp      | 20 +++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 5efa635b40..519094b2a9 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -123,16 +123,16 @@ template <typename T> struct wrapped_arg;
     static int64_t unwrap(__VA_ARGS__ arg) { return (int64_t)arg; }            \
   }
 
-TO_INT64_T(char)
-TO_INT64_T(unsigned char)
-TO_INT64_T(signed char)
-TO_INT64_T(unsigned short)
-TO_INT64_T(signed short)
-TO_INT64_T(unsigned int)
-TO_INT64_T(signed int)
-TO_INT64_T(unsigned long)
-TO_INT64_T(signed long)
-TO_INT64_T(unsigned long long)
+TO_INT64_T(char);
+TO_INT64_T(unsigned char);
+TO_INT64_T(signed char);
+TO_INT64_T(unsigned short);
+TO_INT64_T(signed short);
+TO_INT64_T(unsigned int);
+TO_INT64_T(signed int);
+TO_INT64_T(unsigned long);
+TO_INT64_T(signed long);
+TO_INT64_T(unsigned long long);
 
 template <typename T> struct wrapped_arg : trait<T> {
   static T unwrap(T arg) { return arg; }

From b192372b4a1cbb1ad5cf1799328146647d72992e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 16:27:37 +0200
Subject: [PATCH 215/535] fix tensor arg type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp      | 27 +++++++++++++------
 1 file changed, 19 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 519094b2a9..7ab411b4ee 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -96,13 +96,14 @@ struct Tensor : torch::CustomClassHolder {
 
 // ----------- Wrapper for NVTETensorPack -----------
 struct TensorPack : NVTETensorPack {
-  TensorPack(const std::vector<Tensor> &tensors_) : NVTETensorPack{} {
+  TensorPack(const std::vector<c10::intrusive_ptr<Tensor>> &tensors_)
+      : NVTETensorPack{} {
     size = tensors_.size();
     if (size > MAX_SIZE) {
       throw std::runtime_error("TensorPack size exceeds MAX_SIZE");
     }
     for (size_t i = 0; i < size; ++i) {
-      tensors[i] = (NVTETensor)tensors_[i].pimpl.get();
+      tensors[i] = (NVTETensor)(tensors_[i]->pimpl.get());
     }
     nvte_tensor_pack_create(this);
   }
@@ -140,15 +141,25 @@ template <typename T> struct wrapped_arg : trait<T> {
 template <> struct wrapped_arg<float> : trait<double> {
   static double unwrap(float arg) { return arg; }
 };
-template <> struct wrapped_arg<NVTETensor> : trait<Tensor> {
-  static NVTETensor unwrap(Tensor arg) { return (NVTETensor)arg.pimpl.get(); }
+template <>
+struct wrapped_arg<NVTETensor> : trait<const c10::intrusive_ptr<Tensor> &> {
+  static NVTETensor unwrap(const c10::intrusive_ptr<Tensor> &arg) {
+    return (NVTETensor)(arg->pimpl.get());
+  }
 };
-template <> struct wrapped_arg<NVTETensorPack *> : trait<std::vector<Tensor>> {
-  static TensorPack unwrap(std::vector<Tensor> arg) { return TensorPack(arg); }
+template <>
+struct wrapped_arg<NVTETensorPack *>
+    : trait<std::vector<c10::intrusive_ptr<Tensor>>> {
+  static TensorPack unwrap(const std::vector<c10::intrusive_ptr<Tensor>> &arg) {
+    return TensorPack(arg);
+  }
 };
 template <>
-struct wrapped_arg<const NVTETensorPack *> : trait<std::vector<Tensor>> {
-  static TensorPack unwrap(std::vector<Tensor> arg) { return TensorPack(arg); }
+struct wrapped_arg<const NVTETensorPack *>
+    : trait<std::vector<c10::intrusive_ptr<Tensor>>> {
+  static TensorPack unwrap(const std::vector<c10::intrusive_ptr<Tensor>> &arg) {
+    return TensorPack(arg);
+  }
 };
 template <> struct wrapped_arg<NVTEDType> : trait<int64_t> {
   static NVTEDType unwrap(int64_t arg) { return NVTEDType(arg); }

From de29646d0783467ddb19f270f59cdb4a89f39f42 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 16:32:23 +0200
Subject: [PATCH 216/535] fix more arg types

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp            | 13 +++++++------
 1 file changed, 7 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 7ab411b4ee..0d1816332a 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -215,18 +215,19 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
 }
 
 // Manual wrapper around nvte_multi_cast_transpose
-void multi_cast_transpose(const std::vector<Tensor> &inputs,
-                          const std::vector<Tensor> &cast_outs,
-                          const std::vector<Tensor> &transposed_outs) {
+void multi_cast_transpose(
+    const std::vector<c10::intrusive_ptr<Tensor>> &inputs,
+    const std::vector<c10::intrusive_ptr<Tensor>> &cast_outs,
+    const std::vector<c10::intrusive_ptr<Tensor>> &transposed_outs) {
   auto count = inputs.size();
   std::vector<NVTETensor> inputs_(count);
   std::vector<NVTETensor> cast_outs_(count);
   std::vector<NVTETensor> transposed_outs_(count);
 
   for (int i = 0; i < inputs.size(); ++i) {
-    inputs_[i] = (NVTETensor)inputs[i].pimpl.get();
-    cast_outs_[i] = (NVTETensor)cast_outs[i].pimpl.get();
-    transposed_outs_[i] = (NVTETensor)transposed_outs[i].pimpl.get();
+    inputs_[i] = (NVTETensor)(inputs[i]->pimpl.get());
+    cast_outs_[i] = (NVTETensor)(cast_outs[i]->pimpl.get());
+    transposed_outs_[i] = (NVTETensor)(transposed_outs[i]->pimpl.get());
   }
 
   nvte_multi_cast_transpose(count, inputs_.data(), cast_outs_.data(),

From 8ded93044e8a22b11de8b1fc278e7126d2f880cb Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 16:37:48 +0200
Subject: [PATCH 217/535] change compute order

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 743bb611e9..a3955e55c3 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -93,9 +93,10 @@ def import_file_as_module(
         old_cwd = None
 
     try:
-        path = Path(file_path).resolve(strict=True)
+        path = Path(file_path)
         if not path.suffix:
             path = path.with_suffix(".py")
+        path = path.resolve(strict=True)
 
         spec = spec_from_loader(path.name, SourceFileLoader(path.name, str(path)))
         if spec is None:

From 823a8b680a2034f10269403a0974c4a445a85018 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 16:54:30 +0200
Subject: [PATCH 218/535] fix import issues

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 58 +------------------
 .../sequential/cpp_extensions/printing.py     |  3 +-
 .../pytorch/sequential/cpp_extensions/real.py | 56 ++++++++++++++++++
 .../pytorch/sequential/utils.py               |  2 +-
 4 files changed, 61 insertions(+), 58 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/real.py

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 33add5aaea..0e5eebe822 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,58 +1,4 @@
-from ..utils import import_file_as_module, get_arg_types
+from ..utils import import_file_as_module
+from .real import *
 
 import_file_as_module("printing", only_for_side_effects=True)
-
-from enum import Enum
-import inspect
-import transformer_engine_cuda  # type: ignore
-
-stub = import_file_as_module("__init__.pyi")
-from typing import TypeVar, Any
-
-T1 = TypeVar("T1")
-T2 = TypeVar("T2")
-
-
-def to_dict(l: list[tuple[T1, T2]], /) -> dict[T1, T2]:
-    return {t[0]: t[1] for t in l}
-
-
-stub_functions = to_dict(inspect.getmembers(stub, inspect.isfunction))
-stub_types = to_dict(inspect.getmembers(stub, inspect.isclass))
-enum_names = {
-    type_name
-    for type_name, type_obj in stub_types.items()
-    if issubclass(type_obj, Enum)
-}
-
-real_functions = to_dict(
-    inspect.getmembers(transformer_engine_cuda, inspect.isfunction)
-)
-real_types = to_dict(inspect.getmembers(transformer_engine_cuda, inspect.isclass))
-
-for enum_name in enum_names:
-    globals()[enum_name] = stub_types[enum_name]
-
-for class_name in stub_types.keys() - enum_names:
-    stub_type = stub_types[class_name]
-    real_type = real_types[class_name]
-    real_type.__annotations__ = stub_type.__annotations__
-    for attr_name, attr_obj in real_type.__dict__.items():
-        attr_obj.__annotations__ = stub_type.__dict__[attr_name].__annotations__
-    globals()[class_name] = real_type
-
-for func_name, func_obj in stub_functions.items():
-    stub_arg_types = tuple(get_arg_types(func_obj))
-
-    def wrapper(*args: Any):
-        real_args = ()
-        for arg in args:
-            if isinstance(arg, Enum):
-                real_args += (arg.value,)
-            else:
-                real_args += (arg,)
-        func_obj(*real_args)
-
-    wrapper.__name__ = func_name
-    wrapper.__annotations__ = func_obj.__annotations__
-    globals()[func_name] = wrapper
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/printing.py b/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
index 2234d95caa..8bd8eca335 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
@@ -1,5 +1,5 @@
 import torch
-from ..cpp_extensions import Tensor, DType
+from .real import Tensor, DType
 
 
 def tensor_repr(tensor: Tensor):
@@ -23,6 +23,7 @@ def tensor_repr(tensor: Tensor):
  scale_inv={tensor.scale_inv.item() if tensor.scale_inv.numel() else None}\
 )"""
 
+
 setattr(Tensor, "__repr__", tensor_repr)
 
 
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/real.py b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
new file mode 100644
index 0000000000..8edfa8cc83
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
@@ -0,0 +1,56 @@
+from enum import Enum
+import inspect
+from typing import Any
+import transformer_engine_cuda  # type: ignore
+from ..utils import import_file_as_module
+
+
+def inject_real(namespace: dict[str, Any]):
+    stub = import_file_as_module("__init__.pyi")
+    from typing import TypeVar, Any
+
+    T1 = TypeVar("T1")
+    T2 = TypeVar("T2")
+
+    def to_dict(l: list[tuple[T1, T2]], /) -> dict[T1, T2]:
+        return {t[0]: t[1] for t in l}
+
+    stub_functions = to_dict(inspect.getmembers(stub, inspect.isfunction))
+    stub_types = to_dict(inspect.getmembers(stub, inspect.isclass))
+    enum_names = {
+        type_name
+        for type_name, type_obj in stub_types.items()
+        if issubclass(type_obj, Enum)
+    }
+
+    real_functions = to_dict(
+        inspect.getmembers(transformer_engine_cuda, inspect.isfunction)
+    )
+    real_types = to_dict(inspect.getmembers(transformer_engine_cuda, inspect.isclass))
+
+    for enum_name in enum_names:
+        namespace[enum_name] = stub_types[enum_name]
+
+    for class_name in stub_types.keys() - enum_names:
+        stub_type = stub_types[class_name]
+        real_type = real_types[class_name]
+        real_type.__annotations__ = stub_type.__annotations__
+        for attr_name, attr_obj in real_type.__dict__.items():
+            attr_obj.__annotations__ = stub_type.__dict__[attr_name].__annotations__
+        namespace[class_name] = real_type
+
+    for func_name, func_obj in stub_functions.items():
+        real_func = real_functions[func_name]
+
+        def wrapper(*args: Any):
+            real_args = ()
+            for arg in args:
+                if isinstance(arg, Enum):
+                    real_args += (arg.value,)
+                else:
+                    real_args += (arg,)
+            real_func(*real_args)
+
+        wrapper.__name__ = func_name
+        wrapper.__annotations__ = func_obj.__annotations__
+        namespace[func_name] = wrapper
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index a3955e55c3..60f28546b2 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -88,7 +88,7 @@ def import_file_as_module(
             strict=True
         )
         old_cwd = os.getcwd()
-        os.chdir(caller_path)
+        os.chdir(caller_path.parent)
     except:
         old_cwd = None
 

From a5b4897a37c822ab7f2fc06c910b7d5c4a45d7e7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 17:35:33 +0200
Subject: [PATCH 219/535] wrap return type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/real.py | 12 +++-
 .../pytorch/sequential/cppsrc/pybind.cpp      | 57 +++++++++++--------
 .../pytorch/sequential/utils.py               | 18 ++++++
 3 files changed, 61 insertions(+), 26 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/real.py b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
index 8edfa8cc83..d1c2617a57 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/real.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
@@ -2,7 +2,7 @@
 import inspect
 from typing import Any
 import transformer_engine_cuda  # type: ignore
-from ..utils import import_file_as_module
+from ..utils import import_file_as_module, get_return_type
 
 
 def inject_real(namespace: dict[str, Any]):
@@ -41,15 +41,21 @@ def to_dict(l: list[tuple[T1, T2]], /) -> dict[T1, T2]:
 
     for func_name, func_obj in stub_functions.items():
         real_func = real_functions[func_name]
+        exposed_return_type: type = get_return_type(func_obj)
 
-        def wrapper(*args: Any):
+        def wrapper(*args: Any) -> Any:
             real_args = ()
             for arg in args:
                 if isinstance(arg, Enum):
                     real_args += (arg.value,)
                 else:
                     real_args += (arg,)
-            real_func(*real_args)
+            result = real_func(*real_args)
+            if issubclass(exposed_return_type, Enum):
+                assert isinstance(result, int)
+                return exposed_return_type(result)  # type: ignore
+            else:
+                return result
 
         wrapper.__name__ = func_name
         wrapper.__annotations__ = func_obj.__annotations__
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 0d1816332a..3da1edebd1 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -113,14 +113,15 @@ struct TensorPack : NVTETensorPack {
 };
 
 // ----------- Function substitution template machinery -----------
-template <typename T> struct trait {
+template <typename T> struct exposed_type {
   using type = T;
 };
 
-template <typename T> struct wrapped_arg;
+template <typename T> struct wrapped;
 
 #define TO_INT64_T(...)                                                        \
-  template <> struct wrapped_arg<__VA_ARGS__> : trait<int64_t> {               \
+  template <> struct wrapped<__VA_ARGS__> : exposed_type<int64_t> {            \
+    static __VA_ARGS__ wrap(int64_t arg) { return (__VA_ARGS__)arg; }          \
     static int64_t unwrap(__VA_ARGS__ arg) { return (int64_t)arg; }            \
   }
 
@@ -135,50 +136,60 @@ TO_INT64_T(unsigned long);
 TO_INT64_T(signed long);
 TO_INT64_T(unsigned long long);
 
-template <typename T> struct wrapped_arg : trait<T> {
+template <typename T> struct wrapped : exposed_type<T> {
+  static T wrap(T arg) { return arg; }
   static T unwrap(T arg) { return arg; }
 };
-template <> struct wrapped_arg<float> : trait<double> {
+template <> struct wrapped<float> : exposed_type<double> {
+  static float wrap(double arg) { return arg; }
   static double unwrap(float arg) { return arg; }
 };
 template <>
-struct wrapped_arg<NVTETensor> : trait<const c10::intrusive_ptr<Tensor> &> {
+struct wrapped<NVTETensor> : exposed_type<const c10::intrusive_ptr<Tensor> &> {
+  // static c10::intrusive_ptr<Tensor> wrap(NVTETensor arg) {
+  //   return c10::make_intrusive<Tensor>(arg);
+  // }
   static NVTETensor unwrap(const c10::intrusive_ptr<Tensor> &arg) {
     return (NVTETensor)(arg->pimpl.get());
   }
 };
 template <>
-struct wrapped_arg<NVTETensorPack *>
-    : trait<std::vector<c10::intrusive_ptr<Tensor>>> {
+struct wrapped<NVTETensorPack *>
+    : exposed_type<std::vector<c10::intrusive_ptr<Tensor>>> {
   static TensorPack unwrap(const std::vector<c10::intrusive_ptr<Tensor>> &arg) {
     return TensorPack(arg);
   }
 };
 template <>
-struct wrapped_arg<const NVTETensorPack *>
-    : trait<std::vector<c10::intrusive_ptr<Tensor>>> {
+struct wrapped<const NVTETensorPack *>
+    : exposed_type<std::vector<c10::intrusive_ptr<Tensor>>> {
   static TensorPack unwrap(const std::vector<c10::intrusive_ptr<Tensor>> &arg) {
     return TensorPack(arg);
   }
 };
-template <> struct wrapped_arg<NVTEDType> : trait<int64_t> {
+template <> struct wrapped<NVTEDType> : exposed_type<int64_t> {
+  static int64_t wrap(NVTEDType arg) { return int64_t(arg); }
   static NVTEDType unwrap(int64_t arg) { return NVTEDType(arg); }
 };
-template <> struct wrapped_arg<NVTE_Fused_Attn_Backend> : trait<int64_t> {
+template <> struct wrapped<NVTE_Fused_Attn_Backend> : exposed_type<int64_t> {
+  static int64_t wrap(NVTE_Fused_Attn_Backend arg) { return int64_t(arg); }
   static NVTE_Fused_Attn_Backend unwrap(int64_t arg) {
     return NVTE_Fused_Attn_Backend(arg);
   }
 };
-template <> struct wrapped_arg<NVTE_QKV_Layout> : trait<int64_t> {
+template <> struct wrapped<NVTE_QKV_Layout> : exposed_type<int64_t> {
+  static int64_t wrap(NVTE_QKV_Layout arg) { return int64_t(arg); }
   static NVTE_QKV_Layout unwrap(int64_t arg) { return NVTE_QKV_Layout(arg); }
 };
-template <> struct wrapped_arg<NVTE_Bias_Type> : trait<int64_t> {
+template <> struct wrapped<NVTE_Bias_Type> : exposed_type<int64_t> {
+  static int64_t wrap(NVTE_Bias_Type arg) { return int64_t(arg); }
   static NVTE_Bias_Type unwrap(int64_t arg) { return NVTE_Bias_Type(arg); }
 };
-template <> struct wrapped_arg<NVTE_Mask_Type> : trait<int64_t> {
+template <> struct wrapped<NVTE_Mask_Type> : exposed_type<int64_t> {
+  static int64_t wrap(NVTE_Mask_Type arg) { return int64_t(arg); }
   static NVTE_Mask_Type unwrap(int64_t arg) { return NVTE_Mask_Type(arg); }
 };
-template <typename T> using wrapped_arg_t = typename wrapped_arg<T>::type;
+template <typename T> using wrapped_t = typename wrapped<T>::type;
 struct at_scope_exit {
   void (*ptr)();
   ~at_scope_exit() { ptr(); }
@@ -189,12 +200,12 @@ template <typename Ret, typename... PrefixArgs, typename... SuffixArgs,
 constexpr auto
 remove_cuda_stream_arg_helper(Ret(func)(Args...), type_list<PrefixArgs...>,
                               type_list<SuffixArgs...>) noexcept {
-  return [func](wrapped_arg_t<PrefixArgs>... prefixArgs,
-                wrapped_arg_t<SuffixArgs>... suffixArgs) -> Ret {
+  return [func](wrapped_t<PrefixArgs>... prefixArgs,
+                wrapped_t<SuffixArgs>... suffixArgs) -> wrapped_t<Ret> {
     at_scope_exit _{cuda_check};
-    return func(wrapped_arg<PrefixArgs>::unwrap(prefixArgs)...,
-                at::cuda::getCurrentCUDAStream(),
-                wrapped_arg<SuffixArgs>::unwrap(suffixArgs)...);
+    return wrapped<Ret>::wrap(func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
+                                   at::cuda::getCurrentCUDAStream(),
+                                   wrapped<SuffixArgs>::unwrap(suffixArgs)...));
   };
 }
 
@@ -207,9 +218,9 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
     using suffix = typename tl::template pop_front<stream_arg_idx + 1>;
     return remove_cuda_stream_arg_helper(func, prefix(), suffix());
   } else {
-    return [func](wrapped_arg_t<Args>... args) -> Ret {
+    return [func](wrapped_t<Args>... args) -> wrapped_t<Ret> {
       at_scope_exit _{cuda_check};
-      return func(wrapped_arg<Args>::unwrap(args)...);
+      return wrapped<Ret>::wrap(func(wrapped<Args>::unwrap(args)...));
     };
   }
 }
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 60f28546b2..b540cac298 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -137,3 +137,21 @@ def get_arg_types(f: Callable[..., Any]) -> list[type]:
             raise ValueError("Unsupported function (type annotations not supported)")
 
         return arg_types
+
+
+def get_return_type(f: Callable[..., T]) -> type[T]:
+    import typing
+    import ast
+
+    return_annotation = typing.get_type_hints(f)["return"]
+    if not isinstance(return_annotation, (str, type)):
+        raise ValueError("Unsupported function (type annotations not supported)")
+    else:
+        return_type = (
+            ast.literal_eval(return_annotation)
+            if isinstance(return_annotation, str)
+            else return_annotation
+        )
+        if not isinstance(return_type, type):
+            raise ValueError("Unsupported function (type annotations not supported)")
+        return return_type  # type: ignore

From a78e2d7e63ccb8803b8f1f392e362ed252823d1e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 17:43:27 +0200
Subject: [PATCH 220/535] handle void

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 3da1edebd1..cc18970fbf 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -140,6 +140,10 @@ template <typename T> struct wrapped : exposed_type<T> {
   static T wrap(T arg) { return arg; }
   static T unwrap(T arg) { return arg; }
 };
+template <> struct wrapped<void> : exposed_type<void> {
+  static float wrap(void) { return; }
+  static double unwrap(void) { return; }
+};
 template <> struct wrapped<float> : exposed_type<double> {
   static float wrap(double arg) { return arg; }
   static double unwrap(float arg) { return arg; }

From ccd790664a9def94da9dfca27a2fa359c1192a43 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 17:52:06 +0200
Subject: [PATCH 221/535] handle void return type, properly

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp      | 26 ++++++++++++++-----
 1 file changed, 20 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index cc18970fbf..aaaf6e0c2c 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -141,8 +141,11 @@ template <typename T> struct wrapped : exposed_type<T> {
   static T unwrap(T arg) { return arg; }
 };
 template <> struct wrapped<void> : exposed_type<void> {
-  static float wrap(void) { return; }
-  static double unwrap(void) { return; }
+  // Intentionally left blank
+  // ie. this should never be used
+  // because an argument cannot have
+  // void type, while conversion
+  // should be skipped for void return type.
 };
 template <> struct wrapped<float> : exposed_type<double> {
   static float wrap(double arg) { return arg; }
@@ -207,9 +210,16 @@ remove_cuda_stream_arg_helper(Ret(func)(Args...), type_list<PrefixArgs...>,
   return [func](wrapped_t<PrefixArgs>... prefixArgs,
                 wrapped_t<SuffixArgs>... suffixArgs) -> wrapped_t<Ret> {
     at_scope_exit _{cuda_check};
-    return wrapped<Ret>::wrap(func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
-                                   at::cuda::getCurrentCUDAStream(),
-                                   wrapped<SuffixArgs>::unwrap(suffixArgs)...));
+    if constexpr (!std::is_same_v<Ret, void>) {
+      return wrapped<Ret>::wrap(
+          func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
+               at::cuda::getCurrentCUDAStream(),
+               wrapped<SuffixArgs>::unwrap(suffixArgs)...));
+    } else {
+      return func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
+                  at::cuda::getCurrentCUDAStream(),
+                  wrapped<SuffixArgs>::unwrap(suffixArgs)...);
+    }
   };
 }
 
@@ -224,7 +234,11 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
   } else {
     return [func](wrapped_t<Args>... args) -> wrapped_t<Ret> {
       at_scope_exit _{cuda_check};
-      return wrapped<Ret>::wrap(func(wrapped<Args>::unwrap(args)...));
+      if constexpr (!std::is_same_v<Ret, void>) {
+        return wrapped<Ret>::wrap(func(wrapped<Args>::unwrap(args)...));
+      } else {
+        return func(wrapped<Args>::unwrap(args)...);
+      }
     };
   }
 }

From cfaeb6731cceedd6b470dabf72a91712cf2bdbcd Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 18:00:40 +0200
Subject: [PATCH 222/535] support meta-only tensors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/empty.py          | 28 ++++---------------
 1 file changed, 6 insertions(+), 22 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 66fca8ad5b..f044f169e2 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -19,28 +19,12 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
     return tuple(
         _nvte.Tensor(
             dtype,
-            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-            amax,  # type: ignore[possibly-unbound]
-            scale,  # type: ignore[possibly-unbound]
-            scale_inv,  # type: ignore[possibly-unbound]
-        )
-        if is_fp8(dtype)
-        else (
-            _nvte.Tensor(
-                dtype,
-                torch.Tensor(),
-                torch.Tensor(),
-                torch.Tensor(),
-                torch.Tensor(),
-            )
-            if shape == ()
-            else _nvte.Tensor(
-                dtype,
-                torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda"),
-                torch.Tensor(),
-                torch.Tensor(),
-                torch.Tensor(),
-            )
+            torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda")
+            if shape != ()
+            else torch.Tensor(),
+            amax if is_fp8(dtype) else torch.Tensor(),  # type: ignore[possibly-unbound]
+            scale if is_fp8(dtype) else torch.Tensor(),  # type: ignore[possibly-unbound]
+            scale_inv if is_fp8(dtype) else torch.Tensor(),  # type: ignore[possibly-unbound]
         )
         for shape, dtype in shapes_dtypes
     )

From ae58dc94792f35872171953f0be256889ae4dea8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 18:32:20 +0200
Subject: [PATCH 223/535] fix typing

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/real.py | 29 ++++++++++---------
 1 file changed, 16 insertions(+), 13 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/real.py b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
index d1c2617a57..1aa5e729ed 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/real.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
@@ -1,8 +1,11 @@
 from enum import Enum
 import inspect
-from typing import Any
-import transformer_engine_cuda  # type: ignore
+from typing import Any, Callable
 from ..utils import import_file_as_module, get_return_type
+import torch
+from torch._ops import OpOverloadPacket, _OpNamespace  # type: ignore
+from torch._classes import _ClassNamespace  # type: ignore
+from torch._C import ScriptClass  # type: ignore
 
 
 def inject_real(namespace: dict[str, Any]):
@@ -23,24 +26,24 @@ def to_dict(l: list[tuple[T1, T2]], /) -> dict[T1, T2]:
         if issubclass(type_obj, Enum)
     }
 
-    real_functions = to_dict(
-        inspect.getmembers(transformer_engine_cuda, inspect.isfunction)
+    function_ns = torch.ops.transformer_engine_cuda  # type: ignore
+    assert isinstance(function_ns, _OpNamespace)
+    type_ns = torch.classes.transformer_engine_cuda  # type: ignore
+    assert isinstance(type_ns, _ClassNamespace)
+
+    real_function: Callable[[str], OpOverloadPacket] = lambda name: getattr(
+        function_ns, name
     )
-    real_types = to_dict(inspect.getmembers(transformer_engine_cuda, inspect.isclass))
+    real_type: Callable[[str], ScriptClass] = lambda name: getattr(type_ns, name)  # type: ignore
 
     for enum_name in enum_names:
         namespace[enum_name] = stub_types[enum_name]
 
     for class_name in stub_types.keys() - enum_names:
-        stub_type = stub_types[class_name]
-        real_type = real_types[class_name]
-        real_type.__annotations__ = stub_type.__annotations__
-        for attr_name, attr_obj in real_type.__dict__.items():
-            attr_obj.__annotations__ = stub_type.__dict__[attr_name].__annotations__
-        namespace[class_name] = real_type
+        namespace[class_name] = real_type(class_name)
 
     for func_name, func_obj in stub_functions.items():
-        real_func = real_functions[func_name]
+        real_func = real_function(func_name)
         exposed_return_type: type = get_return_type(func_obj)
 
         def wrapper(*args: Any) -> Any:
@@ -50,7 +53,7 @@ def wrapper(*args: Any) -> Any:
                     real_args += (arg.value,)
                 else:
                     real_args += (arg,)
-            result = real_func(*real_args)
+            result: Any = real_func(*real_args)
             if issubclass(exposed_return_type, Enum):
                 assert isinstance(result, int)
                 return exposed_return_type(result)  # type: ignore

From 1e7348d75dbb18b7f4290764fe7eababbafa3b0f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:04:33 +0200
Subject: [PATCH 224/535] fix import error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py             | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 0e5eebe822..2c5a444a72 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,4 +1,2 @@
-from ..utils import import_file_as_module
 from .real import *
-
-import_file_as_module("printing", only_for_side_effects=True)
+import printing  # only for side effects

From a0005ce468d2a4138185db23d803fd2f331f9d2b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:04:58 +0200
Subject: [PATCH 225/535] fix import error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py               | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 2c5a444a72..8657a3f724 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,2 +1,2 @@
 from .real import *
-import printing  # only for side effects
+import .printing  # only for side effects

From 9ebffb4437a8bf8d03f3c1757d7c39a44d202b90 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:05:20 +0200
Subject: [PATCH 226/535] fix import error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py               | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 8657a3f724..03b14053aa 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,2 +1,2 @@
 from .real import *
-import .printing  # only for side effects
+from . import printing  # only for side effects

From b11970050a9889fecdee0cac33d00f2afb1d02e3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:10:54 +0200
Subject: [PATCH 227/535] run dynamic code generation

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/real.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/real.py b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
index 1aa5e729ed..598cc85713 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/real.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
@@ -63,3 +63,6 @@ def wrapper(*args: Any) -> Any:
         wrapper.__name__ = func_name
         wrapper.__annotations__ = func_obj.__annotations__
         namespace[func_name] = wrapper
+
+
+inject_real(globals())

From dc74e8e3c8dbb9f5bb3a844d0236af1a5429c37f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:20:50 +0200
Subject: [PATCH 228/535] fix import error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/real.py        | 12 ++++++++++++
 1 file changed, 12 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/real.py b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
index 598cc85713..ffd20d498b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/real.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
@@ -7,6 +7,18 @@
 from torch._classes import _ClassNamespace  # type: ignore
 from torch._C import ScriptClass  # type: ignore
 
+try:
+    # Normally, torch.classes.load_library would be used
+    # to load the classes from the module.
+    # However, that requires knowing where the module is.
+    # A simpler way is to just import it.
+    import transformer_engine_cuda  # type: ignore
+except:
+    # The import will always fail, as torch libraries
+    # are not supposed to be imported directly.
+    # However, it does achieve the effect of loading the classes.
+    pass
+
 
 def inject_real(namespace: dict[str, Any]):
     stub = import_file_as_module("__init__.pyi")

From 144840150191b52e7b63e1be8f7f43f0cd9ff200 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:30:23 +0200
Subject: [PATCH 229/535] make tensors properly printable

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py          | 7 +++++++
 .../pytorch/sequential/cpp_extensions/printing.py          | 5 ++---
 2 files changed, 9 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 03b14053aa..8f322a38da 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,2 +1,9 @@
 from .real import *
 from . import printing  # only for side effects
+
+# Make tensors printable
+
+raw_type: type = globals().pop("Tensor")
+class Tensor(raw_type): # type: ignore
+    def __repr__(self):
+        return printing.tensor_repr(self) # type: ignore
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/printing.py b/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
index 8bd8eca335..e2ea686c98 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
@@ -1,3 +1,5 @@
+# type: ignore[dynamic-code]
+
 import torch
 from .real import Tensor, DType
 
@@ -24,9 +26,6 @@ def tensor_repr(tensor: Tensor):
 )"""
 
 
-setattr(Tensor, "__repr__", tensor_repr)
-
-
 # fmt: off
 nan = float("nan")
 inf = float("inf")

From f736f3425f65c6ffa346b43fd2a2d4753e22073c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:34:00 +0200
Subject: [PATCH 230/535] print tensor

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py | 15 ++++++++++++---
 1 file changed, 12 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 8f322a38da..3959390f70 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,9 +1,18 @@
+from typing import Any
 from .real import *
 from . import printing  # only for side effects
 
 # Make tensors printable
 
 raw_type: type = globals().pop("Tensor")
-class Tensor(raw_type): # type: ignore
-    def __repr__(self):
-        return printing.tensor_repr(self) # type: ignore
+
+
+class __TensorImpostor:
+    def __getattribute__(self, __name: str) -> Any:
+        if __name != "__repr__":
+            return getattr(raw_type, __name)
+        else:
+            return printing.tensor_repr  # type: ignore
+
+
+Tensor = __TensorImpostor()

From b5b8e6b4ad16d093e9ffc2686495696e39e9cda0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:38:02 +0200
Subject: [PATCH 231/535] dont print for now

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py        | 16 +---------------
 1 file changed, 1 insertion(+), 15 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 3959390f70..3c89f5bc0d 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,18 +1,4 @@
 from typing import Any
 from .real import *
-from . import printing  # only for side effects
 
-# Make tensors printable
-
-raw_type: type = globals().pop("Tensor")
-
-
-class __TensorImpostor:
-    def __getattribute__(self, __name: str) -> Any:
-        if __name != "__repr__":
-            return getattr(raw_type, __name)
-        else:
-            return printing.tensor_repr  # type: ignore
-
-
-Tensor = __TensorImpostor()
+# from . import printing  <- TODO

From a522d5155a37f89f7fd54c150c948cfe2b69e20b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:50:38 +0200
Subject: [PATCH 232/535] from __future__ import annotations everywhere to
 avoid 'operator | unsupported for ScriptClass

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/compare_pt_te_seq.py         |   1 +
 tests/sequential/simple_prec_compare.py       |   2 +
 tests/sequential/test_matrix1.py              |   1 +
 tests/sequential/test_matrix2.py              |   1 +
 .../pytorch/sequential/compute_pipeline.py    |   1 +
 .../sequential/cpp_extensions/__init__.pyi    | 268 ++++++++++++++++--
 .../sequential/cpp_extensions/printing.py     |   3 +-
 transformer_engine/pytorch/sequential/meta.py |   1 +
 .../pytorch/sequential/module/_common.py      |   1 +
 .../pytorch/sequential/module/base.py         |   1 +
 .../pytorch/sequential/module/linear.py       |   1 +
 .../pytorch/sequential/nvte/_common.py        |   1 +
 .../pytorch/sequential/nvte/activation.py     |   1 +
 .../pytorch/sequential/nvte/add.py            |   5 +-
 .../pytorch/sequential/nvte/cast_transpose.py |   1 +
 .../pytorch/sequential/nvte/dtype.py          |   1 +
 .../pytorch/sequential/nvte/empty.py          |   1 +
 .../sequential/nvte/execution_state.py        |   1 +
 .../pytorch/sequential/nvte/misc_fusions.py   |   1 +
 .../pytorch/sequential/nvte/mmt.py            |   1 +
 .../pytorch/sequential/nvte/normalization.py  |   1 +
 .../pytorch/sequential/ops_types.py           |   1 +
 22 files changed, 268 insertions(+), 28 deletions(-)

diff --git a/tests/sequential/compare_pt_te_seq.py b/tests/sequential/compare_pt_te_seq.py
index d9ab6da7d2..6d5de265cd 100644
--- a/tests/sequential/compare_pt_te_seq.py
+++ b/tests/sequential/compare_pt_te_seq.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import torch
 import transformer_engine.pytorch.sequential as seq
 from torch import nn
diff --git a/tests/sequential/simple_prec_compare.py b/tests/sequential/simple_prec_compare.py
index c78543e245..a7632bd7a3 100644
--- a/tests/sequential/simple_prec_compare.py
+++ b/tests/sequential/simple_prec_compare.py
@@ -12,6 +12,8 @@
     seq.Linear(2 * HIDDEN_DIM, HIDDEN_DIM),
 )
 
+torch.compile(m)(x)
+
 torch.set_printoptions(precision=4, sci_mode=False)
 
 with seq.Recipe(lowp=seq.nvte.DType.Float8E4M3):
diff --git a/tests/sequential/test_matrix1.py b/tests/sequential/test_matrix1.py
index 68a29dac7f..f0a13106ba 100644
--- a/tests/sequential/test_matrix1.py
+++ b/tests/sequential/test_matrix1.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import torch
 from torch import nn
 import transformer_engine.pytorch.sequential as seq
diff --git a/tests/sequential/test_matrix2.py b/tests/sequential/test_matrix2.py
index 3561db05f9..fa2ca926c1 100644
--- a/tests/sequential/test_matrix2.py
+++ b/tests/sequential/test_matrix2.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import torch
 from enum import Enum
 from torch import nn, autocast
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 7528463fb1..cb07505d12 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from functools import reduce
 import operator
 from . import nvte
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 16f3a8c00f..04e43dbff6 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import torch
 from enum import Enum
 from typing import Sequence
@@ -40,7 +41,14 @@ class Tensor:
     amax: torch.Tensor
     scale: torch.Tensor
     scale_inv: torch.Tensor
-    def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
+    def __init__(
+        self,
+        dtype: DType,
+        data: torch.Tensor,
+        amax: torch.Tensor,
+        scale: torch.Tensor,
+        scale_inv: torch.Tensor,
+    ) -> None: ...
 
 def gelu(input: Tensor, output: Tensor) -> None: ...
 def dgelu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
@@ -54,28 +62,238 @@ def reglu(input: Tensor, output: Tensor) -> None: ...
 def dreglu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
 def fp8_quantize(input: Tensor, output: Tensor) -> None: ...
 def fp8_dequantize(input: Tensor, output: Tensor) -> None: ...
-def get_fused_attn_backend(q_dtype: DType, kv_dtype: DType, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, dropout: float, max_seqlen_q: int, max_seqlen_kv: int, head_dim: int) -> FusedAttnBackend: ...
-def fused_attn_fwd_qkvpacked(QKV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: Sequence[Tensor], cu_seqlens: Tensor, rng_state: Tensor, max_seqlen: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
-def fused_attn_bwd_qkvpacked(QKV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: Sequence[Tensor], dQKV: Tensor, dBias: Tensor, cu_seqlens: Tensor, max_seqlen: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
-def fused_attn_fwd_kvpacked(Q: Tensor, KV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: Sequence[Tensor], cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, rng_state: Tensor, max_seqlen_q: int, max_seqlen_kv: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
-def fused_attn_bwd_kvpacked(Q: Tensor, KV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: Sequence[Tensor], dQ: Tensor, dKV: Tensor, dBias: Tensor, cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, max_seqlen_q: int, max_seqlen_kv: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
-def cublas_gemm(A: Tensor, B: Tensor, D: Tensor, bias: Tensor, pre_gelu_out: Tensor, transa: bool, transb: bool, grad: bool, workspace: Tensor, accumulate: bool, use_split_accumulator: bool, math_sm_count: int) -> None: ...
-def layernorm_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
-def layernorm1p_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
-def layernorm_bwd(dz: Tensor, x: Tensor, mu: Tensor, rsigma: Tensor, gamma: Tensor, dx: Tensor, dgamma: Tensor, dbeta: Tensor, dgamma_part: Tensor, dbeta_part: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
-def layernorm1p_bwd(dz: Tensor, x: Tensor, mu: Tensor, rsigma: Tensor, gamma: Tensor, dx: Tensor, dgamma: Tensor, dbeta: Tensor, dgamma_part: Tensor, dbeta_part: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
-def rmsnorm_fwd(x: Tensor, gamma: Tensor, epsilon: float, z: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
-def rmsnorm_bwd(dz: Tensor, x: Tensor, rsigma: Tensor, gamma: Tensor, dx: Tensor, dgamma: Tensor, dgamma_part: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
-def scaled_softmax_forward(input: Tensor, softmax_results: Tensor, scale_factor: float) -> None: ...
-def scaled_softmax_backward(incoming_grads: Tensor, softmax_results: Tensor, output_grads: Tensor, scale_factor: float) -> None: ...
-def scaled_masked_softmax_forward(input: Tensor, mask: Tensor, softmax_results: Tensor, scale_factor: float) -> None: ...
-def scaled_masked_softmax_backward(incoming_grads: Tensor, softmax_results: Tensor, output_grads: Tensor, scale_factor: float) -> None: ...
-def scaled_upper_triang_masked_softmax_forward(input: Tensor, softmax_results: Tensor, scale_factor: float) -> None: ...
-def scaled_upper_triang_masked_softmax_backward(incoming_grads: Tensor, softmax_results: Tensor, output_grads: Tensor, scale_factor: float) -> None: ...
-def cast_transpose(input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
+def get_fused_attn_backend(
+    q_dtype: DType,
+    kv_dtype: DType,
+    qkv_layout: QKVLayout,
+    bias_type: BiasType,
+    attn_mask_type: MaskType,
+    dropout: float,
+    max_seqlen_q: int,
+    max_seqlen_kv: int,
+    head_dim: int,
+) -> FusedAttnBackend: ...
+def fused_attn_fwd_qkvpacked(
+    QKV: Tensor,
+    Bias: Tensor,
+    S: Tensor,
+    O: Tensor,
+    Aux_CTX_Tensors: Sequence[Tensor],
+    cu_seqlens: Tensor,
+    rng_state: Tensor,
+    max_seqlen: int,
+    is_training: bool,
+    attn_scale: float,
+    dropout: float,
+    qkv_layout: QKVLayout,
+    bias_type: BiasType,
+    attn_mask_type: MaskType,
+    workspace: Tensor,
+) -> None: ...
+def fused_attn_bwd_qkvpacked(
+    QKV: Tensor,
+    O: Tensor,
+    dO: Tensor,
+    S: Tensor,
+    dP: Tensor,
+    Aux_CTX_Tensors: Sequence[Tensor],
+    dQKV: Tensor,
+    dBias: Tensor,
+    cu_seqlens: Tensor,
+    max_seqlen: int,
+    attn_scale: float,
+    dropout: float,
+    qkv_layout: QKVLayout,
+    bias_type: BiasType,
+    attn_mask_type: MaskType,
+    workspace: Tensor,
+) -> None: ...
+def fused_attn_fwd_kvpacked(
+    Q: Tensor,
+    KV: Tensor,
+    Bias: Tensor,
+    S: Tensor,
+    O: Tensor,
+    Aux_CTX_Tensors: Sequence[Tensor],
+    cu_seqlens_q: Tensor,
+    cu_seqlens_kv: Tensor,
+    rng_state: Tensor,
+    max_seqlen_q: int,
+    max_seqlen_kv: int,
+    is_training: bool,
+    attn_scale: float,
+    dropout: float,
+    qkv_layout: QKVLayout,
+    bias_type: BiasType,
+    attn_mask_type: MaskType,
+    workspace: Tensor,
+) -> None: ...
+def fused_attn_bwd_kvpacked(
+    Q: Tensor,
+    KV: Tensor,
+    O: Tensor,
+    dO: Tensor,
+    S: Tensor,
+    dP: Tensor,
+    Aux_CTX_Tensors: Sequence[Tensor],
+    dQ: Tensor,
+    dKV: Tensor,
+    dBias: Tensor,
+    cu_seqlens_q: Tensor,
+    cu_seqlens_kv: Tensor,
+    max_seqlen_q: int,
+    max_seqlen_kv: int,
+    attn_scale: float,
+    dropout: float,
+    qkv_layout: QKVLayout,
+    bias_type: BiasType,
+    attn_mask_type: MaskType,
+    workspace: Tensor,
+) -> None: ...
+def cublas_gemm(
+    A: Tensor,
+    B: Tensor,
+    D: Tensor,
+    bias: Tensor,
+    pre_gelu_out: Tensor,
+    transa: bool,
+    transb: bool,
+    grad: bool,
+    workspace: Tensor,
+    accumulate: bool,
+    use_split_accumulator: bool,
+    math_sm_count: int,
+) -> None: ...
+def layernorm_fwd(
+    x: Tensor,
+    gamma: Tensor,
+    beta: Tensor,
+    epsilon: float,
+    z: Tensor,
+    mu: Tensor,
+    rsigma: Tensor,
+    multiprocessorCount: int,
+    workspace: Tensor,
+    barrier: Tensor,
+) -> None: ...
+def layernorm1p_fwd(
+    x: Tensor,
+    gamma: Tensor,
+    beta: Tensor,
+    epsilon: float,
+    z: Tensor,
+    mu: Tensor,
+    rsigma: Tensor,
+    multiprocessorCount: int,
+    workspace: Tensor,
+    barrier: Tensor,
+) -> None: ...
+def layernorm_bwd(
+    dz: Tensor,
+    x: Tensor,
+    mu: Tensor,
+    rsigma: Tensor,
+    gamma: Tensor,
+    dx: Tensor,
+    dgamma: Tensor,
+    dbeta: Tensor,
+    dgamma_part: Tensor,
+    dbeta_part: Tensor,
+    multiprocessorCount: int,
+    workspace: Tensor,
+    barrier: Tensor,
+) -> None: ...
+def layernorm1p_bwd(
+    dz: Tensor,
+    x: Tensor,
+    mu: Tensor,
+    rsigma: Tensor,
+    gamma: Tensor,
+    dx: Tensor,
+    dgamma: Tensor,
+    dbeta: Tensor,
+    dgamma_part: Tensor,
+    dbeta_part: Tensor,
+    multiprocessorCount: int,
+    workspace: Tensor,
+    barrier: Tensor,
+) -> None: ...
+def rmsnorm_fwd(
+    x: Tensor,
+    gamma: Tensor,
+    epsilon: float,
+    z: Tensor,
+    rsigma: Tensor,
+    multiprocessorCount: int,
+    workspace: Tensor,
+    barrier: Tensor,
+) -> None: ...
+def rmsnorm_bwd(
+    dz: Tensor,
+    x: Tensor,
+    rsigma: Tensor,
+    gamma: Tensor,
+    dx: Tensor,
+    dgamma: Tensor,
+    dgamma_part: Tensor,
+    multiprocessorCount: int,
+    workspace: Tensor,
+    barrier: Tensor,
+) -> None: ...
+def scaled_softmax_forward(
+    input: Tensor, softmax_results: Tensor, scale_factor: float
+) -> None: ...
+def scaled_softmax_backward(
+    incoming_grads: Tensor,
+    softmax_results: Tensor,
+    output_grads: Tensor,
+    scale_factor: float,
+) -> None: ...
+def scaled_masked_softmax_forward(
+    input: Tensor, mask: Tensor, softmax_results: Tensor, scale_factor: float
+) -> None: ...
+def scaled_masked_softmax_backward(
+    incoming_grads: Tensor,
+    softmax_results: Tensor,
+    output_grads: Tensor,
+    scale_factor: float,
+) -> None: ...
+def scaled_upper_triang_masked_softmax_forward(
+    input: Tensor, softmax_results: Tensor, scale_factor: float
+) -> None: ...
+def scaled_upper_triang_masked_softmax_backward(
+    incoming_grads: Tensor,
+    softmax_results: Tensor,
+    output_grads: Tensor,
+    scale_factor: float,
+) -> None: ...
+def cast_transpose(
+    input: Tensor, cast_output: Tensor, transposed_output: Tensor
+) -> None: ...
 def transpose(input: Tensor, transposed_output: Tensor) -> None: ...
-def cast_transpose_dbias(input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
-def fp8_transpose_dbias(input: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
-def cast_transpose_dbias_dgelu(input: Tensor, gelu_input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
-def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
-def multi_cast_transpose(input_list: Sequence[Tensor], cast_output_list: Sequence[Tensor], transposed_output_list: Sequence[Tensor]) -> None: ...
\ No newline at end of file
+def cast_transpose_dbias(
+    input: Tensor,
+    cast_output: Tensor,
+    transposed_output: Tensor,
+    dbias: Tensor,
+    workspace: Tensor,
+) -> None: ...
+def fp8_transpose_dbias(
+    input: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor
+) -> None: ...
+def cast_transpose_dbias_dgelu(
+    input: Tensor,
+    gelu_input: Tensor,
+    cast_output: Tensor,
+    transposed_output: Tensor,
+    dbias: Tensor,
+    workspace: Tensor,
+) -> None: ...
+def dgeglu_cast_transpose(
+    input: Tensor, geglu_input: Tensor, cast_output: Tensor, transposed_output: Tensor
+) -> None: ...
+def multi_cast_transpose(
+    input_list: Sequence[Tensor],
+    cast_output_list: Sequence[Tensor],
+    transposed_output_list: Sequence[Tensor],
+) -> None: ...
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/printing.py b/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
index e2ea686c98..36e6d8626b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
@@ -1,5 +1,6 @@
-# type: ignore[dynamic-code]
+from __future__ import annotations
 
+# type: ignore[dynamic-code]
 import torch
 from .real import Tensor, DType
 
diff --git a/transformer_engine/pytorch/sequential/meta.py b/transformer_engine/pytorch/sequential/meta.py
index cd5b47cb05..f8dff07bfa 100644
--- a/transformer_engine/pytorch/sequential/meta.py
+++ b/transformer_engine/pytorch/sequential/meta.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import torch
 from .persistent import Persistent
 from .recipe import Recipe
diff --git a/transformer_engine/pytorch/sequential/module/_common.py b/transformer_engine/pytorch/sequential/module/_common.py
index f76c6309f0..0614f9e697 100644
--- a/transformer_engine/pytorch/sequential/module/_common.py
+++ b/transformer_engine/pytorch/sequential/module/_common.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from typing import Callable
 import torch
 
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 98a690e33a..b7be1cfef1 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from abc import ABC, abstractmethod
 import torch
 from torch import nn
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 31e347bd22..2b74047533 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from math import sqrt
 import torch
 from torch import nn
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index a2006df7be..2d4a38ce34 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import torch
 from .. import cpp_extensions as _nvte
 from .dtype import torch_to_te_dtype
diff --git a/transformer_engine/pytorch/sequential/nvte/activation.py b/transformer_engine/pytorch/sequential/nvte/activation.py
index c1fa65cbba..7f5a94311f 100644
--- a/transformer_engine/pytorch/sequential/nvte/activation.py
+++ b/transformer_engine/pytorch/sequential/nvte/activation.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from .. import cpp_extensions as _nvte
 from .empty import empty
 
diff --git a/transformer_engine/pytorch/sequential/nvte/add.py b/transformer_engine/pytorch/sequential/nvte/add.py
index b76316ba0f..de33a3d135 100644
--- a/transformer_engine/pytorch/sequential/nvte/add.py
+++ b/transformer_engine/pytorch/sequential/nvte/add.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import torch
 from .. import cpp_extensions as _nvte
 
@@ -7,7 +8,7 @@
 
 def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
     if is_fp8(A) or is_fp8(B):
-        raise NotImplementedError() # TODO
+        raise NotImplementedError()  # TODO
     else:
         output = torch.empty(A.shape, dtype=te_to_torch_dtype(out_dtype), device="cuda")
         torch.add(A.data, B.data, out=output)
@@ -16,7 +17,7 @@ def add(A: _nvte.Tensor, B: _nvte.Tensor, out_dtype: _nvte.DType):
 
 def dbias(grad: _nvte.Tensor, out_dtype: _nvte.DType):
     if is_fp8(grad):
-        raise NotImplementedError() # TODO
+        raise NotImplementedError()  # TODO
     else:
         output = torch.sum(grad.data, dtype=te_to_torch_dtype(out_dtype), dim=0)
         return make_nvte_tensor(output)
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index 3f18fa8d72..557b690b66 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from .. import cpp_extensions as _nvte
 
 from .dtype import is_fp8
diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index 09669944e9..c2deca09f7 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import torch
 from .. import cpp_extensions as _nvte
 
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index f044f169e2..d6685488ba 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from typing import Sequence
 import torch
 from .. import cpp_extensions as _nvte
diff --git a/transformer_engine/pytorch/sequential/nvte/execution_state.py b/transformer_engine/pytorch/sequential/nvte/execution_state.py
index 67f0c8188f..a43d417b6c 100644
--- a/transformer_engine/pytorch/sequential/nvte/execution_state.py
+++ b/transformer_engine/pytorch/sequential/nvte/execution_state.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from typing import Literal
 import torch
 from ..utils import contextmanager
diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index 11e3079e79..8cee28b8d1 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from .dtype import is_fp8
 from .. import cpp_extensions as _nvte
 from .cast_transpose import cast_transpose_checked
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 335fd6f08b..3523b72ded 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import subprocess
 from ..utils import cache
 import torch
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index f02f117232..7815e4a2ea 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 import os
 import torch
 from ..utils import contextmanager, cache
diff --git a/transformer_engine/pytorch/sequential/ops_types.py b/transformer_engine/pytorch/sequential/ops_types.py
index a1fa721a80..4616bb1437 100644
--- a/transformer_engine/pytorch/sequential/ops_types.py
+++ b/transformer_engine/pytorch/sequential/ops_types.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from typing import Callable
 from typing_extensions import Unpack
 from . import nvte

From db25121f4f34825716a7fe181725c90d5fcb3ac3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:51:30 +0200
Subject: [PATCH 233/535] format .pyi

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.pyi    | 267 ++----------------
 1 file changed, 25 insertions(+), 242 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 04e43dbff6..932072dd64 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -41,14 +41,7 @@ class Tensor:
     amax: torch.Tensor
     scale: torch.Tensor
     scale_inv: torch.Tensor
-    def __init__(
-        self,
-        dtype: DType,
-        data: torch.Tensor,
-        amax: torch.Tensor,
-        scale: torch.Tensor,
-        scale_inv: torch.Tensor,
-    ) -> None: ...
+    def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
 
 def gelu(input: Tensor, output: Tensor) -> None: ...
 def dgelu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
@@ -62,238 +55,28 @@ def reglu(input: Tensor, output: Tensor) -> None: ...
 def dreglu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
 def fp8_quantize(input: Tensor, output: Tensor) -> None: ...
 def fp8_dequantize(input: Tensor, output: Tensor) -> None: ...
-def get_fused_attn_backend(
-    q_dtype: DType,
-    kv_dtype: DType,
-    qkv_layout: QKVLayout,
-    bias_type: BiasType,
-    attn_mask_type: MaskType,
-    dropout: float,
-    max_seqlen_q: int,
-    max_seqlen_kv: int,
-    head_dim: int,
-) -> FusedAttnBackend: ...
-def fused_attn_fwd_qkvpacked(
-    QKV: Tensor,
-    Bias: Tensor,
-    S: Tensor,
-    O: Tensor,
-    Aux_CTX_Tensors: Sequence[Tensor],
-    cu_seqlens: Tensor,
-    rng_state: Tensor,
-    max_seqlen: int,
-    is_training: bool,
-    attn_scale: float,
-    dropout: float,
-    qkv_layout: QKVLayout,
-    bias_type: BiasType,
-    attn_mask_type: MaskType,
-    workspace: Tensor,
-) -> None: ...
-def fused_attn_bwd_qkvpacked(
-    QKV: Tensor,
-    O: Tensor,
-    dO: Tensor,
-    S: Tensor,
-    dP: Tensor,
-    Aux_CTX_Tensors: Sequence[Tensor],
-    dQKV: Tensor,
-    dBias: Tensor,
-    cu_seqlens: Tensor,
-    max_seqlen: int,
-    attn_scale: float,
-    dropout: float,
-    qkv_layout: QKVLayout,
-    bias_type: BiasType,
-    attn_mask_type: MaskType,
-    workspace: Tensor,
-) -> None: ...
-def fused_attn_fwd_kvpacked(
-    Q: Tensor,
-    KV: Tensor,
-    Bias: Tensor,
-    S: Tensor,
-    O: Tensor,
-    Aux_CTX_Tensors: Sequence[Tensor],
-    cu_seqlens_q: Tensor,
-    cu_seqlens_kv: Tensor,
-    rng_state: Tensor,
-    max_seqlen_q: int,
-    max_seqlen_kv: int,
-    is_training: bool,
-    attn_scale: float,
-    dropout: float,
-    qkv_layout: QKVLayout,
-    bias_type: BiasType,
-    attn_mask_type: MaskType,
-    workspace: Tensor,
-) -> None: ...
-def fused_attn_bwd_kvpacked(
-    Q: Tensor,
-    KV: Tensor,
-    O: Tensor,
-    dO: Tensor,
-    S: Tensor,
-    dP: Tensor,
-    Aux_CTX_Tensors: Sequence[Tensor],
-    dQ: Tensor,
-    dKV: Tensor,
-    dBias: Tensor,
-    cu_seqlens_q: Tensor,
-    cu_seqlens_kv: Tensor,
-    max_seqlen_q: int,
-    max_seqlen_kv: int,
-    attn_scale: float,
-    dropout: float,
-    qkv_layout: QKVLayout,
-    bias_type: BiasType,
-    attn_mask_type: MaskType,
-    workspace: Tensor,
-) -> None: ...
-def cublas_gemm(
-    A: Tensor,
-    B: Tensor,
-    D: Tensor,
-    bias: Tensor,
-    pre_gelu_out: Tensor,
-    transa: bool,
-    transb: bool,
-    grad: bool,
-    workspace: Tensor,
-    accumulate: bool,
-    use_split_accumulator: bool,
-    math_sm_count: int,
-) -> None: ...
-def layernorm_fwd(
-    x: Tensor,
-    gamma: Tensor,
-    beta: Tensor,
-    epsilon: float,
-    z: Tensor,
-    mu: Tensor,
-    rsigma: Tensor,
-    multiprocessorCount: int,
-    workspace: Tensor,
-    barrier: Tensor,
-) -> None: ...
-def layernorm1p_fwd(
-    x: Tensor,
-    gamma: Tensor,
-    beta: Tensor,
-    epsilon: float,
-    z: Tensor,
-    mu: Tensor,
-    rsigma: Tensor,
-    multiprocessorCount: int,
-    workspace: Tensor,
-    barrier: Tensor,
-) -> None: ...
-def layernorm_bwd(
-    dz: Tensor,
-    x: Tensor,
-    mu: Tensor,
-    rsigma: Tensor,
-    gamma: Tensor,
-    dx: Tensor,
-    dgamma: Tensor,
-    dbeta: Tensor,
-    dgamma_part: Tensor,
-    dbeta_part: Tensor,
-    multiprocessorCount: int,
-    workspace: Tensor,
-    barrier: Tensor,
-) -> None: ...
-def layernorm1p_bwd(
-    dz: Tensor,
-    x: Tensor,
-    mu: Tensor,
-    rsigma: Tensor,
-    gamma: Tensor,
-    dx: Tensor,
-    dgamma: Tensor,
-    dbeta: Tensor,
-    dgamma_part: Tensor,
-    dbeta_part: Tensor,
-    multiprocessorCount: int,
-    workspace: Tensor,
-    barrier: Tensor,
-) -> None: ...
-def rmsnorm_fwd(
-    x: Tensor,
-    gamma: Tensor,
-    epsilon: float,
-    z: Tensor,
-    rsigma: Tensor,
-    multiprocessorCount: int,
-    workspace: Tensor,
-    barrier: Tensor,
-) -> None: ...
-def rmsnorm_bwd(
-    dz: Tensor,
-    x: Tensor,
-    rsigma: Tensor,
-    gamma: Tensor,
-    dx: Tensor,
-    dgamma: Tensor,
-    dgamma_part: Tensor,
-    multiprocessorCount: int,
-    workspace: Tensor,
-    barrier: Tensor,
-) -> None: ...
-def scaled_softmax_forward(
-    input: Tensor, softmax_results: Tensor, scale_factor: float
-) -> None: ...
-def scaled_softmax_backward(
-    incoming_grads: Tensor,
-    softmax_results: Tensor,
-    output_grads: Tensor,
-    scale_factor: float,
-) -> None: ...
-def scaled_masked_softmax_forward(
-    input: Tensor, mask: Tensor, softmax_results: Tensor, scale_factor: float
-) -> None: ...
-def scaled_masked_softmax_backward(
-    incoming_grads: Tensor,
-    softmax_results: Tensor,
-    output_grads: Tensor,
-    scale_factor: float,
-) -> None: ...
-def scaled_upper_triang_masked_softmax_forward(
-    input: Tensor, softmax_results: Tensor, scale_factor: float
-) -> None: ...
-def scaled_upper_triang_masked_softmax_backward(
-    incoming_grads: Tensor,
-    softmax_results: Tensor,
-    output_grads: Tensor,
-    scale_factor: float,
-) -> None: ...
-def cast_transpose(
-    input: Tensor, cast_output: Tensor, transposed_output: Tensor
-) -> None: ...
+def get_fused_attn_backend(q_dtype: DType, kv_dtype: DType, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, dropout: float, max_seqlen_q: int, max_seqlen_kv: int, head_dim: int) -> FusedAttnBackend: ...
+def fused_attn_fwd_qkvpacked(QKV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: Sequence[Tensor], cu_seqlens: Tensor, rng_state: Tensor, max_seqlen: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_bwd_qkvpacked(QKV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: Sequence[Tensor], dQKV: Tensor, dBias: Tensor, cu_seqlens: Tensor, max_seqlen: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_fwd_kvpacked(Q: Tensor, KV: Tensor, Bias: Tensor, S: Tensor, O: Tensor, Aux_CTX_Tensors: Sequence[Tensor], cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, rng_state: Tensor, max_seqlen_q: int, max_seqlen_kv: int, is_training: bool, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def fused_attn_bwd_kvpacked(Q: Tensor, KV: Tensor, O: Tensor, dO: Tensor, S: Tensor, dP: Tensor, Aux_CTX_Tensors: Sequence[Tensor], dQ: Tensor, dKV: Tensor, dBias: Tensor, cu_seqlens_q: Tensor, cu_seqlens_kv: Tensor, max_seqlen_q: int, max_seqlen_kv: int, attn_scale: float, dropout: float, qkv_layout: QKVLayout, bias_type: BiasType, attn_mask_type: MaskType, workspace: Tensor) -> None: ...
+def cublas_gemm(A: Tensor, B: Tensor, D: Tensor, bias: Tensor, pre_gelu_out: Tensor, transa: bool, transb: bool, grad: bool, workspace: Tensor, accumulate: bool, use_split_accumulator: bool, math_sm_count: int) -> None: ...
+def layernorm_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def layernorm1p_fwd(x: Tensor, gamma: Tensor, beta: Tensor, epsilon: float, z: Tensor, mu: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def layernorm_bwd(dz: Tensor, x: Tensor, mu: Tensor, rsigma: Tensor, gamma: Tensor, dx: Tensor, dgamma: Tensor, dbeta: Tensor, dgamma_part: Tensor, dbeta_part: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def layernorm1p_bwd(dz: Tensor, x: Tensor, mu: Tensor, rsigma: Tensor, gamma: Tensor, dx: Tensor, dgamma: Tensor, dbeta: Tensor, dgamma_part: Tensor, dbeta_part: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def rmsnorm_fwd(x: Tensor, gamma: Tensor, epsilon: float, z: Tensor, rsigma: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def rmsnorm_bwd(dz: Tensor, x: Tensor, rsigma: Tensor, gamma: Tensor, dx: Tensor, dgamma: Tensor, dgamma_part: Tensor, multiprocessorCount: int, workspace: Tensor, barrier: Tensor) -> None: ...
+def scaled_softmax_forward(input: Tensor, softmax_results: Tensor, scale_factor: float) -> None: ...
+def scaled_softmax_backward(incoming_grads: Tensor, softmax_results: Tensor, output_grads: Tensor, scale_factor: float) -> None: ...
+def scaled_masked_softmax_forward(input: Tensor, mask: Tensor, softmax_results: Tensor, scale_factor: float) -> None: ...
+def scaled_masked_softmax_backward(incoming_grads: Tensor, softmax_results: Tensor, output_grads: Tensor, scale_factor: float) -> None: ...
+def scaled_upper_triang_masked_softmax_forward(input: Tensor, softmax_results: Tensor, scale_factor: float) -> None: ...
+def scaled_upper_triang_masked_softmax_backward(incoming_grads: Tensor, softmax_results: Tensor, output_grads: Tensor, scale_factor: float) -> None: ...
+def cast_transpose(input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
 def transpose(input: Tensor, transposed_output: Tensor) -> None: ...
-def cast_transpose_dbias(
-    input: Tensor,
-    cast_output: Tensor,
-    transposed_output: Tensor,
-    dbias: Tensor,
-    workspace: Tensor,
-) -> None: ...
-def fp8_transpose_dbias(
-    input: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor
-) -> None: ...
-def cast_transpose_dbias_dgelu(
-    input: Tensor,
-    gelu_input: Tensor,
-    cast_output: Tensor,
-    transposed_output: Tensor,
-    dbias: Tensor,
-    workspace: Tensor,
-) -> None: ...
-def dgeglu_cast_transpose(
-    input: Tensor, geglu_input: Tensor, cast_output: Tensor, transposed_output: Tensor
-) -> None: ...
-def multi_cast_transpose(
-    input_list: Sequence[Tensor],
-    cast_output_list: Sequence[Tensor],
-    transposed_output_list: Sequence[Tensor],
-) -> None: ...
+def cast_transpose_dbias(input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
+def fp8_transpose_dbias(input: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
+def cast_transpose_dbias_dgelu(input: Tensor, gelu_input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
+def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
+def multi_cast_transpose(input_list: Sequence[Tensor], cast_output_list: Sequence[Tensor], transposed_output_list: Sequence[Tensor]) -> None: ...
\ No newline at end of file

From 38ca18ab9ff9a7a464b2ec2f06f32a423c92cb90 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:55:21 +0200
Subject: [PATCH 234/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py | 15 ++++++++++++++-
 1 file changed, 14 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 3c89f5bc0d..f042ce2740 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,4 +1,17 @@
 from typing import Any
 from .real import *
 
-# from . import printing  <- TODO
+from . import printing
+
+raw_tensor = globals().pop("Tensor")
+
+
+class __TensorImpostor:
+    def __getattribute__(self, __name: str) -> Any:
+        if __name == "__repr__":
+            return printing.tensor_repr  # type: ignore
+        else:
+            return getattr(raw_tensor, __name)
+
+
+Tensor = __TensorImpostor()

From 53e6877a6b5d61579b82470c5471fa9dc50b86d8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:57:11 +0200
Subject: [PATCH 235/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py              | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index f042ce2740..379f58f124 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -13,5 +13,8 @@ def __getattribute__(self, __name: str) -> Any:
         else:
             return getattr(raw_tensor, __name)
 
+    def __call__(self, *args: Any, **kwargs: Any):
+        return raw_tensor(*args, **kwargs)  # type: ignore
+
 
 Tensor = __TensorImpostor()

From 893a85449c0b9a7c54a08d05d44e04e1f6b016a8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 19:59:18 +0200
Subject: [PATCH 236/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py     | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 379f58f124..bc1b8454cd 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -13,8 +13,15 @@ def __getattribute__(self, __name: str) -> Any:
         else:
             return getattr(raw_tensor, __name)
 
-    def __call__(self, *args: Any, **kwargs: Any):
-        return raw_tensor(*args, **kwargs)  # type: ignore
+    def __call__(
+        self,
+        self_: Any,
+        dtype: Any,
+        data: torch.Tensor,
+        scale: torch.Tensor,
+        scale_inv: torch.Tensor,
+    ):
+        return raw_tensor(self_, dtype.value, data, scale, scale_inv)  # type: ignore
 
 
 Tensor = __TensorImpostor()

From b56c98d65b0941707058ae2a18af23bd6c9a86d1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 20:00:04 +0200
Subject: [PATCH 237/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py              | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index bc1b8454cd..3cdbe1dcb2 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -15,13 +15,12 @@ def __getattribute__(self, __name: str) -> Any:
 
     def __call__(
         self,
-        self_: Any,
         dtype: Any,
         data: torch.Tensor,
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        return raw_tensor(self_, dtype.value, data, scale, scale_inv)  # type: ignore
+        return raw_tensor(self, dtype.value, data, scale, scale_inv)  # type: ignore
 
 
 Tensor = __TensorImpostor()

From f3a3fd3f6d84f56e4da78c9924c58c227b3e941f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 20:01:02 +0200
Subject: [PATCH 238/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py              | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 3cdbe1dcb2..839ed96e7b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -17,10 +17,11 @@ def __call__(
         self,
         dtype: Any,
         data: torch.Tensor,
+        amax: torch.Tensor,
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        return raw_tensor(self, dtype.value, data, scale, scale_inv)  # type: ignore
+        return raw_tensor(self, dtype.value, data, amax, scale, scale_inv)  # type: ignore
 
 
 Tensor = __TensorImpostor()

From 57e9c4aa831511af2225446df234bbbd25310dc6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 20:02:02 +0200
Subject: [PATCH 239/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py               | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 839ed96e7b..d6555631bd 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -21,7 +21,7 @@ def __call__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        return raw_tensor(self, dtype.value, data, amax, scale, scale_inv)  # type: ignore
+        return raw_tensor(dtype.value, data, amax, scale, scale_inv)  # type: ignore
 
 
 Tensor = __TensorImpostor()

From 3b1c7870e4526efd800fbfe0389a08a5190b2e13 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 20:03:08 +0200
Subject: [PATCH 240/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/fusions/__init__.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/fusions/__init__.py b/transformer_engine/pytorch/sequential/fusions/__init__.py
index 68fe015793..ff8398f261 100644
--- a/transformer_engine/pytorch/sequential/fusions/__init__.py
+++ b/transformer_engine/pytorch/sequential/fusions/__init__.py
@@ -1,6 +1,5 @@
 from .interface import FusedOp, get_fused_op_list
 from ..utils import import_file_as_module
-
-import_file_as_module("mmt", only_for_side_effects=True)
+from . import mmt  # only for side effects
 
 __all__ = ["FusedOp", "get_fused_op_list"]

From 9cb141aff232929ea178d2bab4a11c1ec7b5d2ab Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 20:05:15 +0200
Subject: [PATCH 241/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 35 ++++++++-----------
 1 file changed, 14 insertions(+), 21 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index b540cac298..b376f1a516 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -126,17 +126,13 @@ def get_arg_types(f: Callable[..., Any]) -> list[type]:
     annotations = typing.get_type_hints(f)
     annotations.pop("return", None)
     arg_type_annotations = tuple(annotations.values())
-    if not all(isinstance(val, (str, type)) for val in arg_type_annotations):
-        raise ValueError("Unsupported function (type annotations not supported)")
-    else:
-        arg_types = [
-            ast.literal_eval(val) if isinstance(val, str) else val
-            for val in arg_type_annotations
-        ]
-        if not all(isinstance(val, type) for val in arg_types):
-            raise ValueError("Unsupported function (type annotations not supported)")
 
-        return arg_types
+    arg_types = [
+        ast.literal_eval(val) if isinstance(val, str) else val
+        for val in arg_type_annotations
+    ]
+
+    return arg_types
 
 
 def get_return_type(f: Callable[..., T]) -> type[T]:
@@ -144,14 +140,11 @@ def get_return_type(f: Callable[..., T]) -> type[T]:
     import ast
 
     return_annotation = typing.get_type_hints(f)["return"]
-    if not isinstance(return_annotation, (str, type)):
-        raise ValueError("Unsupported function (type annotations not supported)")
-    else:
-        return_type = (
-            ast.literal_eval(return_annotation)
-            if isinstance(return_annotation, str)
-            else return_annotation
-        )
-        if not isinstance(return_type, type):
-            raise ValueError("Unsupported function (type annotations not supported)")
-        return return_type  # type: ignore
+
+    return_type = (
+        ast.literal_eval(return_annotation)
+        if isinstance(return_annotation, str)
+        else return_annotation
+    )
+
+    return return_type  # type: ignore

From 2466bfed6320c9fcadfb96e446ea5a68733cff3b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 20:07:44 +0200
Subject: [PATCH 242/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/dtype.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index c2deca09f7..f807a9ef09 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -86,8 +86,8 @@ def dtype_name(dtype: _nvte.DType):
 
 
 def is_fp8(t: _nvte.Tensor | _nvte.DType):
-    if isinstance(t, _nvte.Tensor):
-        dtype = t.dtype
-    else:
+    if isinstance(t, _nvte.DType):
         dtype = t
+    else:
+        dtype = t.dtype
     return dtype == _nvte.DType.Float8E4M3 or dtype == _nvte.DType.Float8E5M2

From 6e00f8862ca9a0c2f0c21387a00ff35b229a5fed Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 20:11:05 +0200
Subject: [PATCH 243/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/real.py | 29 +++++++++++--------
 1 file changed, 17 insertions(+), 12 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/real.py b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
index ffd20d498b..872195344c 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/real.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
@@ -58,19 +58,24 @@ def to_dict(l: list[tuple[T1, T2]], /) -> dict[T1, T2]:
         real_func = real_function(func_name)
         exposed_return_type: type = get_return_type(func_obj)
 
-        def wrapper(*args: Any) -> Any:
-            real_args = ()
-            for arg in args:
-                if isinstance(arg, Enum):
-                    real_args += (arg.value,)
+        def make_wrapper(func_obj: Any):
+            def wrapper(*args: Any) -> Any:
+                real_args = ()
+                for arg in args:
+                    if isinstance(arg, Enum):
+                        real_args += (arg.value,)
+                    else:
+                        real_args += (arg,)
+                result: Any = real_func(*real_args)
+                if issubclass(exposed_return_type, Enum):
+                    assert isinstance(result, int)
+                    return exposed_return_type(result)  # type: ignore
                 else:
-                    real_args += (arg,)
-            result: Any = real_func(*real_args)
-            if issubclass(exposed_return_type, Enum):
-                assert isinstance(result, int)
-                return exposed_return_type(result)  # type: ignore
-            else:
-                return result
+                    return result
+
+            return wrapper
+
+        wrapper = make_wrapper(func_obj)
 
         wrapper.__name__ = func_name
         wrapper.__annotations__ = func_obj.__annotations__

From c3926afd4918f9e397eebec62200601dbf99cb56 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 20:16:53 +0200
Subject: [PATCH 244/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cpp_extensions/real.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/real.py b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
index 872195344c..b186c85329 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/real.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
@@ -55,10 +55,9 @@ def to_dict(l: list[tuple[T1, T2]], /) -> dict[T1, T2]:
         namespace[class_name] = real_type(class_name)
 
     for func_name, func_obj in stub_functions.items():
-        real_func = real_function(func_name)
         exposed_return_type: type = get_return_type(func_obj)
 
-        def make_wrapper(func_obj: Any):
+        def make_wrapper(real_func: Any):
             def wrapper(*args: Any) -> Any:
                 real_args = ()
                 for arg in args:
@@ -75,7 +74,7 @@ def wrapper(*args: Any) -> Any:
 
             return wrapper
 
-        wrapper = make_wrapper(func_obj)
+        wrapper = make_wrapper(real_function(func_name))
 
         wrapper.__name__ = func_name
         wrapper.__annotations__ = func_obj.__annotations__

From f4857a0f81d33def7fb24f6d335b998820128c4e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 20:24:30 +0200
Subject: [PATCH 245/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py             | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index d6555631bd..13eeb00548 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -23,5 +23,9 @@ def __call__(
     ):
         return raw_tensor(dtype.value, data, amax, scale, scale_inv)  # type: ignore
 
+    def dtype(self, self_: Any):  # type: ignore
+        raw_dtype = raw_tensor.dtype(self_)  # type: ignore
+        return DType(raw_dtype)  # type: ignore
+
 
 Tensor = __TensorImpostor()

From 897c60c23a771a53540e96c28c5d71bc82d77fae Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 21:01:21 +0200
Subject: [PATCH 246/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 27 ++++++++++---------
 1 file changed, 15 insertions(+), 12 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 13eeb00548..7dced7139b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -7,25 +7,28 @@
 
 
 class __TensorImpostor:
-    def __getattribute__(self, __name: str) -> Any:
-        if __name == "__repr__":
-            return printing.tensor_repr  # type: ignore
-        else:
-            return getattr(raw_tensor, __name)
+    __raw: object
 
+    def __init__(self, __raw: object):
+        self.__raw = __raw
+
+    def __repr__(self) -> str:
+        return printing.tensor_repr(self.__raw)  # type: ignore
+
+    def __getattr__(self, __name: str) -> Any:
+        return getattr(self.__raw, __name)
+
+
+class __TensorTypeImpostor:
     def __call__(
         self,
-        dtype: Any,
+        dtype: Enum,
         data: torch.Tensor,
         amax: torch.Tensor,
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        return raw_tensor(dtype.value, data, amax, scale, scale_inv)  # type: ignore
-
-    def dtype(self, self_: Any):  # type: ignore
-        raw_dtype = raw_tensor.dtype(self_)  # type: ignore
-        return DType(raw_dtype)  # type: ignore
+        return __TensorImpostor(raw_tensor(dtype.value, data, amax, scale, scale_inv))  # type: ignore
 
 
-Tensor = __TensorImpostor()
+Tensor = __TensorTypeImpostor()

From dcadf8d5fff78212e97bcce7f3d2e917a534d357 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 21:03:58 +0200
Subject: [PATCH 247/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py         | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 7dced7139b..ea4cec71dc 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -6,7 +6,7 @@
 raw_tensor = globals().pop("Tensor")
 
 
-class __TensorImpostor:
+class _TensorImpostor:
     __raw: object
 
     def __init__(self, __raw: object):
@@ -19,7 +19,7 @@ def __getattr__(self, __name: str) -> Any:
         return getattr(self.__raw, __name)
 
 
-class __TensorTypeImpostor:
+class _TensorTypeImpostor:
     def __call__(
         self,
         dtype: Enum,
@@ -28,7 +28,7 @@ def __call__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        return __TensorImpostor(raw_tensor(dtype.value, data, amax, scale, scale_inv))  # type: ignore
+        return _TensorImpostor(raw_tensor(dtype.value, data, amax, scale, scale_inv))  # type: ignore
 
 
-Tensor = __TensorTypeImpostor()
+Tensor = _TensorTypeImpostor()

From 981721e7c7799e883ac230cdc3b7683047f3dede Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 21:05:32 +0200
Subject: [PATCH 248/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py             | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index ea4cec71dc..09e79d1dcf 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -18,6 +18,10 @@ def __repr__(self) -> str:
     def __getattr__(self, __name: str) -> Any:
         return getattr(self.__raw, __name)
 
+    @property
+    def dtype(self):
+        return DType(self.__raw.dtype)  # type: ignore
+
 
 class _TensorTypeImpostor:
     def __call__(

From c80ac840ac1364a6b3b4d35e62258f513fab818c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 24 Aug 2023 21:08:30 +0200
Subject: [PATCH 249/535] fix load issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index b376f1a516..e5ff1f696c 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -30,7 +30,11 @@ def __exit__(
         exc_value: ExcT,
         exc_traceback: TracebackType,
     ):
-        next(self.gen)
+        try:
+            next(self.gen)
+        except StopIteration:
+            # Discard exception, it is expected
+            pass
 
 
 class contextmanager(Generic[PS, T]):

From f936ed8b17fc8f3dea71f831bcc6a9f08ca0cd09 Mon Sep 17 00:00:00 2001
From: Jan Bielak <janekb04@icloud.com>
Date: Fri, 25 Aug 2023 09:13:49 +0200
Subject: [PATCH 250/535] Simplify Tensor wrapper

---
 .../sequential/cpp_extensions/__init__.py     | 37 +++++++++----------
 1 file changed, 17 insertions(+), 20 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 09e79d1dcf..85b2523421 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -3,36 +3,33 @@
 
 from . import printing
 
-raw_tensor = globals().pop("Tensor")
+_Tensor = globals().pop("Tensor")
 
-
-class _TensorImpostor:
+# Quacks like a Tensor. </joke>
+class Tensor:
     __raw: object
 
-    def __init__(self, __raw: object):
-        self.__raw = __raw
+    def __init__(
+        self,
+        dtype: Enum,
+        data: torch.Tensor,
+        amax: torch.Tensor,
+        scale: torch.Tensor,
+        scale_inv: torch.Tensor,
+    ):
+        self.__raw = _Tensor(dtype.value, data, amax, scale, scale_inv)  # type: ignore
 
     def __repr__(self) -> str:
         return printing.tensor_repr(self.__raw)  # type: ignore
 
+    # Note: cannot inherit from _Tensor as
+    # it is a torch.ScriptClass, and those,
+    # for some reason, do not support being
+    # inherited from. Using __getattr__ to
+    # work around this limitation.
     def __getattr__(self, __name: str) -> Any:
         return getattr(self.__raw, __name)
 
     @property
     def dtype(self):
         return DType(self.__raw.dtype)  # type: ignore
-
-
-class _TensorTypeImpostor:
-    def __call__(
-        self,
-        dtype: Enum,
-        data: torch.Tensor,
-        amax: torch.Tensor,
-        scale: torch.Tensor,
-        scale_inv: torch.Tensor,
-    ):
-        return _TensorImpostor(raw_tensor(dtype.value, data, amax, scale, scale_inv))  # type: ignore
-
-
-Tensor = _TensorTypeImpostor()

From f4645f0dd4ea38ebe6a8353af8ecb451508ba268 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 10:37:19 +0200
Subject: [PATCH 251/535] type ignore in cpp wrapper

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py         | 8 +++++---
 1 file changed, 5 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 85b2523421..e57c3cec90 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,3 +1,4 @@
+# type: ignore
 from typing import Any
 from .real import *
 
@@ -5,6 +6,7 @@
 
 _Tensor = globals().pop("Tensor")
 
+
 # Quacks like a Tensor. </joke>
 class Tensor:
     __raw: object
@@ -17,10 +19,10 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        self.__raw = _Tensor(dtype.value, data, amax, scale, scale_inv)  # type: ignore
+        self.__raw = _Tensor(dtype.value, data, amax, scale, scale_inv)
 
     def __repr__(self) -> str:
-        return printing.tensor_repr(self.__raw)  # type: ignore
+        return printing.tensor_repr(self.__raw)
 
     # Note: cannot inherit from _Tensor as
     # it is a torch.ScriptClass, and those,
@@ -32,4 +34,4 @@ def __getattr__(self, __name: str) -> Any:
 
     @property
     def dtype(self):
-        return DType(self.__raw.dtype)  # type: ignore
+        return DType(self.__raw.dtype)

From 3ef3a2e97ee2575efa7ba6eeff5fd191a17efde3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 10:37:38 +0200
Subject: [PATCH 252/535] use namedtuple instead of dataclass, as torch compile
 doesnt like it

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py         | 6 ++----
 transformer_engine/pytorch/sequential/recipe.py             | 6 ++----
 2 files changed, 4 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 8be72e9964..75323bc1c0 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,9 +1,8 @@
 from __future__ import annotations
-from dataclasses import dataclass
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-from typing import Final
+from typing import Final, NamedTuple
 from .persistent import Persistent
 from . import nvte
 from .ops import Context, Op
@@ -12,8 +11,7 @@
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
 
-@dataclass
-class ForwardArgs:
+class ForwardArgs(NamedTuple):
     nvte_x: nvte.Tensor
     is_exposed_x_squished_now: bool
     upcoming_backward: BackwardComm | None
diff --git a/transformer_engine/pytorch/sequential/recipe.py b/transformer_engine/pytorch/sequential/recipe.py
index 6dc42fd59f..3abb852f96 100644
--- a/transformer_engine/pytorch/sequential/recipe.py
+++ b/transformer_engine/pytorch/sequential/recipe.py
@@ -1,7 +1,6 @@
 from __future__ import annotations
-from typing import Callable, TypeVar, ClassVar
+from typing import Callable, TypeVar, ClassVar, NamedTuple
 from types import TracebackType
-from dataclasses import dataclass
 from .cpp_extensions import DType
 import torch
 
@@ -20,8 +19,7 @@ def _default_scaling_factor_compute_method(
     out.fill_(1.0)  # TODO
 
 
-@dataclass
-class Recipe:
+class Recipe(NamedTuple):
     amax_history_len: int = 1024
     amax_reduction_period: int = 10
     amax_reduction_method: Callable[

From f78a2f5d60c75c9748fa517c0d6165e85acf55c7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 10:42:08 +0200
Subject: [PATCH 253/535] avoid ClassVar in NamedTuple

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/recipe.py | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/recipe.py b/transformer_engine/pytorch/sequential/recipe.py
index 3abb852f96..38ef43b0f5 100644
--- a/transformer_engine/pytorch/sequential/recipe.py
+++ b/transformer_engine/pytorch/sequential/recipe.py
@@ -19,6 +19,9 @@ def _default_scaling_factor_compute_method(
     out.fill_(1.0)  # TODO
 
 
+_recipe_stack: list[Recipe] = []
+
+
 class Recipe(NamedTuple):
     amax_history_len: int = 1024
     amax_reduction_period: int = 10
@@ -31,18 +34,16 @@ class Recipe(NamedTuple):
     lowp: DType = DType.Float32
     world_size: int = 1
 
-    recipe_stack: ClassVar[list[Recipe]] = []  # static
-
     def __enter__(self):
-        Recipe.recipe_stack.append(self)
+        _recipe_stack.append(self)
 
     def __exit__(self, exc_type: type[T], exc_value: T, exc_traceback: TracebackType):
-        assert Recipe.recipe_stack[-1] is self
-        Recipe.recipe_stack.pop()
+        assert _recipe_stack[-1] is self
+        _recipe_stack.pop()
 
     @staticmethod
     def current() -> Recipe:
-        return Recipe.recipe_stack[-1]
+        return _recipe_stack[-1]
 
 
-Recipe.recipe_stack.append(Recipe())
+_recipe_stack.append(Recipe())

From e5d0bcbb7c11e9b69475377c971f31dd95ed092a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 10:46:27 +0200
Subject: [PATCH 254/535] fix Tensor construction

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py               | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index e57c3cec90..ca8e9ac740 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -19,7 +19,7 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        self.__raw = _Tensor(dtype.value, data, amax, scale, scale_inv)
+        self.__raw = _Tensor.__new__(_Tensor, dtype.value, data, amax, scale, scale_inv)
 
     def __repr__(self) -> str:
         return printing.tensor_repr(self.__raw)

From cc446e5354b61b0abc9c096d15d8f261e30d4a24 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 11:15:10 +0200
Subject: [PATCH 255/535] sidestep torch issues

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 45 +++++++++++++------
 .../pytorch/sequential/cppsrc/pybind.cpp      | 19 ++++++++
 2 files changed, 51 insertions(+), 13 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index ca8e9ac740..1c978db5e4 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -4,10 +4,17 @@
 
 from . import printing
 
-_Tensor = globals().pop("Tensor")
+globals().pop("Tensor")
 
 
 # Quacks like a Tensor. </joke>
+# Note: cannot inherit from _Tensor as
+# it is a torch.ScriptClass, and those,
+# for some reason, do not support being
+# inherited from.
+# Also, having to use free functions
+# as ScriptClass methods are not
+# torch.compile friendly.
 class Tensor:
     __raw: object
 
@@ -19,19 +26,31 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        self.__raw = _Tensor.__new__(_Tensor, dtype.value, data, amax, scale, scale_inv)
+        self.__raw = make_tensor(dtype.value, data, amax, scale, scale_inv)
 
-    def __repr__(self) -> str:
-        return printing.tensor_repr(self.__raw)
+    @property
+    def dtype(self) -> DType:
+        return DType(get_tensor_dtype(self.__raw))
 
-    # Note: cannot inherit from _Tensor as
-    # it is a torch.ScriptClass, and those,
-    # for some reason, do not support being
-    # inherited from. Using __getattr__ to
-    # work around this limitation.
-    def __getattr__(self, __name: str) -> Any:
-        return getattr(self.__raw, __name)
+    @property
+    def shape(self) -> tuple[int, ...]:
+        return tuple(get_tensor_shape(self.__raw))
 
     @property
-    def dtype(self):
-        return DType(self.__raw.dtype)
+    def data(self) -> torch.Tensor:
+        return get_tensor_data(self.__raw)
+
+    @property
+    def amax(self) -> torch.Tensor:
+        return get_tensor_amax(self.__raw)
+
+    @property
+    def scale(self) -> torch.Tensor:
+        return get_tensor_scale(self.__raw)
+
+    @property
+    def scale_inv(self) -> torch.Tensor:
+        return get_tensor_scale_inv(self.__raw)
+
+    def __repr__(self) -> str:
+        return printing.tensor_repr(self.__raw)
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index aaaf6e0c2c..30f7ea6d5c 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -287,6 +287,25 @@ TORCH_LIBRARY(transformer_engine_cuda, m) {
       .def_readonly("scale", &Tensor::scale)
       .def_readonly("scale_inv", &Tensor::scale_inv);
 
+  m.def("make_tensor", [](int64_t dtype, at::Tensor data, at::Tensor amax,
+                          at::Tensor scale, at::Tensor scale_inv) {
+    return c10::make_intrusive<Tensor>(dtype, data, amax, scale, scale_inv);
+  });
+  m.def("get_tensor_dtype", [](const c10::intrusive_ptr<Tensor> &self) {
+    return (int64_t)nvte_tensor_type((NVTETensor)(self->pimpl.get()));
+  });
+  m.def("get_tensor_shape", [](const c10::intrusive_ptr<Tensor> &self) {
+    NVTEShape s = nvte_tensor_shape((NVTETensor)(self->pimpl.get()));
+    return std::vector<int64_t>(s.data, s.data + s.ndim);
+  });
+  m.def("get_tensor_data",
+        [](const c10::intrusive_ptr<Tensor> &self) { return self->data; });
+  m.def("get_tensor_amax",
+        [](const c10::intrusive_ptr<Tensor> &self) { return self->amax; });
+  m.def("get_tensor_scale",
+        [](const c10::intrusive_ptr<Tensor> &self) { return self->scale; });
+  m.def("get_tensor_scale_inv",
+        [](const c10::intrusive_ptr<Tensor> &self) { return self->scale_inv; });
   m.def("gelu", wrap(nvte_gelu));
   m.def("dgelu", wrap(nvte_dgelu));
   m.def("geglu", wrap(nvte_geglu));

From 79fc740d80ccd5be6a5ebb3e73f49613b80d9449 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 11:23:09 +0200
Subject: [PATCH 256/535] expose tensor methods as operators

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 14 +++++++-------
 .../sequential/cpp_extensions/__init__.pyi    |  7 +++++++
 .../pytorch/sequential/cppsrc/pybind.cpp      | 19 +++++++++----------
 3 files changed, 23 insertions(+), 17 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 1c978db5e4..1a74650bfc 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -26,31 +26,31 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        self.__raw = make_tensor(dtype.value, data, amax, scale, scale_inv)
+        self.__raw = _make_tensor(dtype.value, data, amax, scale, scale_inv)
 
     @property
     def dtype(self) -> DType:
-        return DType(get_tensor_dtype(self.__raw))
+        return DType(_get_tensor_dtype(self.__raw))
 
     @property
     def shape(self) -> tuple[int, ...]:
-        return tuple(get_tensor_shape(self.__raw))
+        return tuple(_get_tensor_shape(self.__raw))
 
     @property
     def data(self) -> torch.Tensor:
-        return get_tensor_data(self.__raw)
+        return _get_tensor_data(self.__raw)
 
     @property
     def amax(self) -> torch.Tensor:
-        return get_tensor_amax(self.__raw)
+        return _get_tensor_amax(self.__raw)
 
     @property
     def scale(self) -> torch.Tensor:
-        return get_tensor_scale(self.__raw)
+        return _get_tensor_scale(self.__raw)
 
     @property
     def scale_inv(self) -> torch.Tensor:
-        return get_tensor_scale_inv(self.__raw)
+        return _get_tensor_scale_inv(self.__raw)
 
     def __repr__(self) -> str:
         return printing.tensor_repr(self.__raw)
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 932072dd64..16f73961c4 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -43,6 +43,13 @@ class Tensor:
     scale_inv: torch.Tensor
     def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
 
+def _make_tensor(dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> Tensor: ...
+def _get_tensor_dtype(self: Tensor) -> DType: ...
+def _get_tensor_shape(self: Tensor) -> Sequence[int]: ...
+def _get_tensor_amax(self: Tensor) -> torch.Tensor: ...
+def _get_tensor_scale(self: Tensor) -> torch.Tensor: ...
+def _get_tensor_scale_inv(self: Tensor) -> torch.Tensor: ...
+
 def gelu(input: Tensor, output: Tensor) -> None: ...
 def dgelu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
 def geglu(input: Tensor, output: Tensor) -> None: ...
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 30f7ea6d5c..8f731c63c8 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -1,6 +1,5 @@
 /*************************************************************************
- * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights
- *reserved.
+ * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
  *
  * See LICENSE for license information.
  ************************************************************************/
@@ -287,24 +286,24 @@ TORCH_LIBRARY(transformer_engine_cuda, m) {
       .def_readonly("scale", &Tensor::scale)
       .def_readonly("scale_inv", &Tensor::scale_inv);
 
-  m.def("make_tensor", [](int64_t dtype, at::Tensor data, at::Tensor amax,
-                          at::Tensor scale, at::Tensor scale_inv) {
+  m.def("_make_tensor", [](int64_t dtype, at::Tensor data, at::Tensor amax,
+                           at::Tensor scale, at::Tensor scale_inv) {
     return c10::make_intrusive<Tensor>(dtype, data, amax, scale, scale_inv);
   });
-  m.def("get_tensor_dtype", [](const c10::intrusive_ptr<Tensor> &self) {
+  m.def("_get_tensor_dtype", [](const c10::intrusive_ptr<Tensor> &self) {
     return (int64_t)nvte_tensor_type((NVTETensor)(self->pimpl.get()));
   });
-  m.def("get_tensor_shape", [](const c10::intrusive_ptr<Tensor> &self) {
+  m.def("_get_tensor_shape", [](const c10::intrusive_ptr<Tensor> &self) {
     NVTEShape s = nvte_tensor_shape((NVTETensor)(self->pimpl.get()));
     return std::vector<int64_t>(s.data, s.data + s.ndim);
   });
-  m.def("get_tensor_data",
+  m.def("_get_tensor_data",
         [](const c10::intrusive_ptr<Tensor> &self) { return self->data; });
-  m.def("get_tensor_amax",
+  m.def("_get_tensor_amax",
         [](const c10::intrusive_ptr<Tensor> &self) { return self->amax; });
-  m.def("get_tensor_scale",
+  m.def("_get_tensor_scale",
         [](const c10::intrusive_ptr<Tensor> &self) { return self->scale; });
-  m.def("get_tensor_scale_inv",
+  m.def("_get_tensor_scale_inv",
         [](const c10::intrusive_ptr<Tensor> &self) { return self->scale_inv; });
   m.def("gelu", wrap(nvte_gelu));
   m.def("dgelu", wrap(nvte_dgelu));

From e48dc35481e7ea73054b2861b478a7f41d5e7fa6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 15:46:35 +0200
Subject: [PATCH 257/535] fix compile issues

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 42 ++++++++-
 .../sequential/cpp_extensions/__init__.pyi    | 12 +--
 .../pytorch/sequential/cppsrc/pybind.cpp      | 91 ++++++++-----------
 3 files changed, 84 insertions(+), 61 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 1a74650bfc..acabacd5d3 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,10 +1,39 @@
 # type: ignore
-from typing import Any
+from __future__ import annotations
 from .real import *
 
 from . import printing
 
-globals().pop("Tensor")
+_TensorHandle = globals().pop("Tensor")
+
+# Use n object pool, as torch compile
+# does not like creating ScriptClass
+# objects on the fly.
+tensor_handles = {}
+
+
+def allocate_handles():
+    HANDLE_COUNT = 1024
+    for _ in range(HANDLE_COUNT):
+        tensor_handles.append(_TensorHandle())
+
+
+# Preallocate some tensors
+allocate_handles()
+
+
+def make_tensor(
+    dtype: DType,
+    data: torch.Tensor,
+    amax: torch.Tensor,
+    scale: torch.Tensor,
+    scale_inv: torch.Tensor,
+):
+    if not tensor_handles:
+        allocate_handles()
+    handle = tensor_handles.pop()
+    reset_tensor(handle, dtype, data, amax, scale, scale_inv)
+    return handle
 
 
 # Quacks like a Tensor. </joke>
@@ -26,7 +55,7 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        self.__raw = _make_tensor(dtype.value, data, amax, scale, scale_inv)
+        self.__raw = make_tensor(dtype.value, data, amax, scale, scale_inv)
 
     @property
     def dtype(self) -> DType:
@@ -54,3 +83,10 @@ def scale_inv(self) -> torch.Tensor:
 
     def __repr__(self) -> str:
         return printing.tensor_repr(self.__raw)
+
+    def __del__(self):
+        try:
+            global tensor_handles
+            tensor_handles.append(self.__raw)
+        except AttributeError:
+            pass
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 16f73961c4..542f28ea7e 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -43,12 +43,12 @@ class Tensor:
     scale_inv: torch.Tensor
     def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
 
-def _make_tensor(dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> Tensor: ...
-def _get_tensor_dtype(self: Tensor) -> DType: ...
-def _get_tensor_shape(self: Tensor) -> Sequence[int]: ...
-def _get_tensor_amax(self: Tensor) -> torch.Tensor: ...
-def _get_tensor_scale(self: Tensor) -> torch.Tensor: ...
-def _get_tensor_scale_inv(self: Tensor) -> torch.Tensor: ...
+def reset_tensor(self: Tensor, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
+def get_tensor_dtype(self: Tensor) -> DType: ...
+def get_tensor_shape(self: Tensor) -> Sequence[int]: ...
+def get_tensor_amax(self: Tensor) -> torch.Tensor: ...
+def get_tensor_scale(self: Tensor) -> torch.Tensor: ...
+def get_tensor_scale_inv(self: Tensor) -> torch.Tensor: ...
 
 def gelu(input: Tensor, output: Tensor) -> None: ...
 def dgelu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 8f731c63c8..bd28235ac8 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -1,5 +1,6 @@
 /*************************************************************************
- * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+ * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights
+ *reserved.
  *
  * See LICENSE for license information.
  ************************************************************************/
@@ -57,6 +58,22 @@ void cuda_check() {
     }
   }
 }
+
+float *getDataPtr(at::Tensor t) {
+  if (t.numel() > 0) {
+    if (!t.is_cuda()) {
+      throw std::runtime_error("Cannot create NVTE Tensor: !tensor.is_cuda()");
+    }
+    if (!t.is_contiguous()) {
+      throw std::runtime_error(
+          "Cannot create NVTE Tensor: !tensor.is_contiguous()");
+    }
+    return reinterpret_cast<float *>(t.data_ptr());
+  } else {
+    return nullptr;
+  }
+}
+
 struct Tensor : torch::CustomClassHolder {
   static_assert(std::is_same_v<NVTETensor, void *>);
 
@@ -66,31 +83,7 @@ struct Tensor : torch::CustomClassHolder {
   at::Tensor scale;
   at::Tensor scale_inv;
 
-  static float *getDataPtr(at::Tensor t) {
-    if (t.numel() > 0) {
-      if (!t.is_cuda()) {
-        throw std::runtime_error(
-            "Cannot create NVTE Tensor: !tensor.is_cuda()");
-      }
-      if (!t.is_contiguous()) {
-        throw std::runtime_error(
-            "Cannot create NVTE Tensor: !tensor.is_contiguous()");
-      }
-      return reinterpret_cast<float *>(t.data_ptr());
-    } else {
-      return nullptr;
-    }
-  }
-
-  Tensor(int64_t dtype, at::Tensor data, at::Tensor amax, at::Tensor scale,
-         at::Tensor scale_inv)
-      : pimpl{nvte_create_tensor(getDataPtr(data),
-                                 NVTEShape{(size_t *)(data.sizes().data()),
-                                           data.sizes().size()},
-                                 NVTEDType(dtype), getDataPtr(amax),
-                                 getDataPtr(scale), getDataPtr(scale_inv)),
-              [](NVTETensor impl) { nvte_destroy_tensor(impl); }},
-        data{data}, amax{amax}, scale{scale}, scale_inv{scale_inv} {}
+  Tensor() = default;
 };
 
 // ----------- Wrapper for NVTETensorPack -----------
@@ -267,43 +260,37 @@ void multi_cast_transpose(
 
 // ----------- Registration of torch.ops -----------
 TORCH_LIBRARY(transformer_engine_cuda, m) {
-  m.class_<Tensor>("Tensor")
-      .def(torch::init<int64_t, at::Tensor, at::Tensor, at::Tensor,
-                       at::Tensor>())
-      .def_property("dtype",
-                    [](const c10::intrusive_ptr<Tensor> &self) {
-                      return (int64_t)nvte_tensor_type(
-                          (NVTETensor)(self->pimpl.get()));
-                    })
-      .def_property("shape",
-                    [](const c10::intrusive_ptr<Tensor> &self) {
-                      NVTEShape s =
-                          nvte_tensor_shape((NVTETensor)(self->pimpl.get()));
-                      return std::vector<int64_t>(s.data, s.data + s.ndim);
-                    })
-      .def_readonly("data", &Tensor::data)
-      .def_readonly("amax", &Tensor::amax)
-      .def_readonly("scale", &Tensor::scale)
-      .def_readonly("scale_inv", &Tensor::scale_inv);
+  m.class_<Tensor>("Tensor").def(torch::init<>());
 
-  m.def("_make_tensor", [](int64_t dtype, at::Tensor data, at::Tensor amax,
+  m.def("reset_tensor", [](const c10::intrusive_ptr<Tensor> &self,
+                           int64_t dtype, at::Tensor data, at::Tensor amax,
                            at::Tensor scale, at::Tensor scale_inv) {
-    return c10::make_intrusive<Tensor>(dtype, data, amax, scale, scale_inv);
+    self->pimpl = std::shared_ptr<void>(
+        nvte_create_tensor(
+            getDataPtr(data),
+            NVTEShape{(size_t *)(data.sizes().data()), data.sizes().size()},
+            NVTEDType(dtype), getDataPtr(amax), getDataPtr(scale),
+            getDataPtr(scale_inv)),
+        nvte_destroy_tensor);
+    self->data = data;
+    self->amax = amax;
+    self->scale = scale;
+    self->scale_inv = scale_inv;
   });
-  m.def("_get_tensor_dtype", [](const c10::intrusive_ptr<Tensor> &self) {
+  m.def("get_tensor_dtype", [](const c10::intrusive_ptr<Tensor> &self) {
     return (int64_t)nvte_tensor_type((NVTETensor)(self->pimpl.get()));
   });
-  m.def("_get_tensor_shape", [](const c10::intrusive_ptr<Tensor> &self) {
+  m.def("get_tensor_shape", [](const c10::intrusive_ptr<Tensor> &self) {
     NVTEShape s = nvte_tensor_shape((NVTETensor)(self->pimpl.get()));
     return std::vector<int64_t>(s.data, s.data + s.ndim);
   });
-  m.def("_get_tensor_data",
+  m.def("get_tensor_data",
         [](const c10::intrusive_ptr<Tensor> &self) { return self->data; });
-  m.def("_get_tensor_amax",
+  m.def("get_tensor_amax",
         [](const c10::intrusive_ptr<Tensor> &self) { return self->amax; });
-  m.def("_get_tensor_scale",
+  m.def("get_tensor_scale",
         [](const c10::intrusive_ptr<Tensor> &self) { return self->scale; });
-  m.def("_get_tensor_scale_inv",
+  m.def("get_tensor_scale_inv",
         [](const c10::intrusive_ptr<Tensor> &self) { return self->scale_inv; });
   m.def("gelu", wrap(nvte_gelu));
   m.def("dgelu", wrap(nvte_dgelu));

From b628828ca32c24eb247aa04acae1d05bb8b235c3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 15:55:06 +0200
Subject: [PATCH 258/535] fix set init

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py               | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index acabacd5d3..07c6c560da 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -9,7 +9,7 @@
 # Use n object pool, as torch compile
 # does not like creating ScriptClass
 # objects on the fly.
-tensor_handles = {}
+tensor_handles = set()
 
 
 def allocate_handles():

From 435351b592641778dd13ef7ffe81f3419ac0aa86 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 15:57:27 +0200
Subject: [PATCH 259/535] fix set use

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py               | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 07c6c560da..ebe683c150 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -15,7 +15,7 @@
 def allocate_handles():
     HANDLE_COUNT = 1024
     for _ in range(HANDLE_COUNT):
-        tensor_handles.append(_TensorHandle())
+        tensor_handles.add(_TensorHandle())
 
 
 # Preallocate some tensors

From b3724f24cde5d0bf1b955540bfde145161d8bef4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 16:34:40 +0200
Subject: [PATCH 260/535] dont use custom type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     |  73 +++--------
 .../sequential/cpp_extensions/__init__.pyi    |   6 +-
 .../pytorch/sequential/cpp_extensions/real.py |   8 --
 .../pytorch/sequential/cppsrc/pybind.cpp      | 119 +++++++-----------
 4 files changed, 63 insertions(+), 143 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index ebe683c150..c61e89902b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,39 +1,9 @@
 # type: ignore
 from __future__ import annotations
+from typing import Sequence
 from .real import *
 
-from . import printing
-
-_TensorHandle = globals().pop("Tensor")
-
-# Use n object pool, as torch compile
-# does not like creating ScriptClass
-# objects on the fly.
-tensor_handles = set()
-
-
-def allocate_handles():
-    HANDLE_COUNT = 1024
-    for _ in range(HANDLE_COUNT):
-        tensor_handles.add(_TensorHandle())
-
-
-# Preallocate some tensors
-allocate_handles()
-
-
-def make_tensor(
-    dtype: DType,
-    data: torch.Tensor,
-    amax: torch.Tensor,
-    scale: torch.Tensor,
-    scale_inv: torch.Tensor,
-):
-    if not tensor_handles:
-        allocate_handles()
-    handle = tensor_handles.pop()
-    reset_tensor(handle, dtype, data, amax, scale, scale_inv)
-    return handle
+from . import destroy_tensor, printing
 
 
 # Quacks like a Tensor. </joke>
@@ -45,7 +15,11 @@ def make_tensor(
 # as ScriptClass methods are not
 # torch.compile friendly.
 class Tensor:
-    __raw: object
+    handle: object
+    data: torch.Tensor
+    amax: torch.Tensor
+    scale: torch.Tensor
+    scale_inv: torch.Tensor
 
     def __init__(
         self,
@@ -55,38 +29,25 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        self.__raw = make_tensor(dtype.value, data, amax, scale, scale_inv)
+        self.handle = create_tensor(dtype.value, data, amax, scale, scale_inv)
+        self.data = data
+        self.amax = amax
+        self.scale = scale
+        self.scale_inv = scale_inv
 
     @property
     def dtype(self) -> DType:
-        return DType(_get_tensor_dtype(self.__raw))
-
-    @property
-    def shape(self) -> tuple[int, ...]:
-        return tuple(_get_tensor_shape(self.__raw))
-
-    @property
-    def data(self) -> torch.Tensor:
-        return _get_tensor_data(self.__raw)
-
-    @property
-    def amax(self) -> torch.Tensor:
-        return _get_tensor_amax(self.__raw)
-
-    @property
-    def scale(self) -> torch.Tensor:
-        return _get_tensor_scale(self.__raw)
+        return get_tensor_dtype(self.handle)
 
     @property
-    def scale_inv(self) -> torch.Tensor:
-        return _get_tensor_scale_inv(self.__raw)
+    def shape(self) -> Sequence[int]:
+        return get_tensor_shape(self.handle)
 
     def __repr__(self) -> str:
-        return printing.tensor_repr(self.__raw)
+        return printing.tensor_repr(self.handle)
 
     def __del__(self):
         try:
-            global tensor_handles
-            tensor_handles.append(self.__raw)
+            destroy_tensor(self.handle)
         except AttributeError:
             pass
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 542f28ea7e..83da62da7a 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -43,12 +43,10 @@ class Tensor:
     scale_inv: torch.Tensor
     def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
 
-def reset_tensor(self: Tensor, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
+def create_tensor(dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> Tensor: ...
 def get_tensor_dtype(self: Tensor) -> DType: ...
 def get_tensor_shape(self: Tensor) -> Sequence[int]: ...
-def get_tensor_amax(self: Tensor) -> torch.Tensor: ...
-def get_tensor_scale(self: Tensor) -> torch.Tensor: ...
-def get_tensor_scale_inv(self: Tensor) -> torch.Tensor: ...
+def destroy_tensor(self: Tensor) -> None: ...
 
 def gelu(input: Tensor, output: Tensor) -> None: ...
 def dgelu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/real.py b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
index b186c85329..e1892aff75 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/real.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
@@ -4,8 +4,6 @@
 from ..utils import import_file_as_module, get_return_type
 import torch
 from torch._ops import OpOverloadPacket, _OpNamespace  # type: ignore
-from torch._classes import _ClassNamespace  # type: ignore
-from torch._C import ScriptClass  # type: ignore
 
 try:
     # Normally, torch.classes.load_library would be used
@@ -40,20 +38,14 @@ def to_dict(l: list[tuple[T1, T2]], /) -> dict[T1, T2]:
 
     function_ns = torch.ops.transformer_engine_cuda  # type: ignore
     assert isinstance(function_ns, _OpNamespace)
-    type_ns = torch.classes.transformer_engine_cuda  # type: ignore
-    assert isinstance(type_ns, _ClassNamespace)
 
     real_function: Callable[[str], OpOverloadPacket] = lambda name: getattr(
         function_ns, name
     )
-    real_type: Callable[[str], ScriptClass] = lambda name: getattr(type_ns, name)  # type: ignore
 
     for enum_name in enum_names:
         namespace[enum_name] = stub_types[enum_name]
 
-    for class_name in stub_types.keys() - enum_names:
-        namespace[class_name] = real_type(class_name)
-
     for func_name, func_obj in stub_functions.items():
         exposed_return_type: type = get_return_type(func_obj)
 
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index bd28235ac8..2f105a8492 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -74,28 +74,15 @@ float *getDataPtr(at::Tensor t) {
   }
 }
 
-struct Tensor : torch::CustomClassHolder {
-  static_assert(std::is_same_v<NVTETensor, void *>);
-
-  std::shared_ptr<void> pimpl;
-  at::Tensor data;
-  at::Tensor amax;
-  at::Tensor scale;
-  at::Tensor scale_inv;
-
-  Tensor() = default;
-};
-
 // ----------- Wrapper for NVTETensorPack -----------
 struct TensorPack : NVTETensorPack {
-  TensorPack(const std::vector<c10::intrusive_ptr<Tensor>> &tensors_)
-      : NVTETensorPack{} {
+  TensorPack(const std::vector<NVTETensor> &tensors_) : NVTETensorPack{} {
     size = tensors_.size();
     if (size > MAX_SIZE) {
       throw std::runtime_error("TensorPack size exceeds MAX_SIZE");
     }
     for (size_t i = 0; i < size; ++i) {
-      tensors[i] = (NVTETensor)(tensors_[i]->pimpl.get());
+      tensors[i] = tensors_[i];
     }
     nvte_tensor_pack_create(this);
   }
@@ -143,26 +130,21 @@ template <> struct wrapped<float> : exposed_type<double> {
   static float wrap(double arg) { return arg; }
   static double unwrap(float arg) { return arg; }
 };
-template <>
-struct wrapped<NVTETensor> : exposed_type<const c10::intrusive_ptr<Tensor> &> {
-  // static c10::intrusive_ptr<Tensor> wrap(NVTETensor arg) {
-  //   return c10::make_intrusive<Tensor>(arg);
-  // }
-  static NVTETensor unwrap(const c10::intrusive_ptr<Tensor> &arg) {
-    return (NVTETensor)(arg->pimpl.get());
+template <> struct wrapped<NVTETensor> : exposed_type<int64_t> {
+  static int64_t wrap(NVTETensor arg) { return reinterpret_cast<int64_t>(arg); }
+  static NVTETensor unwrap(int64_t arg) {
+    return reinterpret_cast<NVTETensor>(arg);
   }
 };
 template <>
-struct wrapped<NVTETensorPack *>
-    : exposed_type<std::vector<c10::intrusive_ptr<Tensor>>> {
-  static TensorPack unwrap(const std::vector<c10::intrusive_ptr<Tensor>> &arg) {
+struct wrapped<NVTETensorPack *> : exposed_type<std::vector<NVTETensor>> {
+  static TensorPack unwrap(const std::vector<NVTETensor> &arg) {
     return TensorPack(arg);
   }
 };
 template <>
-struct wrapped<const NVTETensorPack *>
-    : exposed_type<std::vector<c10::intrusive_ptr<Tensor>>> {
-  static TensorPack unwrap(const std::vector<c10::intrusive_ptr<Tensor>> &arg) {
+struct wrapped<const NVTETensorPack *> : exposed_type<std::vector<NVTETensor>> {
+  static TensorPack unwrap(const std::vector<NVTETensor> &arg) {
     return TensorPack(arg);
   }
 };
@@ -188,6 +170,18 @@ template <> struct wrapped<NVTE_Mask_Type> : exposed_type<int64_t> {
   static int64_t wrap(NVTE_Mask_Type arg) { return int64_t(arg); }
   static NVTE_Mask_Type unwrap(int64_t arg) { return NVTE_Mask_Type(arg); }
 };
+template <> struct wrapped<NVTEShape> : exposed_type<std::vector<int64_t>> {
+  static std::vector<int64_t> wrap(NVTEShape arg) {
+    return std::vector<int64_t>(arg.data, arg.data + arg.ndim);
+  }
+  static NVTEShape unwrap(const std::vector<int64_t> &arg) {
+    NVTEShape shape{};
+    shape.ndim = arg.size();
+    shape.data = arg.data();
+    return shape;
+  }
+};
+
 template <typename T> using wrapped_t = typename wrapped<T>::type;
 struct at_scope_exit {
   void (*ptr)();
@@ -236,22 +230,16 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
 }
 
 // Manual wrapper around nvte_multi_cast_transpose
-void multi_cast_transpose(
-    const std::vector<c10::intrusive_ptr<Tensor>> &inputs,
-    const std::vector<c10::intrusive_ptr<Tensor>> &cast_outs,
-    const std::vector<c10::intrusive_ptr<Tensor>> &transposed_outs) {
-  auto count = inputs.size();
-  std::vector<NVTETensor> inputs_(count);
-  std::vector<NVTETensor> cast_outs_(count);
-  std::vector<NVTETensor> transposed_outs_(count);
-
-  for (int i = 0; i < inputs.size(); ++i) {
-    inputs_[i] = (NVTETensor)(inputs[i]->pimpl.get());
-    cast_outs_[i] = (NVTETensor)(cast_outs[i]->pimpl.get());
-    transposed_outs_[i] = (NVTETensor)(transposed_outs[i]->pimpl.get());
-  }
-
-  nvte_multi_cast_transpose(count, inputs_.data(), cast_outs_.data(),
+void multi_cast_transpose(const std::vector<int64_t> &inputs,
+                          const std::vector<int64_t> &cast_outs,
+                          const std::vector<int64_t> &transposed_outs) {
+  const auto &inputs_ =
+      *reinterpret_cast<const std::vector<NVTETensor> *>(&inputs);
+  const auto &cast_outs_ =
+      *reinterpret_cast<const std::vector<NVTETensor> *>(&cast_outs);
+  const auto &transposed_outs_ =
+      *reinterpret_cast<const std::vector<NVTETensor> *>(&transposed_outs);
+  nvte_multi_cast_transpose(inputs_.size(), inputs_.data(), cast_outs_.data(),
                             transposed_outs_.data(),
                             at::cuda::getCurrentCUDAStream());
 
@@ -260,38 +248,19 @@ void multi_cast_transpose(
 
 // ----------- Registration of torch.ops -----------
 TORCH_LIBRARY(transformer_engine_cuda, m) {
-  m.class_<Tensor>("Tensor").def(torch::init<>());
+  m.def("create_tensor",
+        wrap([](NVTEDType dtype, at::Tensor data, at::Tensor amax,
+                at::Tensor scale, at::Tensor scale_inv) -> NVTETensor {
+          return nvte_create_tensor(
+              getDataPtr(data),
+              NVTEShape{(size_t *)(data.sizes().data()), data.sizes().size()},
+              dtype, getDataPtr(amax), getDataPtr(scale),
+              getDataPtr(scale_inv));
+        }));
+  m.def("get_tensor_dtype", wrap(nvte_tensor_type));
+  m.def("get_tensor_shape", wrap(nvte_tensor_shape));
+  m.def("destroy_tensor", wrap(nvte_destroy_tensor));
 
-  m.def("reset_tensor", [](const c10::intrusive_ptr<Tensor> &self,
-                           int64_t dtype, at::Tensor data, at::Tensor amax,
-                           at::Tensor scale, at::Tensor scale_inv) {
-    self->pimpl = std::shared_ptr<void>(
-        nvte_create_tensor(
-            getDataPtr(data),
-            NVTEShape{(size_t *)(data.sizes().data()), data.sizes().size()},
-            NVTEDType(dtype), getDataPtr(amax), getDataPtr(scale),
-            getDataPtr(scale_inv)),
-        nvte_destroy_tensor);
-    self->data = data;
-    self->amax = amax;
-    self->scale = scale;
-    self->scale_inv = scale_inv;
-  });
-  m.def("get_tensor_dtype", [](const c10::intrusive_ptr<Tensor> &self) {
-    return (int64_t)nvte_tensor_type((NVTETensor)(self->pimpl.get()));
-  });
-  m.def("get_tensor_shape", [](const c10::intrusive_ptr<Tensor> &self) {
-    NVTEShape s = nvte_tensor_shape((NVTETensor)(self->pimpl.get()));
-    return std::vector<int64_t>(s.data, s.data + s.ndim);
-  });
-  m.def("get_tensor_data",
-        [](const c10::intrusive_ptr<Tensor> &self) { return self->data; });
-  m.def("get_tensor_amax",
-        [](const c10::intrusive_ptr<Tensor> &self) { return self->amax; });
-  m.def("get_tensor_scale",
-        [](const c10::intrusive_ptr<Tensor> &self) { return self->scale; });
-  m.def("get_tensor_scale_inv",
-        [](const c10::intrusive_ptr<Tensor> &self) { return self->scale_inv; });
   m.def("gelu", wrap(nvte_gelu));
   m.def("dgelu", wrap(nvte_dgelu));
   m.def("geglu", wrap(nvte_geglu));

From f551d2f5d0c720e0e9966152fc0020af21a66761 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 16:43:25 +0200
Subject: [PATCH 261/535] fix cpp compile errors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp           | 14 ++++++--------
 1 file changed, 6 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 2f105a8492..7130b65f63 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -1,6 +1,5 @@
 /*************************************************************************
- * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights
- *reserved.
+ * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
  *
  * See LICENSE for license information.
  ************************************************************************/
@@ -233,11 +232,10 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
 void multi_cast_transpose(const std::vector<int64_t> &inputs,
                           const std::vector<int64_t> &cast_outs,
                           const std::vector<int64_t> &transposed_outs) {
-  const auto &inputs_ =
-      *reinterpret_cast<const std::vector<NVTETensor> *>(&inputs);
-  const auto &cast_outs_ =
+  auto inputs_ = *reinterpret_cast<const std::vector<NVTETensor> *>(&inputs);
+  auto cast_outs_ =
       *reinterpret_cast<const std::vector<NVTETensor> *>(&cast_outs);
-  const auto &transposed_outs_ =
+  auto transposed_outs_ =
       *reinterpret_cast<const std::vector<NVTETensor> *>(&transposed_outs);
   nvte_multi_cast_transpose(inputs_.size(), inputs_.data(), cast_outs_.data(),
                             transposed_outs_.data(),
@@ -249,8 +247,8 @@ void multi_cast_transpose(const std::vector<int64_t> &inputs,
 // ----------- Registration of torch.ops -----------
 TORCH_LIBRARY(transformer_engine_cuda, m) {
   m.def("create_tensor",
-        wrap([](NVTEDType dtype, at::Tensor data, at::Tensor amax,
-                at::Tensor scale, at::Tensor scale_inv) -> NVTETensor {
+        wrap(+[](NVTEDType dtype, at::Tensor data, at::Tensor amax,
+                 at::Tensor scale, at::Tensor scale_inv) -> NVTETensor {
           return nvte_create_tensor(
               getDataPtr(data),
               NVTEShape{(size_t *)(data.sizes().data()), data.sizes().size()},

From e689f813c4a3da6dbd727156fb124fc179e944d8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 16:48:17 +0200
Subject: [PATCH 262/535] add missing cast

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 7130b65f63..7977ae3677 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -176,7 +176,7 @@ template <> struct wrapped<NVTEShape> : exposed_type<std::vector<int64_t>> {
   static NVTEShape unwrap(const std::vector<int64_t> &arg) {
     NVTEShape shape{};
     shape.ndim = arg.size();
-    shape.data = arg.data();
+    shape.data = (size_t*)arg.data();
     return shape;
   }
 };

From 8726e52edeb1a73a808997526ca4df7732716f7d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 17:00:49 +0200
Subject: [PATCH 263/535] fix type issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp             | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 7977ae3677..db1ca775b0 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -75,13 +75,13 @@ float *getDataPtr(at::Tensor t) {
 
 // ----------- Wrapper for NVTETensorPack -----------
 struct TensorPack : NVTETensorPack {
-  TensorPack(const std::vector<NVTETensor> &tensors_) : NVTETensorPack{} {
+  TensorPack(const std::vector<int64_t> &tensors_) : NVTETensorPack{} {
     size = tensors_.size();
     if (size > MAX_SIZE) {
       throw std::runtime_error("TensorPack size exceeds MAX_SIZE");
     }
     for (size_t i = 0; i < size; ++i) {
-      tensors[i] = tensors_[i];
+      tensors[i] = reinterpret_cast<NVTETensor>(tensors_[i]);
     }
     nvte_tensor_pack_create(this);
   }
@@ -136,14 +136,14 @@ template <> struct wrapped<NVTETensor> : exposed_type<int64_t> {
   }
 };
 template <>
-struct wrapped<NVTETensorPack *> : exposed_type<std::vector<NVTETensor>> {
-  static TensorPack unwrap(const std::vector<NVTETensor> &arg) {
+struct wrapped<NVTETensorPack *> : exposed_type<std::vector<int64_t>> {
+  static TensorPack unwrap(const std::vector<int64_t> &arg) {
     return TensorPack(arg);
   }
 };
 template <>
-struct wrapped<const NVTETensorPack *> : exposed_type<std::vector<NVTETensor>> {
-  static TensorPack unwrap(const std::vector<NVTETensor> &arg) {
+struct wrapped<const NVTETensorPack *> : exposed_type<std::vector<int64_t>> {
+  static TensorPack unwrap(const std::vector<int64_t> &arg) {
     return TensorPack(arg);
   }
 };

From 45d262be90975de91d1a5ea8d7912a9f97cae54d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 17:09:31 +0200
Subject: [PATCH 264/535] fix issue with printing

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     |  22 +++-
 .../sequential/cpp_extensions/printing.py     | 101 ------------------
 2 files changed, 20 insertions(+), 103 deletions(-)
 delete mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/printing.py

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index c61e89902b..744076da75 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -3,7 +3,7 @@
 from typing import Sequence
 from .real import *
 
-from . import destroy_tensor, printing
+from .all_fp8_values import ALL_FP8E4M3_VALUES, ALL_FP8E5M2_VALUES
 
 
 # Quacks like a Tensor. </joke>
@@ -44,7 +44,25 @@ def shape(self) -> Sequence[int]:
         return get_tensor_shape(self.handle)
 
     def __repr__(self) -> str:
-        return printing.tensor_repr(self.handle)
+        if self.dtype == DType.Float8E4M3 or DType.Float8E5M2:
+            conv_table = (
+                torch.tensor(ALL_FP8E4M3_VALUES, device="cpu")
+                if self.dtype == DType.Float8E4M3
+                else torch.tensor(ALL_FP8E5M2_VALUES, device="cpu")
+            )
+            fp32_values = conv_table[self.data.cpu().int()]
+            data_repr = repr(fp32_values)
+        else:
+            data_repr = repr(self.data)
+        data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1]
+        data_repr = "T" + data_repr[1:]
+        return f"""\
+{data_repr},
+    dtype={self.dtype.name},\
+amax={self.amax[0].item() if self.amax.numel() else None},\
+scale={self.scale.item() if self.scale.numel() else None},\
+scale_inv={self.scale_inv.item() if self.scale_inv.numel() else None}\
+)"""
 
     def __del__(self):
         try:
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/printing.py b/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
deleted file mode 100644
index 36e6d8626b..0000000000
--- a/transformer_engine/pytorch/sequential/cpp_extensions/printing.py
+++ /dev/null
@@ -1,101 +0,0 @@
-from __future__ import annotations
-
-# type: ignore[dynamic-code]
-import torch
-from .real import Tensor, DType
-
-
-def tensor_repr(tensor: Tensor):
-    if tensor.dtype == DType.Float8E4M3 or DType.Float8E5M2:
-        conv_table = (
-            torch.tensor(ALL_FP8E4M3_VALUES, device="cpu")
-            if tensor.dtype == DType.Float8E4M3
-            else torch.tensor(ALL_FP8E5M2_VALUES, device="cpu")
-        )
-        fp32_values = conv_table[tensor.data.cpu().int()]
-        data_repr = repr(fp32_values)
-    else:
-        data_repr = repr(tensor.data)
-    data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1]
-    data_repr = "T" + data_repr[1:]
-    return f"""\
-{data_repr},
-       dtype={tensor.dtype.name},\
- amax={tensor.amax[0].item() if tensor.amax.numel() else None},\
- scale={tensor.scale.item() if tensor.scale.numel() else None},\
- scale_inv={tensor.scale_inv.item() if tensor.scale_inv.numel() else None}\
-)"""
-
-
-# fmt: off
-nan = float("nan")
-inf = float("inf")
-ALL_FP8E4M3_VALUES = [
-   0.         ,    0.001953125,    0.00390625 ,    0.005859375,    0.0078125  ,    0.009765625,    0.01171875 ,    0.013671875,
-   0.015625   ,    0.017578125,    0.01953125 ,    0.021484375,    0.0234375  ,    0.025390625,    0.02734375 ,    0.029296875,
-   0.03125    ,    0.03515625 ,    0.0390625  ,    0.04296875 ,    0.046875   ,    0.05078125 ,    0.0546875  ,    0.05859375 ,
-   0.0625     ,    0.0703125  ,    0.078125   ,    0.0859375  ,    0.09375    ,    0.1015625  ,    0.109375   ,    0.1171875  ,
-   0.125      ,    0.140625   ,    0.15625    ,    0.171875   ,    0.1875     ,    0.203125   ,    0.21875    ,    0.234375   ,
-   0.25       ,    0.28125    ,    0.3125     ,    0.34375    ,    0.375      ,    0.40625    ,    0.4375     ,    0.46875    ,
-   0.5        ,    0.5625     ,    0.625      ,    0.6875     ,    0.75       ,    0.8125     ,    0.875      ,    0.9375     ,
-   1.         ,    1.125      ,    1.25       ,    1.375      ,    1.5        ,    1.625      ,    1.75       ,    1.875      ,
-   2.         ,    2.25       ,    2.5        ,    2.75       ,    3.         ,    3.25       ,    3.5        ,    3.75       ,
-   4.         ,    4.5        ,    5.         ,    5.5        ,    6.         ,    6.5        ,    7.         ,    7.5        ,
-   8.         ,    9.         ,   10.         ,   11.         ,   12.         ,   13.         ,   14.         ,   15.         ,
-  16.         ,   18.         ,   20.         ,   22.         ,   24.         ,   26.         ,   28.         ,   30.         ,
-  32.         ,   36.         ,   40.         ,   44.         ,   48.         ,   52.         ,   56.         ,   60.         ,
-  64.         ,   72.         ,   80.         ,   88.         ,   96.         ,  104.         ,  112.         ,  120.         ,
- 128.         ,  144.         ,  160.         ,  176.         ,  192.         ,  208.         ,  224.         ,  240.         ,
- 256.         ,  288.         ,  320.         ,  352.         ,  384.         ,  416.         ,  448.         ,  nan          ,
-  -0.         ,   -0.001953125,   -0.00390625 ,   -0.005859375,   -0.0078125  ,   -0.009765625,   -0.01171875 ,   -0.013671875,
-  -0.015625   ,   -0.017578125,   -0.01953125 ,   -0.021484375,   -0.0234375  ,   -0.025390625,   -0.02734375 ,   -0.029296875,
-  -0.03125    ,   -0.03515625 ,   -0.0390625  ,   -0.04296875 ,   -0.046875   ,   -0.05078125 ,   -0.0546875  ,   -0.05859375 ,
-  -0.0625     ,   -0.0703125  ,   -0.078125   ,   -0.0859375  ,   -0.09375    ,   -0.1015625  ,   -0.109375   ,   -0.1171875  ,
-  -0.125      ,   -0.140625   ,   -0.15625    ,   -0.171875   ,   -0.1875     ,   -0.203125   ,   -0.21875    ,   -0.234375   ,
-  -0.25       ,   -0.28125    ,   -0.3125     ,   -0.34375    ,   -0.375      ,   -0.40625    ,   -0.4375     ,   -0.46875    ,
-  -0.5        ,   -0.5625     ,   -0.625      ,   -0.6875     ,   -0.75       ,   -0.8125     ,   -0.875      ,   -0.9375     ,
-  -1.         ,   -1.125      ,   -1.25       ,   -1.375      ,   -1.5        ,   -1.625      ,   -1.75       ,   -1.875      ,
-  -2.         ,   -2.25       ,   -2.5        ,   -2.75       ,   -3.         ,   -3.25       ,   -3.5        ,   -3.75       ,
-  -4.         ,   -4.5        ,   -5.         ,   -5.5        ,   -6.         ,   -6.5        ,   -7.         ,   -7.5        ,
-  -8.         ,   -9.         ,  -10.         ,  -11.         ,  -12.         ,  -13.         ,  -14.         ,  -15.         ,
- -16.         ,  -18.         ,  -20.         ,  -22.         ,  -24.         ,  -26.         ,  -28.         ,  -30.         ,
- -32.         ,  -36.         ,  -40.         ,  -44.         ,  -48.         ,  -52.         ,  -56.         ,  -60.         ,
- -64.         ,  -72.         ,  -80.         ,  -88.         ,  -96.         , -104.         , -112.         , -120.         ,
--128.         , -144.         , -160.         , -176.         , -192.         , -208.         , -224.         , -240.         ,
--256.         , -288.         , -320.         , -352.         , -384.         , -416.         , -448.         ,  nan          ,
-]
-
-ALL_FP8E5M2_VALUES = [
-      0.                ,      0.0000152587890625,      0.000030517578125 ,      0.0000457763671875,      0.00006103515625  ,     0.0000762939453125,      0.000091552734375 ,      0.0001068115234375,
-      0.0001220703125   ,      0.000152587890625 ,      0.00018310546875  ,      0.000213623046875 ,      0.000244140625    ,     0.00030517578125  ,      0.0003662109375   ,      0.00042724609375  ,
-      0.00048828125     ,      0.0006103515625   ,      0.000732421875    ,      0.0008544921875   ,      0.0009765625      ,     0.001220703125    ,      0.00146484375     ,      0.001708984375    ,
-      0.001953125       ,      0.00244140625     ,      0.0029296875      ,      0.00341796875     ,      0.00390625        ,     0.0048828125      ,      0.005859375       ,      0.0068359375      ,
-      0.0078125         ,      0.009765625       ,      0.01171875        ,      0.013671875       ,      0.015625          ,     0.01953125        ,      0.0234375         ,      0.02734375        ,
-      0.03125           ,      0.0390625         ,      0.046875          ,      0.0546875         ,      0.0625            ,     0.078125          ,      0.09375           ,      0.109375          ,
-      0.125             ,      0.15625           ,      0.1875            ,      0.21875           ,      0.25              ,     0.3125            ,      0.375             ,      0.4375            ,
-      0.5               ,      0.625             ,      0.75              ,      0.875             ,      1.                ,     1.25              ,      1.5               ,      1.75              ,
-      2.                ,      2.5               ,      3.                ,      3.5               ,      4.                ,     5.                ,      6.                ,      7.                ,
-      8.                ,     10.                ,     12.                ,     14.                ,     16.                ,    20.                ,     24.                ,     28.                ,
-     32.                ,     40.                ,     48.                ,     56.                ,     64.                ,    80.                ,     96.                ,    112.                ,
-    128.                ,    160.                ,    192.                ,    224.                ,    256.                ,   320.                ,    384.                ,    448.                ,
-    512.                ,    640.                ,    768.                ,    896.                ,   1024.                ,  1280.                ,   1536.                ,   1792.                ,
-   2048.                ,   2560.                ,   3072.                ,   3584.                ,   4096.                ,  5120.                ,   6144.                ,   7168.                ,
-   8192.                ,  10240.                ,  12288.                ,  14336.                ,  16384.                , 20480.                ,  24576.                ,  28672.                ,
-  32768.                ,  40960.                ,  49152.                ,  57344.                ,    inf                 ,   nan                 ,    nan                 ,    nan                 ,
-     -0.                ,     -0.0000152587890625,     -0.000030517578125 ,     -0.0000457763671875,     -0.00006103515625  ,    -0.0000762939453125,     -0.000091552734375 ,     -0.0001068115234375,
-     -0.0001220703125   ,     -0.000152587890625 ,     -0.00018310546875  ,     -0.000213623046875 ,     -0.000244140625    ,    -0.00030517578125  ,     -0.0003662109375   ,     -0.00042724609375  ,
-     -0.00048828125     ,     -0.0006103515625   ,     -0.000732421875    ,     -0.0008544921875   ,     -0.0009765625      ,    -0.001220703125    ,     -0.00146484375     ,     -0.001708984375    ,
-     -0.001953125       ,     -0.00244140625     ,     -0.0029296875      ,     -0.00341796875     ,     -0.00390625        ,    -0.0048828125      ,     -0.005859375       ,     -0.0068359375      ,
-     -0.0078125         ,     -0.009765625       ,     -0.01171875        ,     -0.013671875       ,     -0.015625          ,    -0.01953125        ,     -0.0234375         ,     -0.02734375        ,
-     -0.03125           ,     -0.0390625         ,     -0.046875          ,     -0.0546875         ,     -0.0625            ,    -0.078125          ,     -0.09375           ,     -0.109375          ,
-     -0.125             ,     -0.15625           ,     -0.1875            ,     -0.21875           ,     -0.25              ,    -0.3125            ,     -0.375             ,     -0.4375            ,
-     -0.5               ,     -0.625             ,     -0.75              ,     -0.875             ,     -1.                ,    -1.25              ,     -1.5               ,     -1.75              ,
-     -2.                ,     -2.5               ,     -3.                ,     -3.5               ,     -4.                ,    -5.                ,     -6.                ,     -7.                ,
-     -8.                ,    -10.                ,    -12.                ,    -14.                ,    -16.                ,   -20.                ,    -24.                ,    -28.                ,
-    -32.                ,    -40.                ,    -48.                ,    -56.                ,    -64.                ,   -80.                ,    -96.                ,   -112.                ,
-   -128.                ,   -160.                ,   -192.                ,   -224.                ,   -256.                ,  -320.                ,   -384.                ,   -448.                ,
-   -512.                ,   -640.                ,   -768.                ,   -896.                ,  -1024.                , -1280.                ,  -1536.                ,  -1792.                ,
-  -2048.                ,  -2560.                ,  -3072.                ,  -3584.                ,  -4096.                , -5120.                ,  -6144.                ,  -7168.                ,
-  -8192.                , -10240.                , -12288.                , -14336.                , -16384.                , 20480.                , -24576.                , -28672.                ,
- -32768.                , -40960.                , -49152.                , -57344.                ,   -inf                 ,   nan                 ,    nan                 ,    nan                 ,
-]

From 8e495493bb8d7f369e3a2920ee167db705f8210b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 17:10:21 +0200
Subject: [PATCH 265/535] fix issue with printing

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../cpp_extensions/all_fp8_values.py          | 72 +++++++++++++++++++
 1 file changed, 72 insertions(+)
 create mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/all_fp8_values.py

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/all_fp8_values.py b/transformer_engine/pytorch/sequential/cpp_extensions/all_fp8_values.py
new file mode 100644
index 0000000000..777b731960
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/all_fp8_values.py
@@ -0,0 +1,72 @@
+# fmt: off
+nan = float("nan")
+inf = float("inf")
+ALL_FP8E4M3_VALUES = [
+   0.         ,    0.001953125,    0.00390625 ,    0.005859375,    0.0078125  ,    0.009765625,    0.01171875 ,    0.013671875,
+   0.015625   ,    0.017578125,    0.01953125 ,    0.021484375,    0.0234375  ,    0.025390625,    0.02734375 ,    0.029296875,
+   0.03125    ,    0.03515625 ,    0.0390625  ,    0.04296875 ,    0.046875   ,    0.05078125 ,    0.0546875  ,    0.05859375 ,
+   0.0625     ,    0.0703125  ,    0.078125   ,    0.0859375  ,    0.09375    ,    0.1015625  ,    0.109375   ,    0.1171875  ,
+   0.125      ,    0.140625   ,    0.15625    ,    0.171875   ,    0.1875     ,    0.203125   ,    0.21875    ,    0.234375   ,
+   0.25       ,    0.28125    ,    0.3125     ,    0.34375    ,    0.375      ,    0.40625    ,    0.4375     ,    0.46875    ,
+   0.5        ,    0.5625     ,    0.625      ,    0.6875     ,    0.75       ,    0.8125     ,    0.875      ,    0.9375     ,
+   1.         ,    1.125      ,    1.25       ,    1.375      ,    1.5        ,    1.625      ,    1.75       ,    1.875      ,
+   2.         ,    2.25       ,    2.5        ,    2.75       ,    3.         ,    3.25       ,    3.5        ,    3.75       ,
+   4.         ,    4.5        ,    5.         ,    5.5        ,    6.         ,    6.5        ,    7.         ,    7.5        ,
+   8.         ,    9.         ,   10.         ,   11.         ,   12.         ,   13.         ,   14.         ,   15.         ,
+  16.         ,   18.         ,   20.         ,   22.         ,   24.         ,   26.         ,   28.         ,   30.         ,
+  32.         ,   36.         ,   40.         ,   44.         ,   48.         ,   52.         ,   56.         ,   60.         ,
+  64.         ,   72.         ,   80.         ,   88.         ,   96.         ,  104.         ,  112.         ,  120.         ,
+ 128.         ,  144.         ,  160.         ,  176.         ,  192.         ,  208.         ,  224.         ,  240.         ,
+ 256.         ,  288.         ,  320.         ,  352.         ,  384.         ,  416.         ,  448.         ,  nan          ,
+  -0.         ,   -0.001953125,   -0.00390625 ,   -0.005859375,   -0.0078125  ,   -0.009765625,   -0.01171875 ,   -0.013671875,
+  -0.015625   ,   -0.017578125,   -0.01953125 ,   -0.021484375,   -0.0234375  ,   -0.025390625,   -0.02734375 ,   -0.029296875,
+  -0.03125    ,   -0.03515625 ,   -0.0390625  ,   -0.04296875 ,   -0.046875   ,   -0.05078125 ,   -0.0546875  ,   -0.05859375 ,
+  -0.0625     ,   -0.0703125  ,   -0.078125   ,   -0.0859375  ,   -0.09375    ,   -0.1015625  ,   -0.109375   ,   -0.1171875  ,
+  -0.125      ,   -0.140625   ,   -0.15625    ,   -0.171875   ,   -0.1875     ,   -0.203125   ,   -0.21875    ,   -0.234375   ,
+  -0.25       ,   -0.28125    ,   -0.3125     ,   -0.34375    ,   -0.375      ,   -0.40625    ,   -0.4375     ,   -0.46875    ,
+  -0.5        ,   -0.5625     ,   -0.625      ,   -0.6875     ,   -0.75       ,   -0.8125     ,   -0.875      ,   -0.9375     ,
+  -1.         ,   -1.125      ,   -1.25       ,   -1.375      ,   -1.5        ,   -1.625      ,   -1.75       ,   -1.875      ,
+  -2.         ,   -2.25       ,   -2.5        ,   -2.75       ,   -3.         ,   -3.25       ,   -3.5        ,   -3.75       ,
+  -4.         ,   -4.5        ,   -5.         ,   -5.5        ,   -6.         ,   -6.5        ,   -7.         ,   -7.5        ,
+  -8.         ,   -9.         ,  -10.         ,  -11.         ,  -12.         ,  -13.         ,  -14.         ,  -15.         ,
+ -16.         ,  -18.         ,  -20.         ,  -22.         ,  -24.         ,  -26.         ,  -28.         ,  -30.         ,
+ -32.         ,  -36.         ,  -40.         ,  -44.         ,  -48.         ,  -52.         ,  -56.         ,  -60.         ,
+ -64.         ,  -72.         ,  -80.         ,  -88.         ,  -96.         , -104.         , -112.         , -120.         ,
+-128.         , -144.         , -160.         , -176.         , -192.         , -208.         , -224.         , -240.         ,
+-256.         , -288.         , -320.         , -352.         , -384.         , -416.         , -448.         ,  nan          ,
+]
+
+ALL_FP8E5M2_VALUES = [
+      0.                ,      0.0000152587890625,      0.000030517578125 ,      0.0000457763671875,      0.00006103515625  ,     0.0000762939453125,      0.000091552734375 ,      0.0001068115234375,
+      0.0001220703125   ,      0.000152587890625 ,      0.00018310546875  ,      0.000213623046875 ,      0.000244140625    ,     0.00030517578125  ,      0.0003662109375   ,      0.00042724609375  ,
+      0.00048828125     ,      0.0006103515625   ,      0.000732421875    ,      0.0008544921875   ,      0.0009765625      ,     0.001220703125    ,      0.00146484375     ,      0.001708984375    ,
+      0.001953125       ,      0.00244140625     ,      0.0029296875      ,      0.00341796875     ,      0.00390625        ,     0.0048828125      ,      0.005859375       ,      0.0068359375      ,
+      0.0078125         ,      0.009765625       ,      0.01171875        ,      0.013671875       ,      0.015625          ,     0.01953125        ,      0.0234375         ,      0.02734375        ,
+      0.03125           ,      0.0390625         ,      0.046875          ,      0.0546875         ,      0.0625            ,     0.078125          ,      0.09375           ,      0.109375          ,
+      0.125             ,      0.15625           ,      0.1875            ,      0.21875           ,      0.25              ,     0.3125            ,      0.375             ,      0.4375            ,
+      0.5               ,      0.625             ,      0.75              ,      0.875             ,      1.                ,     1.25              ,      1.5               ,      1.75              ,
+      2.                ,      2.5               ,      3.                ,      3.5               ,      4.                ,     5.                ,      6.                ,      7.                ,
+      8.                ,     10.                ,     12.                ,     14.                ,     16.                ,    20.                ,     24.                ,     28.                ,
+     32.                ,     40.                ,     48.                ,     56.                ,     64.                ,    80.                ,     96.                ,    112.                ,
+    128.                ,    160.                ,    192.                ,    224.                ,    256.                ,   320.                ,    384.                ,    448.                ,
+    512.                ,    640.                ,    768.                ,    896.                ,   1024.                ,  1280.                ,   1536.                ,   1792.                ,
+   2048.                ,   2560.                ,   3072.                ,   3584.                ,   4096.                ,  5120.                ,   6144.                ,   7168.                ,
+   8192.                ,  10240.                ,  12288.                ,  14336.                ,  16384.                , 20480.                ,  24576.                ,  28672.                ,
+  32768.                ,  40960.                ,  49152.                ,  57344.                ,    inf                 ,   nan                 ,    nan                 ,    nan                 ,
+     -0.                ,     -0.0000152587890625,     -0.000030517578125 ,     -0.0000457763671875,     -0.00006103515625  ,    -0.0000762939453125,     -0.000091552734375 ,     -0.0001068115234375,
+     -0.0001220703125   ,     -0.000152587890625 ,     -0.00018310546875  ,     -0.000213623046875 ,     -0.000244140625    ,    -0.00030517578125  ,     -0.0003662109375   ,     -0.00042724609375  ,
+     -0.00048828125     ,     -0.0006103515625   ,     -0.000732421875    ,     -0.0008544921875   ,     -0.0009765625      ,    -0.001220703125    ,     -0.00146484375     ,     -0.001708984375    ,
+     -0.001953125       ,     -0.00244140625     ,     -0.0029296875      ,     -0.00341796875     ,     -0.00390625        ,    -0.0048828125      ,     -0.005859375       ,     -0.0068359375      ,
+     -0.0078125         ,     -0.009765625       ,     -0.01171875        ,     -0.013671875       ,     -0.015625          ,    -0.01953125        ,     -0.0234375         ,     -0.02734375        ,
+     -0.03125           ,     -0.0390625         ,     -0.046875          ,     -0.0546875         ,     -0.0625            ,    -0.078125          ,     -0.09375           ,     -0.109375          ,
+     -0.125             ,     -0.15625           ,     -0.1875            ,     -0.21875           ,     -0.25              ,    -0.3125            ,     -0.375             ,     -0.4375            ,
+     -0.5               ,     -0.625             ,     -0.75              ,     -0.875             ,     -1.                ,    -1.25              ,     -1.5               ,     -1.75              ,
+     -2.                ,     -2.5               ,     -3.                ,     -3.5               ,     -4.                ,    -5.                ,     -6.                ,     -7.                ,
+     -8.                ,    -10.                ,    -12.                ,    -14.                ,    -16.                ,   -20.                ,    -24.                ,    -28.                ,
+    -32.                ,    -40.                ,    -48.                ,    -56.                ,    -64.                ,   -80.                ,    -96.                ,   -112.                ,
+   -128.                ,   -160.                ,   -192.                ,   -224.                ,   -256.                ,  -320.                ,   -384.                ,   -448.                ,
+   -512.                ,   -640.                ,   -768.                ,   -896.                ,  -1024.                , -1280.                ,  -1536.                ,  -1792.                ,
+  -2048.                ,  -2560.                ,  -3072.                ,  -3584.                ,  -4096.                , -5120.                ,  -6144.                ,  -7168.                ,
+  -8192.                , -10240.                , -12288.                , -14336.                , -16384.                , 20480.                , -24576.                , -28672.                ,
+ -32768.                , -40960.                , -49152.                , -57344.                ,   -inf                 ,   nan                 ,    nan                 ,    nan                 ,
+]

From 9437a958c2183d857a0506e7fc9ebe639df64339 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 17:44:49 +0200
Subject: [PATCH 266/535] sidestep torch compile issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/base.py         | 46 +++++++++++++------
 1 file changed, 31 insertions(+), 15 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index b7be1cfef1..8675fabeee 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -24,31 +24,47 @@ def __init__(self):
     def forward(
         self, x: torch.Tensor, seq_lens: torch.Tensor | None = None
     ) -> torch.Tensor:
+        self.precompiled_for(x, seq_lens)
         if seq_lens is None:
-            if x.dim() == 2:
-                seq_lens = torch.tensor([x.shape[0]], dtype=torch.int32, device="cuda")
-            elif x.dim() == 3:
-                seq_lens = torch.tensor(
-                    [x.shape[1]] * x.shape[0], dtype=torch.int32, device="cuda"
-                )
-                x = x.view(x.shape[1] * x.shape[0], x.shape[2])
-            else:
-                raise ValueError(f"Unsupported input shape: {x.shape}")
-        else:
-            assert x.dim() == 2
-            assert x.shape[0] == seq_lens.sum().item()
+            seq_lens = self.precompiled_seq_lens
+        assert self.pipeline is not None
+
+        return apply(x, self.pipeline, self.training)
+
+    def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None):
+        if seq_lens is None:
+            self.precompiled_seq_lens = BaseModule._create_seq_lens_tensor(x)
+
         assert x.is_cuda
-        assert seq_lens.is_cuda
         assert x.is_contiguous()
-        assert seq_lens.is_contiguous()
+        if seq_lens is not None:
+            assert seq_lens.is_cuda
+            assert seq_lens.is_contiguous()
 
+        self._setup_pipeline()
+
+        return self
+
+    @staticmethod
+    def _create_seq_lens_tensor(x: torch.Tensor):
+        if x.dim() == 2:
+            seq_lens = torch.tensor([x.shape[0]], dtype=torch.int32, device="cuda")
+        elif x.dim() == 3:
+            seq_lens = torch.tensor(
+                [x.shape[1]] * x.shape[0], dtype=torch.int32, device="cuda"
+            )
+            x = x.view(x.shape[1] * x.shape[0], x.shape[2])
+        else:
+            raise ValueError(f"Unsupported input shape: {x.shape}")
+        return seq_lens
+
+    def _setup_pipeline(self):
         env = self._current_env()
         if self.pipeline is None or env != self.compile_env:
             self.pipeline = ComputePipeline(
                 [op for op in self._ops() if op is not None], env
             )
             self.compile_env = env
-        return apply(x, self.pipeline, self.training)
 
     def _current_env(self) -> Recipe:
         return Recipe.current()

From bb318a0511630d5449504d941765cc0d8c7844da Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 17:53:23 +0200
Subject: [PATCH 267/535] sidestep torch compile issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/base.py         | 25 +++++++++----------
 1 file changed, 12 insertions(+), 13 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 8675fabeee..d648f2a39b 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -25,26 +25,24 @@ def forward(
         self, x: torch.Tensor, seq_lens: torch.Tensor | None = None
     ) -> torch.Tensor:
         self.precompiled_for(x, seq_lens)
-        if seq_lens is None:
-            seq_lens = self.precompiled_seq_lens
-        assert self.pipeline is not None
-
-        return apply(x, self.pipeline, self.training)
+        return self._run(x)
 
     def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None):
-        if seq_lens is None:
-            self.precompiled_seq_lens = BaseModule._create_seq_lens_tensor(x)
-
         assert x.is_cuda
         assert x.is_contiguous()
-        if seq_lens is not None:
-            assert seq_lens.is_cuda
-            assert seq_lens.is_contiguous()
+        if seq_lens is None:
+            seq_lens = BaseModule._create_seq_lens_tensor(x)
+        assert seq_lens.is_cuda
+        assert seq_lens.is_contiguous()
 
-        self._setup_pipeline()
+        self._setup_pipeline(x, seq_lens)
 
         return self
 
+    def _run(self, x: torch.Tensor):
+        assert self.pipeline is not None
+        return apply(x, self.pipeline, self.training)
+
     @staticmethod
     def _create_seq_lens_tensor(x: torch.Tensor):
         if x.dim() == 2:
@@ -58,7 +56,8 @@ def _create_seq_lens_tensor(x: torch.Tensor):
             raise ValueError(f"Unsupported input shape: {x.shape}")
         return seq_lens
 
-    def _setup_pipeline(self):
+    def _setup_pipeline(self, x: torch.Tensor, seq_lens: torch.Tensor):
+        del x, seq_lens  # TODO: take x's type into account, save seq_lens
         env = self._current_env()
         if self.pipeline is None or env != self.compile_env:
             self.pipeline = ComputePipeline(

From 74b31236b255a9437ea8e07a73b99171340f9d1c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 17:54:37 +0200
Subject: [PATCH 268/535] sidestep torch compile issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/module/base.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index d648f2a39b..142659ff71 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -37,7 +37,7 @@ def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None)
 
         self._setup_pipeline(x, seq_lens)
 
-        return self
+        return self._run
 
     def _run(self, x: torch.Tensor):
         assert self.pipeline is not None

From c1a9930c8acdc2af632ee42edf5d6873dc82400b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 18:02:53 +0200
Subject: [PATCH 269/535] sidestep torch compile issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py |  4 +++-
 .../sequential/cpp_extensions/__init__.pyi        |  2 +-
 .../pytorch/sequential/cppsrc/pybind.cpp          | 15 ++++++++-------
 3 files changed, 12 insertions(+), 9 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 744076da75..5a6cba1394 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -29,7 +29,9 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        self.handle = create_tensor(dtype.value, data, amax, scale, scale_inv)
+        self.handle = create_tensor(
+            dtype.value, data.shape, data, amax, scale, scale_inv
+        )
         self.data = data
         self.amax = amax
         self.scale = scale
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 83da62da7a..ab14368c91 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -43,7 +43,7 @@ class Tensor:
     scale_inv: torch.Tensor
     def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
 
-def create_tensor(dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> Tensor: ...
+def create_tensor(dtype: DType, shape: Sequence[int], data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> Tensor: ...
 def get_tensor_dtype(self: Tensor) -> DType: ...
 def get_tensor_shape(self: Tensor) -> Sequence[int]: ...
 def destroy_tensor(self: Tensor) -> None: ...
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index db1ca775b0..104a8168f5 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -1,5 +1,6 @@
 /*************************************************************************
- * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+ * Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights
+ *reserved.
  *
  * See LICENSE for license information.
  ************************************************************************/
@@ -176,7 +177,7 @@ template <> struct wrapped<NVTEShape> : exposed_type<std::vector<int64_t>> {
   static NVTEShape unwrap(const std::vector<int64_t> &arg) {
     NVTEShape shape{};
     shape.ndim = arg.size();
-    shape.data = (size_t*)arg.data();
+    shape.data = (size_t *)arg.data();
     return shape;
   }
 };
@@ -247,13 +248,13 @@ void multi_cast_transpose(const std::vector<int64_t> &inputs,
 // ----------- Registration of torch.ops -----------
 TORCH_LIBRARY(transformer_engine_cuda, m) {
   m.def("create_tensor",
-        wrap(+[](NVTEDType dtype, at::Tensor data, at::Tensor amax,
-                 at::Tensor scale, at::Tensor scale_inv) -> NVTETensor {
+        wrap(+[](NVTEDType dtype, const std::vector<int64_t> &shape,
+                 at::Tensor data, at::Tensor amax, at::Tensor scale,
+                 at::Tensor scale_inv) -> NVTETensor {
           return nvte_create_tensor(
               getDataPtr(data),
-              NVTEShape{(size_t *)(data.sizes().data()), data.sizes().size()},
-              dtype, getDataPtr(amax), getDataPtr(scale),
-              getDataPtr(scale_inv));
+              NVTEShape{(size_t *)(shape.data()), shape.size()}, dtype,
+              getDataPtr(amax), getDataPtr(scale), getDataPtr(scale_inv));
         }));
   m.def("get_tensor_dtype", wrap(nvte_tensor_type));
   m.def("get_tensor_shape", wrap(nvte_tensor_shape));

From cd69e79a1426101e5d9effab71a7a49f254b66d0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 18:13:12 +0200
Subject: [PATCH 270/535] sidestep torch compile issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py   |  6 ++++++
 .../pytorch/sequential/cppsrc/pybind.cpp            | 13 +------------
 2 files changed, 7 insertions(+), 12 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 5a6cba1394..62cab5054b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -29,9 +29,15 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
+        assert data.is_cuda and data.is_contiguous()
+        assert amax.is_cuda and amax.is_contiguous()
+        assert scale.is_cuda and scale.is_contiguous()
+        assert scale_inv.is_cuda and scale_inv.is_contiguous()
+
         self.handle = create_tensor(
             dtype.value, data.shape, data, amax, scale, scale_inv
         )
+
         self.data = data
         self.amax = amax
         self.scale = scale
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 104a8168f5..184de13020 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -60,18 +60,7 @@ void cuda_check() {
 }
 
 float *getDataPtr(at::Tensor t) {
-  if (t.numel() > 0) {
-    if (!t.is_cuda()) {
-      throw std::runtime_error("Cannot create NVTE Tensor: !tensor.is_cuda()");
-    }
-    if (!t.is_contiguous()) {
-      throw std::runtime_error(
-          "Cannot create NVTE Tensor: !tensor.is_contiguous()");
-    }
-    return reinterpret_cast<float *>(t.data_ptr());
-  } else {
-    return nullptr;
-  }
+  return reinterpret_cast<float *>(t.data_ptr());
 }
 
 // ----------- Wrapper for NVTETensorPack -----------

From d7420eb02c430bdf83171bf6885230c4b04395bf Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 18:14:53 +0200
Subject: [PATCH 271/535] make all tensors cuda

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py       | 2 +-
 transformer_engine/pytorch/sequential/nvte/_common.py     | 6 +++---
 transformer_engine/pytorch/sequential/nvte/empty.py       | 8 ++++----
 transformer_engine/pytorch/sequential/nvte/mmt.py         | 6 +++++-
 4 files changed, 13 insertions(+), 9 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 75323bc1c0..d8291f5642 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -97,7 +97,7 @@ def forward(  # type: ignore[arg-type]
 
         # Expose result for Pytorch
         x_data = exposed_x.data
-        exposed_x.data = torch.Tensor()  # avoid copy
+        exposed_x.data = torch.Tensor(device="cuda")  # avoid copy
         exposed_y = exposed_x.clone()  # copy history
         exposed_x.data = x_data
         exposed_y.data = y.data
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 2d4a38ce34..3b31b10107 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -8,7 +8,7 @@ def make_nvte_tensor(t: torch.Tensor):
     return _nvte.Tensor(
         torch_to_te_dtype(t.dtype),
         t.data,
-        torch.Tensor(),
-        torch.Tensor(),
-        torch.Tensor(),
+        torch.Tensor(device="cuda"),
+        torch.Tensor(device="cuda"),
+        torch.Tensor(device="cuda"),
     )
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index d6685488ba..3156780b77 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -22,10 +22,10 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda")
             if shape != ()
-            else torch.Tensor(),
-            amax if is_fp8(dtype) else torch.Tensor(),  # type: ignore[possibly-unbound]
-            scale if is_fp8(dtype) else torch.Tensor(),  # type: ignore[possibly-unbound]
-            scale_inv if is_fp8(dtype) else torch.Tensor(),  # type: ignore[possibly-unbound]
+            else torch.Tensor(device="cuda"),
+            amax if is_fp8(dtype) else torch.Tensor(device="cuda"),  # type: ignore[possibly-unbound]
+            scale if is_fp8(dtype) else torch.Tensor(device="cuda"),  # type: ignore[possibly-unbound]
+            scale_inv if is_fp8(dtype) else torch.Tensor(device="cuda"),  # type: ignore[possibly-unbound]
         )
         for shape, dtype in shapes_dtypes
     )
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 3523b72ded..a6431289bb 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -24,7 +24,11 @@ def _cublas_workspace():
     workspace_size = 33_554_432 if _is_hopper() else 4_194_304
     data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
     return _nvte.Tensor(
-        _nvte.DType.Byte, data, torch.Tensor(), torch.Tensor(), torch.Tensor()
+        _nvte.DType.Byte,
+        data,
+        torch.Tensor(device="cuda"),
+        torch.Tensor(device="cuda"),
+        torch.Tensor(device="cuda"),
     )
 
 

From e5308b835f5a34b7ebd46e9fc852194f91c4a751 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 18:18:58 +0200
Subject: [PATCH 272/535] make all tensors cuda

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py       | 2 +-
 transformer_engine/pytorch/sequential/nvte/_common.py     | 6 +++---
 transformer_engine/pytorch/sequential/nvte/empty.py       | 8 ++++----
 transformer_engine/pytorch/sequential/nvte/mmt.py         | 6 +++---
 4 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index d8291f5642..f35a07e053 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -97,7 +97,7 @@ def forward(  # type: ignore[arg-type]
 
         # Expose result for Pytorch
         x_data = exposed_x.data
-        exposed_x.data = torch.Tensor(device="cuda")  # avoid copy
+        exposed_x.data = torch.Tensor().cuda()  # avoid copy
         exposed_y = exposed_x.clone()  # copy history
         exposed_x.data = x_data
         exposed_y.data = y.data
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 3b31b10107..1fe30a10f5 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -8,7 +8,7 @@ def make_nvte_tensor(t: torch.Tensor):
     return _nvte.Tensor(
         torch_to_te_dtype(t.dtype),
         t.data,
-        torch.Tensor(device="cuda"),
-        torch.Tensor(device="cuda"),
-        torch.Tensor(device="cuda"),
+        torch.Tensor().cuda(),
+        torch.Tensor().cuda(),
+        torch.Tensor().cuda(),
     )
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 3156780b77..32348d739e 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -22,10 +22,10 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
             dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda")
             if shape != ()
-            else torch.Tensor(device="cuda"),
-            amax if is_fp8(dtype) else torch.Tensor(device="cuda"),  # type: ignore[possibly-unbound]
-            scale if is_fp8(dtype) else torch.Tensor(device="cuda"),  # type: ignore[possibly-unbound]
-            scale_inv if is_fp8(dtype) else torch.Tensor(device="cuda"),  # type: ignore[possibly-unbound]
+            else torch.Tensor().cuda(),
+            amax if is_fp8(dtype) else torch.Tensor().cuda(),  # type: ignore[possibly-unbound]
+            scale if is_fp8(dtype) else torch.Tensor().cuda(),  # type: ignore[possibly-unbound]
+            scale_inv if is_fp8(dtype) else torch.Tensor().cuda(),  # type: ignore[possibly-unbound]
         )
         for shape, dtype in shapes_dtypes
     )
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index a6431289bb..8c019db95e 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -26,9 +26,9 @@ def _cublas_workspace():
     return _nvte.Tensor(
         _nvte.DType.Byte,
         data,
-        torch.Tensor(device="cuda"),
-        torch.Tensor(device="cuda"),
-        torch.Tensor(device="cuda"),
+        torch.Tensor().cuda(),
+        torch.Tensor().cuda(),
+        torch.Tensor().cuda(),
     )
 
 

From bff7ea2ed0e0c41e5aa2c8fe7b13738148f9b27d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 25 Aug 2023 18:20:53 +0200
Subject: [PATCH 273/535] tensor compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py        | 9 +++++----
 1 file changed, 5 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 62cab5054b..ce36e5a8c9 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -29,10 +29,11 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        assert data.is_cuda and data.is_contiguous()
-        assert amax.is_cuda and amax.is_contiguous()
-        assert scale.is_cuda and scale.is_contiguous()
-        assert scale_inv.is_cuda and scale_inv.is_contiguous()
+        # Torch.compile doesn't like these TODO
+        # assert data.is_cuda and data.is_contiguous()
+        # assert amax.is_cuda and amax.is_contiguous()
+        # assert scale.is_cuda and scale.is_contiguous()
+        # assert scale_inv.is_cuda and scale_inv.is_contiguous()
 
         self.handle = create_tensor(
             dtype.value, data.shape, data, amax, scale, scale_inv

From 729ceb104f7b7527afc7cd2e1c4c74a22bfa38dc Mon Sep 17 00:00:00 2001
From: cyanguwa <8636796+cyanguwa@users.noreply.github.com>
Date: Fri, 25 Aug 2023 15:35:26 -0700
Subject: [PATCH 274/535] Fix rng_state issue and minor compiler warning (#395)

fix rng_state issue and minor compiler warning

Signed-off-by: Charlene Yang <8636796+cyanguwa@users.noreply.github.com>
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/pytorch/test_fused_attn.py                 |  6 ++----
 .../common/transpose/transpose_fusion.cu         |  2 --
 .../pytorch/csrc/extensions/attention.cu         | 16 ++++++++++++++--
 3 files changed, 16 insertions(+), 8 deletions(-)

diff --git a/tests/pytorch/test_fused_attn.py b/tests/pytorch/test_fused_attn.py
index f516b70b0e..3c8a10e9e9 100644
--- a/tests/pytorch/test_fused_attn.py
+++ b/tests/pytorch/test_fused_attn.py
@@ -181,9 +181,6 @@ def _run_transformer_layer(dtype, bs, config, backend, ckpt_attn, bias_type):
     seqlens.fill_(config.seq_len)
     cu_seqlens = torch.zeros(bs + 1, device = inp.device, dtype = torch.int32)
     cu_seqlens[1:] = torch.cumsum(seqlens, dim = 0)
-    op_grad = torch.randn(
-        config.seq_len, bs, config.num_attention_heads * config.head_dim,
-        dtype = dtype).cuda()
 
     sigma = 0.02
     init_method = init_method_normal(sigma)
@@ -241,7 +238,8 @@ def _run_transformer_layer(dtype, bs, config, backend, ckpt_attn, bias_type):
             checkpoint_core_attention = ckpt_attn,
             core_attention_bias_type = bias_type,
             core_attention_bias = bias)
-        op.backward(op_grad)
+        loss = op.sum()
+        loss.backward()
 
     return op, inp.grad
 
diff --git a/transformer_engine/common/transpose/transpose_fusion.cu b/transformer_engine/common/transpose/transpose_fusion.cu
index ba89c4abd2..8561a6881b 100644
--- a/transformer_engine/common/transpose/transpose_fusion.cu
+++ b/transformer_engine/common/transpose/transpose_fusion.cu
@@ -293,8 +293,6 @@ transpose_dbias_kernel_notaligned(const Param param,
       }
     }
     OVec out_trans[nvec_in];  // NOLINT(*)
-    const bool valid_store = my_place < tile_length &&
-                             warp_id_in_tile * n_iterations + i < tile_height;
     transpose_regs_partial_dbias(
                     in[current_in ^ 1],
                     out_trans,
diff --git a/transformer_engine/pytorch/csrc/extensions/attention.cu b/transformer_engine/pytorch/csrc/extensions/attention.cu
index 4904fbade5..423b16013f 100644
--- a/transformer_engine/pytorch/csrc/extensions/attention.cu
+++ b/transformer_engine/pytorch/csrc/extensions/attention.cu
@@ -194,7 +194,13 @@ std::vector<at::Tensor> fused_attn_fwd_qkvpacked(
   for (size_t i = 0; i < nvte_aux_tensor_pack.size; ++i) {
     auto tensor = reinterpret_cast<transformer_engine::Tensor*>(nvte_aux_tensor_pack.tensors[i]);
     // allocate memory for nvte_aux_tensor_pack.tensors
-    auto output_tensor = allocateSpace(tensor->data.shape, tensor->data.dtype, false);
+    at::Tensor output_tensor;
+    if (nvte_aux_tensor_pack.size >= 2) {
+        output_tensor = (i < nvte_aux_tensor_pack.size-1)
+            ? allocateSpace(tensor->data.shape, tensor->data.dtype, false) : rng_state;
+    } else {
+        output_tensor = allocateSpace(tensor->data.shape, tensor->data.dtype, false);
+    }
     output_tensors.push_back(output_tensor);
     tensor->data.dptr = output_tensor.data_ptr();
   }
@@ -497,7 +503,13 @@ std::vector<at::Tensor> fused_attn_fwd_kvpacked(
   for (size_t i = 0; i < nvte_aux_tensor_pack.size; ++i) {
     auto tensor = reinterpret_cast<transformer_engine::Tensor*>(nvte_aux_tensor_pack.tensors[i]);
     // allocate memory for nvte_aux_tensor_pack.tensors
-    auto output_tensor = allocateSpace(tensor->data.shape, tensor->data.dtype, false);
+    at::Tensor output_tensor;
+    if (nvte_aux_tensor_pack.size >= 2) {
+        output_tensor = (i < nvte_aux_tensor_pack.size-1)
+            ? allocateSpace(tensor->data.shape, tensor->data.dtype, false) : rng_state;
+    } else {
+        output_tensor = allocateSpace(tensor->data.shape, tensor->data.dtype, false);
+    }
     output_tensors.push_back(output_tensor);
     tensor->data.dptr = output_tensor.data_ptr();
   }

From dd3eb95ae0fbb894f5aef358690bc5fc64441a7f Mon Sep 17 00:00:00 2001
From: zlsh80826 <rewang@nvidia.com>
Date: Sat, 26 Aug 2023 06:35:51 +0800
Subject: [PATCH 275/535] Error handle for non-sm80/sm90 GPUs when using fused
 attention (#393)

* Fused attention kernel only supports sm80 and sm90

Signed-off-by: Reese Wang <rewang@nvidia.com>

* Update transformer_engine/jax/csrc/modules.cpp

Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* arbitary fused kernel supports sm86/sm89 after 8.9.3

Signed-off-by: Reese Wang <rewang@nvidia.com>

* Skip sm70

Signed-off-by: Reese Wang <rewang@nvidia.com>

* Forward is_fused_attn_kernel_available to cpp backend

Signed-off-by: Reese Wang <rewang@nvidia.com>

* Remove cpp is_fused_attn_available API

Signed-off-by: Reese Wang <rewang@nvidia.com>

---------

Signed-off-by: Reese Wang <rewang@nvidia.com>
Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Co-authored-by: Tim Moon <4406448+timmoon10@users.noreply.github.com>
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/jax/test_fused_attn.py                  | 25 +++++-----
 .../common/fused_attn/fused_attn.cpp          |  9 +++-
 transformer_engine/jax/cpp_extensions.py      | 34 +++++++++++--
 transformer_engine/jax/csrc/extensions.cpp    |  1 -
 transformer_engine/jax/csrc/modules.cpp       | 11 +----
 transformer_engine/jax/csrc/modules.h         |  2 -
 transformer_engine/jax/flax/transformer.py    | 49 ++++++++++---------
 transformer_engine/jax/fused_attn.py          | 19 ++++---
 8 files changed, 90 insertions(+), 60 deletions(-)

diff --git a/tests/jax/test_fused_attn.py b/tests/jax/test_fused_attn.py
index e0f21c103e..6acdfa2c85 100644
--- a/tests/jax/test_fused_attn.py
+++ b/tests/jax/test_fused_attn.py
@@ -19,8 +19,9 @@
 from jax import value_and_grad, jit
 
 from transformer_engine.jax.fused_attn import AttnBiasType, AttnMaskType
-from transformer_engine.jax.fused_attn import is_fused_attn_kernel_available
 from transformer_engine.jax.fused_attn import self_fused_attn, cross_fused_attn
+from transformer_engine.jax.fused_attn import is_fused_attn_kernel_available
+from transformer_engine_jax import get_device_compute_capability
 
 # Type annotations
 Array = jnp.ndarray
@@ -146,8 +147,6 @@ def customcall_cross_fused_attn(q, kv, q_token, kv_token, dropout_rng, **kwargs)
     return cross_fused_attn(q, kv, mask, dropout_rng, **kwargs)
 
 
-@pytest.mark.skipif(not is_fused_attn_kernel_available(),
-                    reason="Fused attention kernel is not supported.")
 @pytest.mark.parametrize('b, s, h, d', SELF_CASES)
 @pytest.mark.parametrize('attn_bias_type', [AttnBiasType.NO_BIAS, AttnBiasType.POST_SCALE_BIAS])
 @pytest.mark.parametrize('attn_mask_type', [AttnMaskType.PADDING_MASK, AttnMaskType.CAUSAL_MASK])
@@ -159,13 +158,14 @@ class TestSelfFusedAttn():
     """Tests for transformer_engine.jax.fused_attn.self_fused_attn"""
 
     @staticmethod
-    def _check_inputs(s, *, attn_bias_type, attn_mask_type, backend, pad_ratio):
-        # Arbitrary seqlen backend has a limited spec for now
-        # No bias, only causal mask, and no variable seqlen
-        if (s > 512 or backend == Backend.Arbitrary) and (attn_bias_type != AttnBiasType.NO_BIAS or
-                                                          attn_mask_type != AttnMaskType.CAUSAL_MASK
-                                                          or pad_ratio != 0):
-            pytest.skip("Unsupported inputs combination.")
+    def _check_inputs(s, *, attn_bias_type, attn_mask_type, backend, dropout_probability, dtype,
+                      head_dim, pad_ratio):
+        if (s > 512 or backend == Backend.Arbitrary) and pad_ratio != 0:
+            pytest.skip("Arbitrary seqlen backend hasn't support padded input.")
+
+        if not is_fused_attn_kernel_available(dtype, dtype, attn_bias_type, attn_mask_type,
+                                              dropout_probability, s, s, head_dim):
+            pytest.skip("Unsupported inputs combination or device compute capability.")
 
     def _set_inputs(self, b, s, h, d, *, attn_bias_type, attn_mask_type, backend,
                     dropout_probability, dtype, is_training, pad_ratio):
@@ -174,6 +174,9 @@ def _set_inputs(self, b, s, h, d, *, attn_bias_type, attn_mask_type, backend,
                                      attn_bias_type=attn_bias_type,
                                      attn_mask_type=attn_mask_type,
                                      backend=backend,
+                                     dropout_probability=dropout_probability,
+                                     dtype=dtype,
+                                     head_dim=d,
                                      pad_ratio=pad_ratio)
         key = jax.random.PRNGKey(0)
         subkeys = jax.random.split(key, 2)
@@ -361,7 +364,7 @@ def grad_func(fused_attn_func, *args, **kwargs):
                 jnp.zeros_like(primitive_dbias[:, :, self.valid_len:, self.valid_len:]))
 
 
-@pytest.mark.skipif(not is_fused_attn_kernel_available(),
+@pytest.mark.skipif(get_device_compute_capability(0) not in [80, 90],
                     reason="Fused attention kernel is not supported.")
 @pytest.mark.parametrize('b, s_q, s_kv, h, d', CROSS_CASES)
 @pytest.mark.parametrize('attn_mask_type', [AttnMaskType.PADDING_MASK])
diff --git a/transformer_engine/common/fused_attn/fused_attn.cpp b/transformer_engine/common/fused_attn/fused_attn.cpp
index 957c0b4735..43f1b40518 100644
--- a/transformer_engine/common/fused_attn/fused_attn.cpp
+++ b/transformer_engine/common/fused_attn/fused_attn.cpp
@@ -44,7 +44,7 @@ NVTE_Fused_Attn_Backend nvte_get_fused_attn_backend(
   } else if ((q_dtype == NVTEDType::kNVTEFloat16) || (q_dtype == NVTEDType::kNVTEBFloat16)) {
     bool flag_m512 = false;
     bool flag_arb = false;
-    if ((sm_arch_ >= 80)
+    if ((sm_arch_ == 80 || sm_arch_ == 90)
             && (head_dim == 64)
             && ((bias_type == NVTE_Bias_Type::NVTE_NO_BIAS)
                 || (bias_type == NVTE_Bias_Type::NVTE_POST_SCALE_BIAS))
@@ -55,7 +55,12 @@ NVTE_Fused_Attn_Backend nvte_get_fused_attn_backend(
                 || (qkv_layout == NVTE_QKV_Layout::NVTE_KV_INTERLEAVED))) {
       flag_m512 = true;
     }
-    if ((sm_arch_ >= 80)
+    if (
+#if (CUDNN_VERSION >= 8903)
+        (sm_arch_ >= 80)
+#else
+        (sm_arch_ == 80 || sm_arch_ == 90)
+#endif
             && (max_seqlen_q == max_seqlen_kv)
             && ((head_dim == 64) || (head_dim == 128))
             && (bias_type == NVTE_Bias_Type::NVTE_NO_BIAS)
diff --git a/transformer_engine/jax/cpp_extensions.py b/transformer_engine/jax/cpp_extensions.py
index 54cd348e1a..3d43934342 100644
--- a/transformer_engine/jax/cpp_extensions.py
+++ b/transformer_engine/jax/cpp_extensions.py
@@ -68,6 +68,33 @@ def jax_dtype_to_te_dtype(jax_dtype):
     raise ValueError(f"Not support the {jax_dtype=}")
 
 
+@dataclass(frozen=True)
+class FusedAttnHelper:
+    """
+    Helper for the fused attention backend
+    """
+
+    q_type: jnp.dtype
+    kv_type: jnp.dtype
+    attn_bias_type: NVTE_Bias_Type
+    attn_mask_type: NVTE_Mask_Type
+    dropout_probability: float
+    max_seqlen_q: int
+    max_seqlen_kv: int
+    head_dim: int
+
+    def is_fused_attn_kernel_available(self):
+        """Check if there is available fused attention kernel"""
+        return self.get_fused_attn_backend() != NVTE_Fused_Attn_Backend.NVTE_No_Backend
+
+    def get_fused_attn_backend(self):
+        """Get the fused attention kernel backend"""
+        return transformer_engine_jax.get_fused_attn_backend(
+            jax_dtype_to_te_dtype(self.q_type), jax_dtype_to_te_dtype(self.kv_type),
+            NVTE_QKV_Layout.NVTE_QKV_INTERLEAVED, self.attn_bias_type, self.attn_mask_type,
+            self.dropout_probability, self.max_seqlen_q, self.max_seqlen_kv, self.head_dim)
+
+
 def merge_named_shape(base, new):
     """
     merge named shape(ie, dict), no key conflict
@@ -2053,10 +2080,9 @@ def abstract(
         output_shape = (batch, max_seqlen, num_head, head_dim)
         output_dtype = qkv_dtype
 
-        backend = transformer_engine_jax.get_fused_attn_backend(
-            jax_dtype_to_te_dtype(qkv_dtype), jax_dtype_to_te_dtype(qkv_dtype),
-            NVTE_QKV_Layout.NVTE_QKV_INTERLEAVED, attn_bias_type, attn_mask_type,
-            dropout_probability, max_seqlen, max_seqlen, head_dim)
+        backend = FusedAttnHelper(qkv_dtype, qkv_dtype, attn_bias_type, attn_mask_type,
+                                  dropout_probability, max_seqlen, max_seqlen,
+                                  head_dim).get_fused_attn_backend()
 
         if backend == NVTE_Fused_Attn_Backend.NVTE_F16_max512_seqlen:
             softmax_aux_shape = (batch, num_head, max_seqlen, max_seqlen)
diff --git a/transformer_engine/jax/csrc/extensions.cpp b/transformer_engine/jax/csrc/extensions.cpp
index 144ffe471b..d9e8361f1e 100644
--- a/transformer_engine/jax/csrc/extensions.cpp
+++ b/transformer_engine/jax/csrc/extensions.cpp
@@ -63,7 +63,6 @@ PYBIND11_MODULE(transformer_engine_jax, m) {
     m.def("get_cuda_version", &GetCudaRuntimeVersion);
     m.def("get_device_compute_capability", &GetDeviceComputeCapability);
     m.def("pack_fused_attn_descriptor", &PackCustomCallFusedAttnDescriptor);
-    m.def("is_fused_attn_kernel_available", &IsFusedAttnKernelAvailable);
     m.def("get_fused_attn_backend", &GetFusedAttnBackend);
 
     pybind11::enum_<DType>(m, "DType", pybind11::module_local())
diff --git a/transformer_engine/jax/csrc/modules.cpp b/transformer_engine/jax/csrc/modules.cpp
index 602e6d2722..0c4ed8d52f 100644
--- a/transformer_engine/jax/csrc/modules.cpp
+++ b/transformer_engine/jax/csrc/modules.cpp
@@ -18,6 +18,7 @@
 #include <vector>
 
 #include "common/common.h"
+#include "common/util/cuda_runtime.h"
 #include "transformer_engine/activation.h"
 #include "transformer_engine/cast.h"
 #include "transformer_engine/fused_attn.h"
@@ -89,16 +90,6 @@ pybind11::bytes PackCustomCallFusedAttnDescriptor(
                                                     bias_type, mask_type, dtype, is_training});
 }
 
-bool IsFusedAttnKernelAvailable() {
-#if (CUDNN_VERSION >= 8901)
-    auto major = cudaDevicePropertiesManager::Instance().GetMajor();
-    // Fused attention requires at least Ampere
-    return major >= 8;
-#else
-    return false;
-#endif
-}
-
 void TransposeImpl(void *input, size_t rows, size_t cols, DType dtype, cudaStream_t stream,
                    void *output) {
     auto input_shape = std::vector<size_t>{rows, cols};
diff --git a/transformer_engine/jax/csrc/modules.h b/transformer_engine/jax/csrc/modules.h
index 75b4df574f..ea1b540bd3 100644
--- a/transformer_engine/jax/csrc/modules.h
+++ b/transformer_engine/jax/csrc/modules.h
@@ -114,8 +114,6 @@ pybind11::bytes PackCustomCallFusedAttnDescriptor(
     float scaling_factor, float dropout_probability, NVTE_Bias_Type bias_type,
     NVTE_Mask_Type mask_type, DType dtype, bool is_training);
 
-bool IsFusedAttnKernelAvailable();
-
 NVTE_Fused_Attn_Backend GetFusedAttnBackend(DType q_dtype, DType kv_dtype,
                                             NVTE_QKV_Layout qkv_layout, NVTE_Bias_Type bias_type,
                                             NVTE_Mask_Type mask_type, float dropout_probability,
diff --git a/transformer_engine/jax/flax/transformer.py b/transformer_engine/jax/flax/transformer.py
index 20a1075612..2a3d5979fd 100644
--- a/transformer_engine/jax/flax/transformer.py
+++ b/transformer_engine/jax/flax/transformer.py
@@ -414,7 +414,21 @@ def kv_init(key, shape, dtype):
 
             return jnp.stack([k_kernel, v_kernel], axis=-2, dtype=dtype)
 
-        first_sharding_type, second_sharding_type = infer_sharding_type()
+        # TODO(rewang): make it configurable for pre_scale_bias
+        attn_bias_type = AttnBiasType.NO_BIAS if bias is None else AttnBiasType.POST_SCALE_BIAS
+
+        def canonicalize_attn_mask_type(attn_mask_type):
+            """
+            Convert the string to AttnMaskType
+            """
+            if attn_mask_type == 'causal':
+                return AttnMaskType.CAUSAL_MASK
+            if attn_mask_type == 'padding':
+                return AttnMaskType.PADDING_MASK
+            raise ValueError(f"Unsupported {attn_mask_type=}, "
+                             "supported attn_mask_type = {'causal', 'padding'}")
+
+        attn_mask_type = canonicalize_attn_mask_type(self.attn_mask_type)
 
         canonicalize_dtype = dtypes.canonicalize_dtype(self.dtype)
         q_seqlen = inputs_q.shape[0] if self.transpose_batch_sequence else inputs_q.shape[1]
@@ -427,11 +441,16 @@ def _check_seqlen(seqlen):
         def _check_head_dim(head_dim):
             return head_dim in [64, 128]
 
+        has_fused_attn_kernel = is_fused_attn_kernel_available(self.dtype, self.dtype,
+                                                               attn_bias_type, attn_mask_type,
+                                                               self.dropout_rate, q_seqlen,
+                                                               kv_seqlen, self.head_dim)
+
         use_fused_attn = not decode and not self.transpose_batch_sequence and self.fuse_qkv and \
             canonicalize_dtype in [jnp.bfloat16, jnp.float16] and \
             _check_seqlen(q_seqlen) and _check_seqlen(kv_seqlen) and \
             _check_head_dim(self.head_dim) and \
-            is_fused_attn_kernel_available() and \
+            has_fused_attn_kernel and \
             enable_fused_attn
 
         if enable_fused_attn and not use_fused_attn:
@@ -454,12 +473,14 @@ def _check_head_dim(head_dim):
                           f"but got {kv_seqlen=}, "
             if not _check_head_dim(self.head_dim):
                 reason += f"head_dim should be 64 or 128 but got {self.head_dim}, "
-            if not is_fused_attn_kernel_available():
-                reason += "GPU arch >= Ampere and cuDNN >= 8.9.1 are required, "
+            if not has_fused_attn_kernel:
+                reason += "no fused attention kernel is available, "
 
             warnings.warn(
-                f"Fused attention is not enabled, " \
-                f"{reason}fall back to unfused attention")
+                f"Fused attention is not enabled. Because " \
+                f"{reason}fall back to unfused attention.")
+
+        first_sharding_type, second_sharding_type = infer_sharding_type()
 
         residual = inputs_q
         if self.fuse_qkv:
@@ -629,22 +650,6 @@ def _check_head_dim(head_dim):
                 # ensure the old key never used
                 del dropout_rng
 
-            # TODO(rewang): make it configurable for pre_scale_bias
-            attn_bias_type = AttnBiasType.NO_BIAS if bias is None else AttnBiasType.POST_SCALE_BIAS
-
-            def canonicalize_attn_mask_type(attn_mask_type):
-                """
-                Convert the string to AttnMaskType
-                """
-                if attn_mask_type == 'causal':
-                    return AttnMaskType.CAUSAL_MASK
-                if attn_mask_type == 'padding':
-                    return AttnMaskType.PADDING_MASK
-                raise ValueError(f"Unsupported {attn_mask_type=}, "
-                                 "supported attn_mask_type = {'causal', 'padding'}")
-
-            attn_mask_type = canonicalize_attn_mask_type(self.attn_mask_type)
-
             if inputs_q is inputs_kv:
                 qkv_proj = qkv_proj.reshape((*qkv_proj.shape[:-1], self.num_heads, self.head_dim))
                 qkv_sharding_constraint = (BATCH_AXES, SEQLEN_AXES, JOINED_AXES, HEAD_AXES,
diff --git a/transformer_engine/jax/fused_attn.py b/transformer_engine/jax/fused_attn.py
index 6c604af99e..aaca58b2d5 100644
--- a/transformer_engine/jax/fused_attn.py
+++ b/transformer_engine/jax/fused_attn.py
@@ -8,10 +8,10 @@
 import jax
 import jax.numpy as jnp
 
-import transformer_engine_jax
 from transformer_engine_jax import NVTE_Bias_Type
 from transformer_engine_jax import NVTE_Mask_Type
 
+from .cpp_extensions import FusedAttnHelper
 from .cpp_extensions import cross_fused_attn_fwd, cross_fused_attn_bwd
 from .cpp_extensions import self_fused_attn_fwd, self_fused_attn_bwd
 from .sharding import get_fused_attn_sharding_meta
@@ -22,13 +22,6 @@
 jax.config.update('experimental_xmap_spmd_lowering_manual', True)
 
 
-def is_fused_attn_kernel_available():
-    """
-    To check whether the fused attention kernel is available
-    """
-    return transformer_engine_jax.is_fused_attn_kernel_available()
-
-
 class AttnBiasType(Enum):
     """Attention Bias Type."""
     NO_BIAS = NVTE_Bias_Type.NVTE_NO_BIAS
@@ -43,6 +36,16 @@ class AttnMaskType(Enum):
     CAUSAL_MASK = NVTE_Mask_Type.NVTE_CAUSAL_MASK
 
 
+def is_fused_attn_kernel_available(q_type, kv_type, attn_bias_type, attn_mask_type,
+                                   dropout_probability, max_seqlen_q, max_seqlen_kv, head_dim):
+    """
+    To check whether the fused attention kernel is available
+    """
+    return FusedAttnHelper(q_type, kv_type, attn_bias_type.value, attn_mask_type.value,
+                           dropout_probability, max_seqlen_q, max_seqlen_kv,
+                           head_dim).is_fused_attn_kernel_available()
+
+
 def self_fused_attn(qkv: jnp.ndarray,
                     bias: jnp.ndarray,
                     mask: jnp.ndarray,

From 6e8544f910bdcd35f8018b152385b8b2449dc68a Mon Sep 17 00:00:00 2001
From: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Date: Fri, 25 Aug 2023 19:21:17 -0700
Subject: [PATCH 276/535] [PyTorch] move mask types to fprop (#402)

* API change and some test fixes

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* more test fixes

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* ONNX fixes

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* fix

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* Fixed fused attention tests

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

* rm duplicate test

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>

---------

Signed-off-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/pytorch/test_fused_attn.py          | 252 +++++++++++-----------
 tests/pytorch/test_numerics.py            |  24 ++-
 tests/pytorch/test_onnx_export.py         |  29 +--
 tests/pytorch/test_sanity.py              |  10 +-
 transformer_engine/pytorch/attention.py   | 145 ++++++++-----
 transformer_engine/pytorch/softmax.py     |   5 +-
 transformer_engine/pytorch/transformer.py |  48 +++--
 7 files changed, 287 insertions(+), 226 deletions(-)

diff --git a/tests/pytorch/test_fused_attn.py b/tests/pytorch/test_fused_attn.py
index 3c8a10e9e9..32442e40fb 100644
--- a/tests/pytorch/test_fused_attn.py
+++ b/tests/pytorch/test_fused_attn.py
@@ -77,10 +77,10 @@ def test_dot_product_attention(dtype, bs, model, ckpt_attn, bias_type):
 
     atol, rtol = (2.5e-2, 2.5e-2) if dtype == torch.bfloat16 else (5e-3, 5e-3)
     if bias_type == "no_bias":
-        assert torch.allclose(fused_attn_fwd, flash_attn_fwd, atol = atol, rtol = rtol)
-        assert torch.allclose(fused_attn_bwd, flash_attn_bwd, atol = atol, rtol = rtol)
-    assert torch.allclose(fused_attn_fwd, unfused_attn_fwd, atol = atol, rtol = rtol)
-    assert torch.allclose(fused_attn_bwd, unfused_attn_bwd, atol = atol, rtol = rtol)
+        assert torch.allclose(fused_attn_fwd, flash_attn_fwd, atol=atol, rtol=rtol)
+        assert torch.allclose(fused_attn_bwd, flash_attn_bwd, atol=atol, rtol=rtol)
+    assert torch.allclose(fused_attn_fwd, unfused_attn_fwd, atol=atol, rtol=rtol)
+    assert torch.allclose(fused_attn_bwd, unfused_attn_bwd, atol=atol, rtol=rtol)
 
 def _run_dot_product_attention(dtype, bs, config, backend, ckpt_attn, bias_type):
 
@@ -94,18 +94,18 @@ def _run_dot_product_attention(dtype, bs, config, backend, ckpt_attn, bias_type)
 
     inp = torch.randn(
             config.seq_len, bs, 3, config.num_attention_heads, config.head_dim,
-            dtype = dtype).cuda()
+            dtype=dtype).cuda()
     inp.requires_grad=True
-    seqlens = torch.empty(bs, dtype = torch.int32).cuda()
+    seqlens = torch.empty(bs, dtype=torch.int32).cuda()
     seqlens.fill_(config.seq_len)
-    cu_seqlens = torch.zeros(bs + 1, device = inp.device, dtype = torch.int32)
-    cu_seqlens[1:] = torch.cumsum(seqlens, dim = 0)
+    cu_seqlens = torch.zeros(bs + 1, device=inp.device, dtype=torch.int32)
+    cu_seqlens[1:] = torch.cumsum(seqlens, dim=0)
     op_grad = torch.randn(
         config.seq_len, bs, config.num_attention_heads * config.head_dim,
         dtype = dtype).cuda()
     if bias_type != "no_bias":
         bias = torch.randn(1, config.num_attention_heads, config.seq_len, config.seq_len,
-                dtype = dtype).cuda()
+                dtype=dtype).cuda()
     else:
         bias = None
 
@@ -113,24 +113,23 @@ def _run_dot_product_attention(dtype, bs, config, backend, ckpt_attn, bias_type)
          DotProductAttention(
                 config.num_attention_heads,
                 config.head_dim,
-                attention_dropout = config.dropout_p,
-                attn_mask_type = config.attn_mask_type,
-                sequence_parallel = False,
-                tp_size = 1,
-                get_rng_state_tracker = get_dummy_cuda_rng_tracker,
-                tp_group = None,
-                layer_number = 1,
-                attention_type = "self"
-        ).to(dtype = dtype).cuda()
+                attention_dropout=config.dropout_p,
+                sequence_parallel=False,
+                tp_size=1,
+                get_rng_state_tracker=get_dummy_cuda_rng_tracker,
+                tp_group=None,
+                layer_number=1,
+                attention_type="self"
+        ).to(dtype=dtype).cuda()
     )
 
     q = inp[:, :,0,:,:]
     k = inp[:, :,1,:,:]
     v = inp[:, :,2,:,:]
-    op = block(q, k, v,
-        checkpoint_core_attention = ckpt_attn,
-        core_attention_bias_type = bias_type,
-        core_attention_bias = bias)
+    op = block(q, k, v, attn_mask_type=config.attn_mask_type,
+        checkpoint_core_attention=ckpt_attn,
+        core_attention_bias_type=bias_type,
+        core_attention_bias=bias)
     op.backward(op_grad)
 
     return op, inp.grad
@@ -158,10 +157,10 @@ def test_transformer_layer(dtype, bs, model, ckpt_attn, bias_type):
 
     atol, rtol = (5e-1, 5e-2)
     if bias_type == "no_bias":
-        assert torch.allclose(fused_attn_fwd, flash_attn_fwd, atol = atol, rtol = rtol)
-        assert torch.allclose(fused_attn_bwd, flash_attn_bwd, atol = atol, rtol = rtol)
-    assert torch.allclose(fused_attn_fwd, unfused_attn_fwd, atol = atol, rtol = rtol)
-    assert torch.allclose(fused_attn_bwd, unfused_attn_bwd, atol = atol, rtol = rtol)
+        assert torch.allclose(fused_attn_fwd, flash_attn_fwd, atol=atol, rtol=rtol)
+        assert torch.allclose(fused_attn_bwd, flash_attn_bwd, atol=atol, rtol=rtol)
+    assert torch.allclose(fused_attn_fwd, unfused_attn_fwd, atol=atol, rtol=rtol)
+    assert torch.allclose(fused_attn_bwd, unfused_attn_bwd, atol=atol, rtol=rtol)
 
 def _run_transformer_layer(dtype, bs, config, backend, ckpt_attn, bias_type):
 
@@ -175,12 +174,12 @@ def _run_transformer_layer(dtype, bs, config, backend, ckpt_attn, bias_type):
 
     inp = torch.randn(
             config.seq_len, bs, config.num_attention_heads * config.head_dim,
-            dtype = dtype).cuda()
+            dtype=dtype).cuda()
     inp.requires_grad=True
-    seqlens = torch.empty(bs, dtype = torch.int32).cuda()
+    seqlens = torch.empty(bs, dtype=torch.int32).cuda()
     seqlens.fill_(config.seq_len)
-    cu_seqlens = torch.zeros(bs + 1, device = inp.device, dtype = torch.int32)
-    cu_seqlens[1:] = torch.cumsum(seqlens, dim = 0)
+    cu_seqlens = torch.zeros(bs + 1, device=inp.device, dtype=torch.int32)
+    cu_seqlens[1:] = torch.cumsum(seqlens, dim=0)
 
     sigma = 0.02
     init_method = init_method_normal(sigma)
@@ -192,7 +191,7 @@ def _run_transformer_layer(dtype, bs, config, backend, ckpt_attn, bias_type):
             rate.item() for rate in torch.linspace(0, drop_path_rate, config.num_layers)]
     if bias_type != "no_bias":
         bias = torch.randn(1, config.num_attention_heads, config.seq_len, config.seq_len,
-                dtype = dtype).cuda()
+                dtype=dtype).cuda()
     else:
         bias = None
 
@@ -201,43 +200,42 @@ def _run_transformer_layer(dtype, bs, config, backend, ckpt_attn, bias_type):
             config.hidden_size,
             4 * config.hidden_size,
             config.num_attention_heads,
-            layernorm_epsilon = 1e-5,
-            hidden_dropout = 0.0,
-            attention_dropout = config.dropout_p,
-            init_method = init_method,
-            output_layer_init_method = output_layer_init_method,
-            layer_number = layer_number,
-            kv_channels = config.head_dim,
-            self_attn_mask_type = config.attn_mask_type,
-            tp_group = None,
-            tp_size =  1,
-            params_dtype = dtype,
-            get_rng_state_tracker = None,
-            fuse_wgrad_accumulation = False,
-            seq_length = config.seq_len,
-            micro_batch_size = bs,
-            sequence_parallel = False,
-            apply_residual_connection_post_layernorm = False,
-            output_layernorm = False,
-            layer_type = "encoder",
-            drop_path_rate = drop_path_rates[layer_number - 1],
-            set_parallel_mode = True,
-            fuse_qkv_params = True,
-            zero_centered_gamma = False,
-            qkv_weight_interleaved = False,
-            ub_tp_comm_overlap = False,
-            bias = True,
+            layernorm_epsilon=1e-5,
+            hidden_dropout=0.0,
+            attention_dropout=config.dropout_p,
+            init_method=init_method,
+            output_layer_init_method=output_layer_init_method,
+            layer_number=layer_number,
+            kv_channels=config.head_dim,
+            tp_group=None,
+            tp_size=1,
+            params_dtype=dtype,
+            get_rng_state_tracker=None,
+            fuse_wgrad_accumulation=False,
+            seq_length=config.seq_len,
+            micro_batch_size=bs,
+            sequence_parallel=False,
+            apply_residual_connection_post_layernorm=False,
+            output_layernorm=False,
+            layer_type="encoder",
+            drop_path_rate=drop_path_rates[layer_number - 1],
+            set_parallel_mode=True,
+            fuse_qkv_params=True,
+            zero_centered_gamma=False,
+            qkv_weight_interleaved=False,
+            ub_tp_comm_overlap=False,
+            bias=True,
         )
-        .to(dtype = dtype)
+        .to(dtype=dtype)
         .cuda()
     )
 
     num_iters = 10
     for i in range(num_iters):
-        op = block(inp,
-            checkpoint_core_attention = ckpt_attn,
-            core_attention_bias_type = bias_type,
-            core_attention_bias = bias)
+        op = block(inp, self_attn_mask_type=config.attn_mask_type,
+            checkpoint_core_attention=ckpt_attn,
+            core_attention_bias_type=bias_type,
+            core_attention_bias=bias)
         loss = op.sum()
         loss.backward()
 
@@ -270,8 +268,8 @@ def find_factors(x):
                 dtype, bs, config, "UnfusedDotProductAttention", num_q_per_gqa_group)
 
         atol, rtol = 5e-1, 5e-2
-        assert torch.allclose(flash_attn_fwd, unfused_attn_fwd, atol = atol, rtol = rtol)
-        assert torch.allclose(flash_attn_bwd, unfused_attn_bwd, atol = atol, rtol = rtol)
+        assert torch.allclose(flash_attn_fwd, unfused_attn_fwd, atol=atol, rtol=rtol)
+        assert torch.allclose(flash_attn_bwd, unfused_attn_bwd, atol=atol, rtol=rtol)
 
 def _run_transformer_layer_gqa(dtype, bs, config, backend, num_querys_per_gqa_group):
 
@@ -282,15 +280,15 @@ def _run_transformer_layer_gqa(dtype, bs, config, backend, num_querys_per_gqa_gr
 
     inp = torch.randn(
             config.seq_len, bs, config.num_attention_heads * config.head_dim,
-            dtype = dtype).cuda()
+            dtype=dtype).cuda()
     inp.requires_grad=True
-    seqlens = torch.empty(bs, dtype = torch.int32).cuda()
+    seqlens = torch.empty(bs, dtype=torch.int32).cuda()
     seqlens.fill_(config.seq_len)
-    cu_seqlens = torch.zeros(bs + 1, device = inp.device, dtype = torch.int32)
-    cu_seqlens[1:] = torch.cumsum(seqlens, dim = 0)
+    cu_seqlens = torch.zeros(bs + 1, device=inp.device, dtype=torch.int32)
+    cu_seqlens[1:] = torch.cumsum(seqlens, dim=0)
     op_grad = torch.randn(
         config.seq_len, bs, config.num_attention_heads * config.head_dim,
-        dtype = dtype).cuda()
+        dtype=dtype).cuda()
 
     sigma = 0.02
     init_method = init_method_normal(sigma)
@@ -306,39 +304,38 @@ def _run_transformer_layer_gqa(dtype, bs, config, backend, num_querys_per_gqa_gr
             config.hidden_size,
             4 * config.hidden_size,
             config.num_attention_heads,
-            num_gqa_groups = config.num_attention_heads / num_querys_per_gqa_group,
-            layernorm_epsilon = 1e-5,
-            hidden_dropout = 0.0,
-            attention_dropout = config.dropout_p,
-            init_method = init_method,
-            output_layer_init_method = output_layer_init_method,
-            layer_number = layer_number,
-            kv_channels = config.head_dim,
-            self_attn_mask_type = config.attn_mask_type,
-            tp_group = None,
-            tp_size =  1,
-            params_dtype = dtype,
-            get_rng_state_tracker = None,
-            fuse_wgrad_accumulation = False,
-            seq_length = config.seq_len,
-            micro_batch_size = bs,
-            sequence_parallel = False,
-            apply_residual_connection_post_layernorm = False,
-            output_layernorm = False,
-            layer_type = "encoder",
-            drop_path_rate = drop_path_rates[layer_number - 1],
-            set_parallel_mode = True,
-            fuse_qkv_params = True,
-            zero_centered_gamma = False,
-            qkv_weight_interleaved = False,
-            ub_tp_comm_overlap = False,
-            bias = True,
+            num_gqa_groups=config.num_attention_heads / num_querys_per_gqa_group,
+            layernorm_epsilon=1e-5,
+            hidden_dropout=0.0,
+            attention_dropout=config.dropout_p,
+            init_method=init_method,
+            output_layer_init_method=output_layer_init_method,
+            layer_number=layer_number,
+            kv_channels=config.head_dim,
+            tp_group=None,
+            tp_size= 1,
+            params_dtype=dtype,
+            get_rng_state_tracker=None,
+            fuse_wgrad_accumulation=False,
+            seq_length=config.seq_len,
+            micro_batch_size=bs,
+            sequence_parallel=False,
+            apply_residual_connection_post_layernorm=False,
+            output_layernorm=False,
+            layer_type="encoder",
+            drop_path_rate=drop_path_rates[layer_number - 1],
+            set_parallel_mode=True,
+            fuse_qkv_params=True,
+            zero_centered_gamma=False,
+            qkv_weight_interleaved=False,
+            ub_tp_comm_overlap=False,
+            bias=True,
         )
-        .to(dtype = dtype)
+        .to(dtype=dtype)
         .cuda()
     )
 
-    op = block(inp)
+    op = block(inp, self_attn_mask_type=config.attn_mask_type)
     op.backward(op_grad)
 
     return op, inp.grad
@@ -365,8 +362,8 @@ def test_dpa_fp8(dtype, bs, model):
             dtype, bs, config, "UnfusedDotProductAttention")
 
     atol, rtol = (2.5e-2, 2.5e-2)
-    assert torch.allclose(fused_attn_fwd, unfused_attn_fwd, atol = atol, rtol = rtol)
-    assert torch.allclose(fused_attn_bwd, unfused_attn_bwd, atol = atol, rtol = rtol)
+    assert torch.allclose(fused_attn_fwd, unfused_attn_fwd, atol=atol, rtol=rtol)
+    assert torch.allclose(fused_attn_bwd, unfused_attn_bwd, atol=atol, rtol=rtol)
 
 def _run_dpa_fp8(dtype, bs, config, backend):
 
@@ -376,15 +373,15 @@ def _run_dpa_fp8(dtype, bs, config, backend):
 
     inp = 0.01 * torch.randn(
             bs * config.seq_len, config.num_attention_heads * config.head_dim,
-            dtype = dtype).cuda()
+            dtype=dtype).cuda()
     inp.requires_grad=True
-    seqlens = torch.empty(bs, dtype = torch.int32).cuda()
+    seqlens = torch.empty(bs, dtype=torch.int32).cuda()
     seqlens.fill_(config.seq_len)
-    cu_seqlens = torch.zeros(bs + 1, device = inp.device, dtype = torch.int32)
-    cu_seqlens[1:] = torch.cumsum(seqlens, dim = 0)
+    cu_seqlens = torch.zeros(bs + 1, device=inp.device, dtype=torch.int32)
+    cu_seqlens[1:] = torch.cumsum(seqlens, dim=0)
     op_grad = 0.01 * torch.randn(
         bs * config.seq_len, config.num_attention_heads * config.head_dim,
-        dtype = dtype).cuda()
+        dtype=dtype).cuda()
     torch.save(op_grad, 'op_grad.pt')
 
     fp8_recipe = recipe.DelayedScaling(
@@ -395,7 +392,7 @@ def _run_dpa_fp8(dtype, bs, config, backend):
         amax_compute_algo="most_recent",
     )
 
-    dpa = DPA_FP8(config).to(dtype = torch.float16).cuda()
+    dpa = DPA_FP8(config).to(dtype=torch.float16).cuda()
     with fp8_autocast(enabled=True, fp8_recipe=fp8_recipe):
         op = dpa(inp, cu_seqlens, config.seq_len)
         op.backward(op_grad)
@@ -416,31 +413,30 @@ def _run_dpa_fp8_ref(dtype, bs, config, backend):
 
     inp = torch.load('qkv.pt').cuda()
     inp.requires_grad=True
-    seqlens = torch.empty(bs, dtype = torch.int32).cuda()
+    seqlens = torch.empty(bs, dtype=torch.int32).cuda()
     seqlens.fill_(config.seq_len)
-    cu_seqlens = torch.zeros(bs + 1, device = inp.device, dtype = torch.int32)
-    cu_seqlens[1:] = torch.cumsum(seqlens, dim = 0)
+    cu_seqlens = torch.zeros(bs + 1, device=inp.device, dtype=torch.int32)
+    cu_seqlens[1:] = torch.cumsum(seqlens, dim=0)
     op_grad = torch.load('op_grad.pt').cuda().view(bs, config.seq_len, -1).transpose(0,1)
 
     block = (
          DotProductAttention(
                 config.num_attention_heads,
                 config.head_dim,
-                attention_dropout = config.dropout_p,
-                attn_mask_type = config.attn_mask_type,
-                sequence_parallel = False,
-                tp_size = 1,
-                get_rng_state_tracker = None,
-                tp_group = None,
-                layer_number = 1,
-                attention_type = "self"
-        ).to(dtype = dtype).cuda()
+                attention_dropout=config.dropout_p,
+                sequence_parallel=False,
+                tp_size=1,
+                get_rng_state_tracker=None,
+                tp_group=None,
+                layer_number=1,
+                attention_type="self"
+        ).to(dtype=dtype).cuda()
     )
 
     q = inp[:, :,0,:,:]
     k = inp[:, :,1,:,:]
     v = inp[:, :,2,:,:]
-    op = block(q, k, v)
+    op = block(q, k, v, attn_mask_type=config.attn_mask_type)
     op.backward(op_grad)
     torch.save(op,'ctx_ref.pt')
     torch.save(inp.grad,'dqkv_ref.pt')
@@ -533,8 +529,8 @@ def forward(
             workspace,
             bias=qkv_bias,
             use_bias=True,
-            out_index = META_QKV,
-            fp8_meta_tensor = fp8_meta["scaling_fwd"],
+            out_index=META_QKV,
+            fp8_meta_tensor=fp8_meta["scaling_fwd"],
             use_split_accumulator=_2X_ACC_FPROP,
             D_dtype=fp8_dtype_forward,
         )
@@ -558,13 +554,13 @@ def forward(
                 fp8_meta["scaling_fwd"].scale[META_O],
                 fp8_meta["scaling_fwd"].amax_history[0][META_S],
                 fp8_meta["scaling_fwd"].amax_history[0][META_O],
-                attn_scale = None,
-                dropout = p_dropout,
-                fast_zero_fill = fast_zero_fill,
-                qkv_layout = "qkv_interleaved",
-                attn_bias_type = "no_bias",
-                attn_mask_type = "padding",
-                rng_gen = None,
+                attn_scale=None,
+                dropout=p_dropout,
+                fast_zero_fill=fast_zero_fill,
+                qkv_layout="qkv_interleaved",
+                attn_bias_type="no_bias",
+                attn_mask_type="padding",
+                rng_gen=None,
                 )
         M, ZInv, philox_unpacked = aux_ctx_tensors
 
diff --git a/tests/pytorch/test_numerics.py b/tests/pytorch/test_numerics.py
index f8eda48cc3..bf9f7502fd 100644
--- a/tests/pytorch/test_numerics.py
+++ b/tests/pytorch/test_numerics.py
@@ -376,8 +376,8 @@ def __init__(self, hidden_size: int, num_attention_heads: int):
             batch_first=False,
         )
 
-    def forward(self, x, attn_mask=None):
-        output = self.mhsa(x, x, x, attn_mask=attn_mask, need_weights=False)
+    def forward(self, x, attention_mask=None):
+        output = self.mhsa(x, x, x, attn_mask=attention_mask, need_weights=False)
         if isinstance(output, tuple):
             output = output[0]
         return output
@@ -461,7 +461,7 @@ def _test_e2e_selective_recompute(block, bs, dtype, config, recompute=False):
 
     te_out = block(
         te_inp_hidden_states,
-        te_inp_attn_mask,
+        attention_mask=te_inp_attn_mask,
         checkpoint_core_attention=recompute,
     )
     loss = te_out.sum()
@@ -526,13 +526,13 @@ def _test_e2e_full_recompute(block, bs, dtype, config, recompute=False):
             get_dummy_cuda_rng_tracker,
             None,  # tp_group
             te_inp_hidden_states,
-            te_inp_attn_mask,
+            attention_mask=te_inp_attn_mask,
             checkpoint_core_attention=False,
         )
     else:
         te_out = block(
             te_inp_hidden_states,
-            te_inp_attn_mask,
+            attention_mask=te_inp_attn_mask,
             checkpoint_core_attention=False,
         )
     loss = te_out.sum()
@@ -766,7 +766,7 @@ def test_gpt_accuracy(dtype, bs, model):
         assert_allclose(te_outputs[0], torch_outputs[0], 5e-2)
 
 
-def _test_mha_accuracy(block, bs, dtype, config, mask_type):
+def _test_mha_accuracy(block, bs, dtype, config, mask_type, te=True):
     reset_rng_states()
 
     inp_hidden_states = torch.randn(
@@ -775,7 +775,12 @@ def _test_mha_accuracy(block, bs, dtype, config, mask_type):
     inp_hidden_states.retain_grad()
     inp_attn_mask = get_causal_attn_mask(config.seq_len) if mask_type == "causal" else None
 
-    out = block(inp_hidden_states, inp_attn_mask)
+    forward_kwargs = {}
+    if te:
+        forward_kwargs["attn_mask_type"] = mask_type
+    forward_kwargs["attention_mask"] = inp_attn_mask
+
+    out = block(inp_hidden_states, **forward_kwargs)
     loss = out.sum()
     loss.backward()
 
@@ -801,7 +806,6 @@ def test_mha_accuracy(dtype, bs, model, mask_type):
             fuse_qkv_params=True,
             qkv_weight_interleaved=False,
             input_layernorm=False,
-            attn_mask_type=mask_type,
         )
         .to(dtype=dtype)
         .cuda()
@@ -825,8 +829,8 @@ def test_mha_accuracy(dtype, bs, model, mask_type):
         torch_mha.mhsa.out_proj.weight = Parameter(te_mha.proj.weight.clone())
         torch_mha.mhsa.out_proj.bias = Parameter(te_mha.proj.bias.clone())
 
-    te_outputs = _test_mha_accuracy(te_mha, bs, dtype, config, mask_type)
-    torch_outputs = _test_mha_accuracy(torch_mha, bs, dtype, config, mask_type)
+    te_outputs = _test_mha_accuracy(te_mha, bs, dtype, config, mask_type, te=True)
+    torch_outputs = _test_mha_accuracy(torch_mha, bs, dtype, config, mask_type, te=False)
 
     # Check output.
     if dtype == torch.float32:
diff --git a/tests/pytorch/test_onnx_export.py b/tests/pytorch/test_onnx_export.py
index 1e1fafcac5..14640febde 100644
--- a/tests/pytorch/test_onnx_export.py
+++ b/tests/pytorch/test_onnx_export.py
@@ -783,7 +783,6 @@ def __init__(self, softmax_fn, fake_bf16_io, mask_inp=False):
             self.fake_bf16_io = fake_bf16_io
             if self.softmax_fn == te.softmax.FusedScaleMaskSoftmax:
                 self.fused_scaled_softmax = te.softmax.FusedScaleMaskSoftmax(
-                    attn_mask_type="causal",
                     mask_func=te.utils.attention_mask_func,
                     softmax_in_fp32=True,
                 )
@@ -793,7 +792,7 @@ def forward(self, inp, mask):
                 inp = inp.type(torch.bfloat16)
 
             if self.fused_scaled_softmax:
-                ret = self.fused_scaled_softmax(inp, mask, self.scale)
+                ret = self.fused_scaled_softmax(inp, mask, "causal", self.scale)
             else:
                 if self.mask_inp:
                     ret = self.softmax_fn.apply(inp, mask, self.scale)
@@ -867,7 +866,6 @@ def __init__(self, use_default_te_mask_fn: bool, fake_bf16_io: bool):
             # even when is_in_onnx_export_mode()==False.
             os.environ["NVTE_MASKED_SOFTMAX_FUSION"] = "0"
             self.fused_scaled_softmax = te.softmax.FusedScaleMaskSoftmax(
-                attn_mask_type="causal",
                 mask_func=te.utils.attention_mask_func,
                 softmax_in_fp32=True,
             )
@@ -875,7 +873,7 @@ def __init__(self, use_default_te_mask_fn: bool, fake_bf16_io: bool):
         def forward(self, inp, mask):
             if self.fake_bf16_io:
                 inp = inp.type(torch.bfloat16)
-            ret = self.fused_scaled_softmax(inp, mask, self.scale)
+            ret = self.fused_scaled_softmax(inp, mask, "causal", scale=self.scale)
             if self.fake_bf16_io:
                 ret = ret.type(torch.float)
             return ret
@@ -1161,13 +1159,13 @@ def test_export_core_attention(
     query_layer = torch.randn(qkv_size, dtype=precision, device="cuda")
     key_layer = torch.randn(qkv_size, dtype=precision, device="cuda")
     value_layer = torch.randn(qkv_size, dtype=precision, device="cuda")
-    input_names = ["query", "key", "value", "attention_mask"]
+    input_names = ["query", "key", "value", "attention_mask", "attn_mask_type"]
     attention_mask = None
     if use_mask:
         # Generate a random mask with 50% probability for 0 or 1.
         probs = 0.5 * torch.ones(qkv_size[1], qkv_size[2], qkv_size[0], qkv_size[0], device="cuda", dtype=precision)
         attention_mask = torch.bernoulli(probs).to("cuda", dtype=torch.bool)
-    inp = (query_layer, key_layer, value_layer, attention_mask)
+    inp = (query_layer, key_layer, value_layer, attention_mask, attn_mask_type)
 
     mask_str = get_attn_mask_str(use_mask, attn_mask_type)
     high_prec_str = dtype2str(precision)
@@ -1177,7 +1175,6 @@ def test_export_core_attention(
         num_attention_heads=num_attention_heads,
         kv_channels=kv_channels,
         attention_dropout=0.5,
-        attn_mask_type=attn_mask_type,
     ).to(device='cuda')
     do_export(model,
             inp,
@@ -1193,9 +1190,8 @@ def test_export_core_attention(
 
 test_configs_multihead_attention = [
     #"use_mask, attn_mask_type"
-    (False,    "causal"),  # calls ScaledUpperTriangMaskedSoftmax
+    (False,    "no_mask"), # calls ScaledUpperTriangMaskedSoftmax
     (True,     "padding"), # calls ScaledMaskedSoftmax
-    (False,    "padding"), # calls ScaledSoftmax
 ]
 test_configs_attention_type = [
     #"input_layernorm, attention_type, fuse_qkv_params"
@@ -1269,7 +1265,6 @@ def test_export_multihead_attention(
 
     model = te.MultiheadAttention(
         *attention_args,
-        attn_mask_type=attn_mask_type,
         params_dtype=precision,
         return_layernorm_output=return_layernorm_output,
         input_layernorm=input_layernorm,
@@ -1278,8 +1273,8 @@ def test_export_multihead_attention(
         return_bias=True,
     ).to(device='cuda')
 
-    inp_context = (hidden_states_context, attention_mask, encoder_output)
-    input_names = ["hidden_states", "attention_mask", "encoder_output"]
+    inp_context = (hidden_states_context, attention_mask, encoder_output, attn_mask_type)
+    input_names = ["hidden_states", "attention_mask", "encoder_output", "attn_mask_type"]
     output_names=["attention_output", "attention_bias"]
     do_export(model, inp_context, fname, use_fp8, input_names=input_names, output_names=output_names,
         dynamic_axes={"hidden_states": {0: "seq", 1:"bs"},
@@ -1347,13 +1342,13 @@ def test_export_transformer_layer(
     num_attention_heads = 4
 
     input_tensor = torch.rand(sequence_length, batch_size, hidden_size, dtype=precision, device="cuda")
-    input_names = ["input", "attention_mask"]
+    input_names = ["input", "attention_mask", "self_attn_mask_type"]
     attention_mask = None
     if use_mask and attn_mask_type != "causal":
         # Generate a random mask with 50% probability for 0 or 1.
         probs = 0.5 * torch.ones(batch_size, 1, sequence_length, sequence_length, device="cuda", dtype=precision)
         attention_mask = torch.bernoulli(probs).to("cuda", dtype=torch.bool)
-    inp = (input_tensor, attention_mask)
+    inp = (input_tensor, attention_mask, attn_mask_type)
 
     fp8_str = "_fp8" if use_fp8 else ""
     fuse_qkv_params_str = "_fused-qkv" if fuse_qkv_params else ""
@@ -1365,7 +1360,6 @@ def test_export_transformer_layer(
         hidden_size,
         ffn_hidden_size,
         num_attention_heads,
-        self_attn_mask_type=attn_mask_type,
         output_layernorm=output_layernorm,
         params_dtype=precision,
         fuse_qkv_params=fuse_qkv_params,
@@ -1547,17 +1541,16 @@ def test_export_gpt_generation(
         hidden_size,
         ffn_hidden_size,
         num_attention_heads,
-        self_attn_mask_type=attn_mask_type,
         output_layernorm=output_layernorm,
         params_dtype=precision,
         fuse_qkv_params=fuse_qkv_params,
         zero_centered_gamma=zero_centered_gamma).to(device='cuda')
 
     # "Context phase": use full input sequence length
-    input_names = ["input"]
+    input_names = ["input", "attention_mask", "self_attn_mask_type"]
     output_names = ["output"]
     input_tensor = torch.rand(sequence_length, batch_size, hidden_size, dtype=precision, device="cuda")
-    inp = (input_tensor,)
+    inp = (input_tensor, None, attn_mask_type)
     do_export(model, inp, fname, use_fp8,
         input_names=input_names, output_names=output_names,
         dynamic_axes={"input": {0: "seq", 1:"bs"},
diff --git a/tests/pytorch/test_sanity.py b/tests/pytorch/test_sanity.py
index 2605c563d6..21497b417f 100644
--- a/tests/pytorch/test_sanity.py
+++ b/tests/pytorch/test_sanity.py
@@ -176,7 +176,7 @@ def _test_sanity_e2e_amp(block, bs, dtype, config, fp8_recipe, skip_wgrad):
     use_fp8 = fp8_recipe is not None
     with torch.autocast(device_type="cuda", enabled=True, dtype=dtype):
         with fp8_autocast(enabled=use_fp8, fp8_recipe=fp8_recipe):
-            te_out = block(te_inp_hidden_states, te_inp_attn_mask)
+            te_out = block(te_inp_hidden_states, attention_mask=te_inp_attn_mask)
         loss = te_out.sum()
 
     loss.backward()
@@ -217,7 +217,7 @@ def _test_sanity_e2e_gradient_accumulation_fusion(block, bs, dtype, config, fp8_
 
     use_fp8 = fp8_recipe is not None
     with fp8_autocast(enabled=use_fp8, fp8_recipe=fp8_recipe):
-        te_out = block(te_inp_hidden_states, te_inp_attn_mask)
+        te_out = block(te_inp_hidden_states, attention_mask=te_inp_attn_mask)
     loss = te_out.sum()
     loss.backward()
     torch.cuda.synchronize()
@@ -253,7 +253,7 @@ def _test_sanity_e2e(block, bs, dtype, config, fp8_recipe, skip_wgrad):
 
     use_fp8 = fp8_recipe is not None
     with fp8_autocast(enabled=use_fp8, fp8_recipe=fp8_recipe):
-        te_out = block(te_inp_hidden_states, te_inp_attn_mask)
+        te_out = block(te_inp_hidden_states, attention_mask=te_inp_attn_mask)
     loss = te_out.sum()
     loss.backward()
     torch.cuda.synchronize()
@@ -282,7 +282,9 @@ def _test_sanity_e2e_T5(block, bs, dtype, config, fp8_recipe, skip_wgrad):
     use_fp8 = fp8_recipe is not None
     with fp8_autocast(enabled=use_fp8, fp8_recipe=fp8_recipe):
         te_out = block(
-            te_inp_hidden_states, te_inp_attn_mask, encoder_output=te_inp_hidden_states
+            te_inp_hidden_states,
+            attention_mask=te_inp_attn_mask,
+            encoder_output=te_inp_hidden_states
         )
     loss = te_out.sum()
     loss.backward()
diff --git a/transformer_engine/pytorch/attention.py b/transformer_engine/pytorch/attention.py
index 6842a9bc60..a30f20d3a8 100644
--- a/transformer_engine/pytorch/attention.py
+++ b/transformer_engine/pytorch/attention.py
@@ -196,23 +196,15 @@ def __init__(
         norm_factor: float,
         attention_dropout: float = 0.0,
         attention_dropout_ctx: Optional[Callable] = nullcontext,
-        attn_mask_type: str = "causal",
         layer_number: Optional[int] = None,
     ) -> None:
         super().__init__()
 
-        assert (
-            attn_mask_type in AttnMaskTypes
-        ), f"attn_mask_type {attn_mask_type} not supported"
-
         self.norm_factor = norm_factor
         self.attention_dropout_ctx = attention_dropout_ctx
         self.layer_number = layer_number
 
-        self.scale_mask_softmax = FusedScaleMaskSoftmax(
-            attn_mask_type,
-            attention_mask_func,
-        )
+        self.scale_mask_softmax = FusedScaleMaskSoftmax(attention_mask_func)
 
         # Dropout. Note that for a single iteration, this layer will generate
         # different outputs on different number of parallel partitions but
@@ -228,11 +220,17 @@ def forward(
         query_layer: torch.Tensor,
         key_layer: torch.Tensor,
         value_layer: torch.Tensor,
+        attn_mask_type: str = "causal",
         attention_mask: Optional[torch.Tensor] = None,
         core_attention_bias_type: str = "no_bias",
         core_attention_bias: Optional[torch.Tensor] = None,
     ) -> torch.Tensor:
         """core attention fprop"""
+
+        assert (
+            attn_mask_type in AttnMaskTypes
+        ), f"attn_mask_type {attn_mask_type} not supported"
+
         batch_size, seqlen = query_layer.shape[1], query_layer.shape[0]
         apply_qk_layer_scaling = self.apply_qk_layer_scaling and key_layer.dtype == torch.float16
 
@@ -321,7 +319,8 @@ def forward(
 
         # attention scores and attention mask [b, np, sq, sk]
         softmax_scale = self.layer_number if apply_qk_layer_scaling else None
-        attention_probs = self.scale_mask_softmax(attention_scores, attention_mask, softmax_scale)
+        attention_probs = self.scale_mask_softmax(
+            attention_scores, attention_mask, attn_mask_type, softmax_scale)
 
         # This is actually dropping out entire tokens to attend to, which might
         # seem a bit unusual, but is taken from the original Transformer paper.
@@ -464,7 +463,6 @@ def __init__(
         norm_factor: float,
         attention_dropout: float = 0.0,
         attention_dropout_ctx: Optional[Callable] = nullcontext,
-        attn_mask_type: str = "causal",
         deterministic: bool = False,
     ) -> None:
         super().__init__()
@@ -473,7 +471,6 @@ def __init__(
             _flash_attn_version >= _flash_attn_version_required
         ), f"FlashAttention minimum version {_flash_attn_version_required} is required."
 
-        self.attn_causal_mask = attn_mask_type == "causal"
         self.norm_factor = norm_factor
         self.attention_dropout_ctx = attention_dropout_ctx
         self.attention_dropout = attention_dropout
@@ -484,6 +481,7 @@ def forward(
         query_layer: torch.Tensor,
         key_layer: torch.Tensor,
         value_layer: torch.Tensor,
+        attn_mask_type: str = "causal",
     ) -> torch.Tensor:
         """flash-attn fprop"""
 
@@ -531,7 +529,7 @@ def forward(
             output = flash_attn_forward_func(
                 query_layer, key_layer, value_layer, cu_seqlens, cu_seqlens, max_seqlen, max_seqlen,
                 self.attention_dropout if self.training else 0.0,
-                softmax_scale=1.0/self.norm_factor, causal=self.attn_causal_mask,
+                softmax_scale=1.0/self.norm_factor, causal=attn_mask_type=="causal",
                 **fa_optional_forward_kwargs
             )
 
@@ -703,7 +701,6 @@ def __init__(
         norm_factor: float,
         attention_dropout: float = 0.0,
         attention_dropout_ctx: Optional[Callable] = nullcontext,
-        attn_mask_type: str = "causal",
         attention_type: str = "self",
     ) -> None:
         super().__init__()
@@ -711,7 +708,6 @@ def __init__(
         self.norm_factor = norm_factor
         self.attention_dropout = attention_dropout
         self.attention_dropout_ctx = attention_dropout_ctx
-        self.attn_mask_type = attn_mask_type
         self.attention_type = attention_type
         self.use_FAv2_bwd = (os.getenv("NVTE_FUSED_ATTN_USE_FAv2_BWD", "1") == "1"
                         and _flash_attn_2_available
@@ -722,6 +718,7 @@ def forward(
         query_layer: torch.Tensor,
         key_layer: torch.Tensor,
         value_layer: torch.Tensor,
+        attn_mask_type: str = "causal",
         fused_attention_backend:
             tex.NVTE_Fused_Attn_Backend = tex.NVTE_Fused_Attn_Backend.NVTE_No_Backend,
         core_attention_bias_type: str = "no_bias",
@@ -797,7 +794,7 @@ def forward(
                     fast_zero_fill,
                     qkv_layout,
                     core_attention_bias_type,
-                    self.attn_mask_type,
+                    attn_mask_type,
                     None, # rng_gen
                     fused_attention_backend,
                     use_FAv2_bwd
@@ -858,7 +855,7 @@ def forward(
                     fast_zero_fill,
                     qkv_layout,
                     core_attention_bias_type,
-                    self.attn_mask_type,
+                    attn_mask_type,
                     None, # rng_gen
                     fused_attention_backend,
                     use_FAv2_bwd
@@ -886,6 +883,11 @@ class DotProductAttention(torch.nn.Module):
         and set the environment variable :attr:`NVTE_ALLOW_NONDETERMINISTIC_ALGO=0`. In order
         to disable`flash-attn` entirely, set :attr:`NVTE_FLASH_ATTN=0`.
 
+    .. warning::
+
+        Argument :attr:`attn_mask_type` has been moved to the `forward` method and
+        is deprecated. It will be fully removed in future releases.
+
     Parameters
     ----------
     num_attention_heads : int
@@ -902,8 +904,6 @@ class DotProductAttention(torch.nn.Module):
                     is equivalent to MHA, i.e. `num_gqa_groups = num_attention_heads`.
     attention_dropout: float, default = 0.0
                       dropout probability for the dropout op during multi-head attention.
-    attn_mask_type: {'causal', 'padding', 'no_mask'}, default = `causal`
-                   type of attention mask passed into softmax operation.
     layer_number: int, default = `None`
                  layer number of the current `DotProductAttention` when multiple such modules
                  are concatenated, for instance in consecutive transformer blocks.
@@ -924,7 +924,7 @@ def __init__(
         kv_channels: int,
         num_gqa_groups: Optional[int] = None,
         attention_dropout: float = 0.0,
-        attn_mask_type: str = "causal",
+        attn_mask_type: Optional[str] = None,
         sequence_parallel: bool = False,
         tp_size: int = 1,
         get_rng_state_tracker: Optional[Callable] = None,
@@ -934,6 +934,14 @@ def __init__(
     ) -> None:
         super().__init__()
 
+        if attn_mask_type is not None:
+            warnings.warn(
+                "Argument :attr:`attn_mask_type` has been moved to the `forward` method and"
+                "is deprecated. It will be fully removed in future releases.",
+                category=DeprecationWarning,
+            )
+
+        self.attn_mask_type = attn_mask_type
         self.tp_size = tp_size if tp_group is None else get_distributed_world_size(tp_group)
         self.tp_group = tp_group
         self.get_rng_state_tracker = get_rng_state_tracker
@@ -978,10 +986,8 @@ def __init__(
         attn_kwargs = {
             "attention_dropout": attention_dropout,
             "attention_dropout_ctx": attention_dropout_ctx,
-            "attn_mask_type": attn_mask_type,
         }
         self.attention_type = attention_type
-        self.attn_mask_type = attn_mask_type
         self.attention_dropout = attention_dropout
 
         if self.use_flash_attention:
@@ -1025,6 +1031,7 @@ def forward(
         key_layer: torch.Tensor,
         value_layer: torch.Tensor,
         attention_mask: Optional[torch.Tensor] = None,
+        attn_mask_type: str = "causal",
         checkpoint_core_attention: bool = False,
         core_attention_bias_type: str = "no_bias",
         core_attention_bias: Optional[torch.Tensor] = None,
@@ -1067,6 +1074,8 @@ def forward(
                      Value tensor.
         attention_mask : Optional[torch.Tensor], default = `None`
                         Boolean tensor used to mask out softmax input when not using flash-attn.
+        attn_mask_type: {'causal', 'padding', 'no_mask'}, default = `causal`
+                       type of attention mask passed into softmax operation.
         checkpoint_core_attention : bool, default = `False`
                                    If true, forward activations for attention are recomputed
                                    during the backward pass in order to save memory that would
@@ -1080,6 +1089,15 @@ def forward(
                     Whether to use the fast path to set output tensors to 0 or not.
         """
 
+        if self.attn_mask_type is not None:
+            warnings.warn(
+                "Argument :attr:`attn_mask_type` has been moved to the `forward` method and"
+                "is deprecated. It will be fully removed in future releases.",
+                category=DeprecationWarning,
+            )
+            # Keep previous functionality for current users.
+            attn_mask_type = self.attn_mask_type
+
         assert (key_layer.shape[-2] == self.num_gqa_groups_per_partition
                 and value_layer.shape[-2] == self.num_gqa_groups_per_partition
                 ), f"Keys and values must have {self.num_gqa_groups} heads!"
@@ -1102,7 +1120,7 @@ def forward(
         if not _flash_attn_2_available and self.num_gqa_groups != self.num_attention_heads:
             use_flash_attention = False
 
-        if self.attn_mask_type == "padding" and attention_mask is not None:
+        if attn_mask_type == "padding" and attention_mask is not None:
             use_flash_attention = False
             use_fused_attention = False
 
@@ -1121,7 +1139,7 @@ def forward(
                 TE_DType[key_layer.dtype],
                 QKVLayout[qkv_layout],
                 AttnBiasType[core_attention_bias_type],
-                AttnMaskType[self.attn_mask_type],
+                AttnMaskType[attn_mask_type],
                 self.attention_dropout,
                 query_layer.shape[0], key_layer.shape[0],
                 query_layer.shape[-1])
@@ -1144,8 +1162,10 @@ def forward(
                 return self._checkpointed_attention_forward(self.flash_attention,
                                                             query_layer,
                                                             key_layer,
-                                                            value_layer)
-            return self.flash_attention(query_layer, key_layer, value_layer)
+                                                            value_layer,
+                                                            attn_mask_type=attn_mask_type)
+            return self.flash_attention(
+                query_layer, key_layer, value_layer, attn_mask_type=attn_mask_type)
 
         if use_fused_attention:
             if checkpoint_core_attention:
@@ -1153,15 +1173,17 @@ def forward(
                               query_layer,
                               key_layer,
                               value_layer,
-                              fused_attention_backend = fused_attention_backend,
-                              core_attention_bias_type = core_attention_bias_type,
-                              core_attention_bias = core_attention_bias,
-                              fast_zero_fill = fast_zero_fill)
+                              attn_mask_type=attn_mask_type,
+                              fused_attention_backend=fused_attention_backend,
+                              core_attention_bias_type=core_attention_bias_type,
+                              core_attention_bias=core_attention_bias,
+                              fast_zero_fill=fast_zero_fill)
             return self.fused_attention(query_layer, key_layer, value_layer,
-                              fused_attention_backend = fused_attention_backend,
-                              core_attention_bias_type = core_attention_bias_type,
-                              core_attention_bias = core_attention_bias,
-                              fast_zero_fill = fast_zero_fill)
+                              attn_mask_type=attn_mask_type,
+                              fused_attention_backend=fused_attention_backend,
+                              core_attention_bias_type=core_attention_bias_type,
+                              core_attention_bias=core_attention_bias,
+                              fast_zero_fill=fast_zero_fill)
 
         if checkpoint_core_attention:
             return self._checkpointed_attention_forward(
@@ -1169,16 +1191,18 @@ def forward(
                 query_layer,
                 key_layer,
                 value_layer,
-                attention_mask = attention_mask,
-                core_attention_bias_type = core_attention_bias_type,
-                core_attention_bias = core_attention_bias,
+                attn_mask_type=attn_mask_type,
+                attention_mask=attention_mask,
+                core_attention_bias_type=core_attention_bias_type,
+                core_attention_bias=core_attention_bias,
             )
         return self.unfused_attention(query_layer,
                 key_layer,
                 value_layer,
-                attention_mask = attention_mask,
-                core_attention_bias_type = core_attention_bias_type,
-                core_attention_bias = core_attention_bias,
+                attn_mask_type=attn_mask_type,
+                attention_mask=attention_mask,
+                core_attention_bias_type=core_attention_bias_type,
+                core_attention_bias=core_attention_bias,
         )
 
 
@@ -1190,7 +1214,12 @@ class MultiheadAttention(torch.nn.Module):
     .. note::
 
         Argument :attr:`attention_mask` will be ignored in the `forward` call when
-        :attr:`self_attn_mask_type` is set to `"causal"`.
+        :attr:`attn_mask_type` is set to `"causal"`.
+
+    .. warning::
+
+        Argument :attr:`attn_mask_type` has been moved to the `forward` method and
+        is deprecated. It will be fully removed in future releases.
 
     Parameters
     ----------
@@ -1217,8 +1246,6 @@ class MultiheadAttention(torch.nn.Module):
     layer_number: int, default = `None`
                  layer number of the current `TransformerLayer` when multiple such modules are
                  concatenated to form a transformer block.
-    attn_mask_type: {'causal', 'padding', 'no_mask'}, default = `causal`
-                   type of attention mask passed into softmax operation.
     num_gqa_groups : int, default = `None`
                          number of GQA groups in the transformer layer.
                          Grouped Query Attention is described in
@@ -1309,7 +1336,7 @@ def __init__(
         init_method: Optional[Callable] = None,
         output_layer_init_method: Optional[Callable] = None,
         layer_number: Optional[int] = None,
-        attn_mask_type: str = "causal",
+        attn_mask_type: Optional[str] = None,
         tp_group: Optional[dist_group_type] = None,
         tp_size: int = 1,
         num_gqa_groups: Optional[int] = None,
@@ -1334,6 +1361,15 @@ def __init__(
         device: Union[torch.device, str] = "cuda",
     ) -> None:
         super().__init__()
+
+        if attn_mask_type is not None:
+            warnings.warn(
+                "Argument :attr:`attn_mask_type` has been moved to the `forward` method and"
+                "is deprecated. It will be fully removed in future releases.",
+                category=DeprecationWarning,
+            )
+
+        self.attn_mask_type = attn_mask_type
         self.layer_number = layer_number
         self.input_layernorm = input_layernorm
         self.attention_type = attention_type
@@ -1341,7 +1377,6 @@ def __init__(
         self.tp_group = tp_group
         self.return_layernorm_output = return_layernorm_output
         self.params_dtype = torch.get_default_dtype() if params_dtype is None else params_dtype
-        self.attn_mask_type = attn_mask_type
         self.num_attention_heads = num_attention_heads
         self.return_bias = return_bias
 
@@ -1467,7 +1502,6 @@ def __init__(
             attention_dropout=attention_dropout,
             tp_size=tp_size,
             get_rng_state_tracker=get_rng_state_tracker,
-            attn_mask_type=attn_mask_type,
             sequence_parallel=sequence_parallel,
             tp_group=tp_group,
             layer_number=self.layer_number,
@@ -1508,6 +1542,7 @@ def forward(
         hidden_states: torch.Tensor,
         attention_mask: Optional[torch.Tensor] = None,
         encoder_output: Optional[torch.Tensor] = None,
+        attn_mask_type: str = "causal",
         is_first_microbatch: Optional[bool] = None,
         checkpoint_core_attention: bool = False,
         inference_params: Optional[Any] = None,
@@ -1521,7 +1556,7 @@ def forward(
 
         .. note::
 
-            Argument :attr:`attention_mask` will be ignored when :attr:`self_attn_mask_type`
+            Argument :attr:`attention_mask` will be ignored when :attr:`attn_mask_type`
             is set to `"causal"`.
 
         Parameters
@@ -1530,6 +1565,8 @@ def forward(
              Input tensor.
         attention_mask : Optional[torch.Tensor], default = `None`
              Boolean tensor used to mask out self-attention softmax input.
+        attn_mask_type: {'causal', 'padding', 'no_mask'}, default = `causal`
+                       type of attention mask passed into softmax operation.
         encoder_output : Optional[torch.Tensor], default = `None`
              Output of the encoder block to be fed into the decoder block if using
              `layer_type="decoder"`.
@@ -1563,7 +1600,16 @@ def forward(
         """
         # hidden_states: [sq, b, h]
 
-        if self.attn_mask_type == "padding" and attention_mask is not None:
+        if self.attn_mask_type is not None:
+            warnings.warn(
+                "Argument :attr:`attn_mask_type` has been moved to the `forward` method and"
+                "is deprecated. It will be fully removed in future releases.",
+                category=DeprecationWarning,
+            )
+            # Keep previous functionality for current users.
+            attn_mask_type = self.attn_mask_type
+
+        if attn_mask_type == "padding" and attention_mask is not None:
             assert (
                 attention_mask.dtype == torch.bool
             ), "Attention mask must be a boolean tensor"
@@ -1768,7 +1814,8 @@ def forward(
             query_layer,
             key_layer,
             value_layer,
-            attention_mask,
+            attention_mask=attention_mask,
+            attn_mask_type=attn_mask_type,
             checkpoint_core_attention=checkpoint_core_attention,
             core_attention_bias_type=core_attention_bias_type,
             core_attention_bias=core_attention_bias,
diff --git a/transformer_engine/pytorch/softmax.py b/transformer_engine/pytorch/softmax.py
index 529c5d5d00..25c99e718d 100644
--- a/transformer_engine/pytorch/softmax.py
+++ b/transformer_engine/pytorch/softmax.py
@@ -215,19 +215,16 @@ class FusedScaleMaskSoftmax(nn.Module):
     fused operation: scaling + mask + softmax
 
     Arguments:
-        attn_mask_type: attention mask type (pad or causal)
         mask_func: mask function to be applied.
         softmax_in_fp32: if true, softmax in performed at fp32 precision.
     """
 
     def __init__(
         self,
-        attn_mask_type: str,
         mask_func: Callable,
         softmax_in_fp32: bool = True,
     ) -> None:
         super().__init__()
-        self.attn_mask_type = attn_mask_type
         self.scaled_masked_softmax_fusion = bool(
             int(os.getenv("NVTE_MASKED_SOFTMAX_FUSION", "1"))
         )
@@ -249,6 +246,7 @@ def forward(
         self,
         inp: torch.Tensor,
         mask: torch.Tensor,
+        attn_mask_type: str,
         scale: Optional[float] = None,
     ) -> torch.Tensor:
         """FusedScaleMaskSoftmax fprop"""
@@ -257,6 +255,7 @@ def forward(
         self.input_in_fp16 = inp.dtype == torch.float16
         self.input_in_bf16 = inp.dtype == torch.bfloat16
         self.input_in_float16 = self.input_in_fp16 or self.input_in_bf16
+        self.attn_mask_type = attn_mask_type
 
         assert (
             scale is None or self.softmax_in_fp32
diff --git a/transformer_engine/pytorch/transformer.py b/transformer_engine/pytorch/transformer.py
index de93cd652f..6b45a10fb3 100644
--- a/transformer_engine/pytorch/transformer.py
+++ b/transformer_engine/pytorch/transformer.py
@@ -73,10 +73,10 @@ class TransformerLayer(torch.nn.Module):
         Arguments :attr:`attention_softmax_in_fp32` and :attr:`apply_query_key_layer_scaling`
         are deprecated and will be fully removed in future releases.
 
-    .. note::
+    .. warning::
 
-        Argument :attr:`attention_mask` will be ignored in the `forward` call when
-        :attr:`self_attn_mask_type` is set to `"causal"`.
+        Argument :attr:`self_attn_mask_type` has been moved to the `forward` method and
+        is deprecated. It will be fully removed in future releases.
 
     Parameters
     ----------
@@ -127,8 +127,6 @@ class TransformerLayer(torch.nn.Module):
     kv_channels: int, default = `None`
                 number of key-value channels. defaults to
                 :attr:`hidden_size` / :attr:`num_attention_heads` if `None`.
-    self_attn_mask_type: {'causal', 'padding'}, default = `causal`
-                        type of attention mask passed into softmax operation.
     zero_centered_gamma : bool, default = 'False'
                          if set to 'True', gamma parameter in LayerNorm is initialized to 0 and
                          the LayerNorm formula changes to
@@ -214,7 +212,7 @@ def __init__(
         output_layer_init_method: Optional[Callable] = None,
         layer_number: Optional[int] = None,
         kv_channels: Optional[int] = None,
-        self_attn_mask_type: str = "causal",
+        self_attn_mask_type: Optional[str] = None,
         tp_group: Optional[dist_group_type] = None,
         tp_size: int = 1,
         params_dtype: Optional[torch.dtype] = None,
@@ -241,6 +239,13 @@ def __init__(
     ) -> None:
         super().__init__()
 
+        if self_attn_mask_type is not None:
+            warnings.warn(
+                "Argument :attr:`self_attn_mask_type` has been moved to the `forward` method and"
+                "is deprecated. It will be fully removed in future releases.",
+                category=DeprecationWarning,
+            )
+
         warnings.warn(
             "Arguments `attention_softmax_in_fp32` and `apply_query_key_layer_scaling`"
             "are deprecated and will be fully removed in future releases.",
@@ -252,6 +257,7 @@ def __init__(
                 tex.userbuf_comm_available()
             ), "Userbuffer communication backend not available."
 
+        self.self_attn_mask_type = self_attn_mask_type
         params_dtype = torch.get_default_dtype() if params_dtype is None else params_dtype
         ub_tp_comm_overlap = ub_tp_comm_overlap and bool(int(os.getenv("NVTE_UB_OVERLAP", "1")))
         ub_bulk_wgrad = ub_tp_comm_overlap and bool(int(os.getenv("NVTE_UB_BULK_WGRAD", "1")))
@@ -265,10 +271,7 @@ def __init__(
         self.apply_residual_connection_post_layernorm = (
             apply_residual_connection_post_layernorm
         )
-        self.self_attn_mask_type = self_attn_mask_type
-        assert (
-            self_attn_mask_type in AttnMaskTypes
-        ), f"self_attn_mask_type {self_attn_mask_type} not supported"
+
         assert layer_type in LayerTypes, f"layer_type {layer_type} not supported"
 
         if not fuse_qkv_params:
@@ -326,7 +329,6 @@ def __init__(
         self.self_attention = MultiheadAttention(
             *attention_args,
             **common_attention_kwargs,
-            attn_mask_type=self_attn_mask_type,
             input_layernorm=not output_layernorm,
             attention_type="self",
             bias=bias,
@@ -429,6 +431,7 @@ def forward(
         self,
         hidden_states: torch.Tensor,
         attention_mask: Optional[torch.Tensor] = None,
+        self_attn_mask_type: str = "causal",
         encoder_output: Optional[torch.Tensor] = None,
         enc_dec_attn_mask: Optional[torch.Tensor] = None,
         is_first_microbatch: Optional[bool] = None,
@@ -453,6 +456,8 @@ def forward(
              Input tensor.
         attention_mask : Optional[torch.Tensor], default = `None`
              Boolean tensor used to mask out self-attention softmax input.
+        self_attn_mask_type: {'causal', 'padding'}, default = `causal`
+                            type of attention mask passed into softmax operation.
         encoder_output : Optional[torch.Tensor], default = `None`
              Output of the encoder block to be fed into the decoder block if using
              `layer_type="decoder"`.
@@ -488,6 +493,19 @@ def forward(
                     Whether to set output tensors to 0 or not before use.
         """
 
+        if self.self_attn_mask_type is not None:
+            warnings.warn(
+                "Argument :attr:`self_attn_mask_type` has been moved to the `forward` method and"
+                "is deprecated. It will be fully removed in future releases.",
+                category=DeprecationWarning,
+            )
+            # Keep previous functionality for current users.
+            self_attn_mask_type = self.self_attn_mask_type
+
+        assert (
+            self_attn_mask_type in AttnMaskTypes
+        ), f"self_attn_mask_type {self_attn_mask_type} not supported"
+
         hidden_states = hidden_states.contiguous()
 
         if self.sequence_parallel and self.seq_length is not None:
@@ -495,7 +513,7 @@ def forward(
                 hidden_states.shape[0] == self.seq_length // self.tp_size
             ), "Sequence dimension must be split across TP group when using sequence parallel."
 
-        if self.self_attn_mask_type != "causal" and attention_mask is not None:
+        if self_attn_mask_type != "causal" and attention_mask is not None:
             assert (
                 attention_mask.dtype == torch.bool
             ), "Attention mask must be a boolean tensor"
@@ -509,7 +527,8 @@ def forward(
         # Self attention.
         self_attention_outputs = self.self_attention(
             hidden_states,
-            attention_mask,
+            attention_mask=attention_mask,
+            attn_mask_type=self_attn_mask_type,
             inference_params=inference_params,
             is_first_microbatch=is_first_microbatch,
             checkpoint_core_attention=checkpoint_core_attention,
@@ -556,7 +575,8 @@ def forward(
         if self.layer_type == "decoder":
             inter_attention_outputs = self.inter_attention(
                 bda_output,
-                enc_dec_attn_mask,
+                attention_mask=enc_dec_attn_mask,
+                attn_mask_type=self_attn_mask_type,
                 encoder_output=encoder_output,
                 is_first_microbatch=is_first_microbatch,
                 checkpoint_core_attention=checkpoint_core_attention,

From f5cc69e89c66c05e7e52af0d23e569cc5f4d96f1 Mon Sep 17 00:00:00 2001
From: Tian Zheng <tizheng@nvidia.com>
Date: Sun, 27 Aug 2023 02:08:10 +0800
Subject: [PATCH 277/535] [Paddle] Add parallel support (#357)

* [Paddle] Add TP, DP, PP, FSDP

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Minor fix

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Fix CI failure

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Remove set_nccl_overlap_warning_if_tp

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Improve variable naming

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Refactor FP8 Buffer

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Stylic changes

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Fix FP32 parallel training

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Fix numel performance issue

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Squashed commit of the following:

commit 79e2e5fd774e67dcdda9aae01a9f31a6479c5d70
Author: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>
Date:   Sun Aug 20 14:39:16 2023 +0000

    Add TP test

    Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

commit 1d40ad60540490f97ed82ba877cc6eda8902cbf6
Author: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>
Date:   Sun Aug 20 14:22:25 2023 +0000

    Fix tp_size when disabled

    Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

commit 6632f735a0c8251862355fc74622af59fae3a509
Author: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>
Date:   Sun Aug 20 05:52:18 2023 +0000

    Add TP for attention and transformer layer

    Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Add shape check

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Add FSDP check for stage 1,2,3

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Review changes

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Fix group_sharding test

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Support NVTE_FUSE_ATTN

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

* Fix CI errors

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>

---------

Signed-off-by: Tian Zheng (Engrg-Hardware 1) <tizheng@nvidia.com>
Co-authored-by: Kirthi Shankar Sivamani <ksivamani@nvidia.com>
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../paddle/mnist/test_single_gpu_mnist.py     |   8 +-
 tests/paddle/dist_launcher.py                 | 140 ++++++++++
 tests/paddle/parallel_tests/amax_reduction.py |  87 ++++++
 tests/paddle/parallel_tests/group_sharding.py | 187 +++++++++++++
 .../parallel_tests/layernorm_linear_tp.py     | 119 ++++++++
 .../paddle/parallel_tests/layernorm_mlp_tp.py | 125 +++++++++
 tests/paddle/parallel_tests/linear_pp.py      | 192 +++++++++++++
 tests/paddle/parallel_tests/linear_tp.py      | 180 ++++++++++++
 tests/paddle/parallel_tests/transformer_tp.py | 151 ++++++++++
 tests/paddle/test_layers.py                   |  10 +-
 tests/paddle/test_operators.py                |   8 +-
 tests/paddle/test_parallel.py                 |  89 ++++++
 tests/paddle/utils.py                         |  18 ++
 transformer_engine/paddle/constants.py        |   4 +
 transformer_engine/paddle/distributed.py      | 100 +++++++
 transformer_engine/paddle/fp8.py              |  92 +++++--
 transformer_engine/paddle/fp8_buffer.py       | 257 ++++++++++++++++++
 transformer_engine/paddle/layer/attention.py  | 106 +++++---
 transformer_engine/paddle/layer/base.py       |  78 +++++-
 transformer_engine/paddle/layer/layernorm.py  |   2 +-
 .../paddle/layer/layernorm_linear.py          | 109 ++++++--
 .../paddle/layer/layernorm_mlp.py             | 153 +++++++++--
 transformer_engine/paddle/layer/linear.py     | 145 ++++++++--
 .../paddle/layer/transformer.py               |  28 +-
 24 files changed, 2248 insertions(+), 140 deletions(-)
 create mode 100644 tests/paddle/dist_launcher.py
 create mode 100644 tests/paddle/parallel_tests/amax_reduction.py
 create mode 100644 tests/paddle/parallel_tests/group_sharding.py
 create mode 100644 tests/paddle/parallel_tests/layernorm_linear_tp.py
 create mode 100644 tests/paddle/parallel_tests/layernorm_mlp_tp.py
 create mode 100644 tests/paddle/parallel_tests/linear_pp.py
 create mode 100644 tests/paddle/parallel_tests/linear_tp.py
 create mode 100644 tests/paddle/parallel_tests/transformer_tp.py
 create mode 100644 tests/paddle/test_parallel.py
 create mode 100644 transformer_engine/paddle/distributed.py
 create mode 100644 transformer_engine/paddle/fp8_buffer.py

diff --git a/examples/paddle/mnist/test_single_gpu_mnist.py b/examples/paddle/mnist/test_single_gpu_mnist.py
index dabeb55656..cffd036d95 100644
--- a/examples/paddle/mnist/test_single_gpu_mnist.py
+++ b/examples/paddle/mnist/test_single_gpu_mnist.py
@@ -57,11 +57,13 @@ def forward(self, x):
 def train(args, model, train_loader, optimizer, epoch, use_fp8):
     """Training function."""
     model.train()
+    losses = []
     for batch_id, (data, labels) in enumerate(train_loader):
         with paddle.amp.auto_cast(dtype='bfloat16', level='O2'):    # pylint: disable=not-context-manager
             with te.fp8_autocast(enabled=use_fp8):
                 outputs = model(data)
             loss = F.cross_entropy(outputs, labels)
+            losses.append(loss.item())
 
         loss.backward()
         optimizer.step()
@@ -74,7 +76,9 @@ def train(args, model, train_loader, optimizer, epoch, use_fp8):
                   f"Loss: {loss.item():.6f}")
             if args.dry_run:
                 return loss.item()
-    return loss.item()
+    avg_loss = sum(losses) / len(losses)
+    print(f"Train Epoch: {epoch}, Average Loss: {avg_loss}")
+    return avg_loss
 
 
 def evaluate(model, test_loader, epoch, use_fp8):
@@ -226,7 +230,7 @@ def setUpClass(cls):
     @staticmethod
     def verify(actual):
         """Check If loss and accuracy match target"""
-        desired_traing_loss = 0.5
+        desired_traing_loss = 0.1
         desired_test_accuracy = 0.98
         assert actual[0] < desired_traing_loss
         assert actual[1] > desired_test_accuracy
diff --git a/tests/paddle/dist_launcher.py b/tests/paddle/dist_launcher.py
new file mode 100644
index 0000000000..e59b686435
--- /dev/null
+++ b/tests/paddle/dist_launcher.py
@@ -0,0 +1,140 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Helper functions to launch distributed tests"""
+
+import copy
+import os
+from pathlib import Path
+import subprocess
+import time
+import unittest
+
+from paddle import fluid
+from paddle.distributed.utils.launch_utils import (
+    TrainerProc,
+    find_free_ports,
+    get_cluster,
+    watch_local_trainers,
+)
+
+__all__ = ['TestDistributed']
+
+
+def get_cluster_from_args(selected_gpus):
+    """Get node information from selected GPUs"""
+    cluster_node_ips = '127.0.0.1'
+    node_ip = '127.0.0.1'
+
+    node_ips = [x.strip() for x in cluster_node_ips.split(',')]
+
+    node_ips.index(node_ip)
+
+    free_ports = None
+
+    free_ports = find_free_ports(len(selected_gpus))
+    if free_ports is not None:
+        free_ports = list(free_ports)
+
+    trainer_endpoints = []
+    for ip in node_ips:
+        trainer_endpoints.append([f"{ip}:{port}" for port in free_ports])
+    return get_cluster(node_ips, node_ip, trainer_endpoints, selected_gpus)
+
+
+def get_gpus(selected_gpus):
+    """Get selected GPU string"""
+    selected_gpus = [x.strip() for x in selected_gpus.split(',')]
+    return selected_gpus
+
+
+def start_local_trainers(
+    cluster,
+    pod,
+    training_script,
+    training_script_args,
+    allocator_strategy="auto_growth",
+):
+    """Launch trainers"""
+    current_env = copy.copy(os.environ.copy())
+    # paddle broadcast ncclUniqueId use socket, and
+    # proxy maybe make trainers unreachable, so delete them.
+    # if we set them to "", grpc will log error message "bad uri"
+    # so just delete them.
+    current_env.pop("http_proxy", None)
+    current_env.pop("https_proxy", None)
+
+    procs = []
+    for t in pod.trainers:
+        proc_env = {
+            "FLAGS_selected_gpus": ",".join([str(g) for g in t.gpus]),
+            "PADDLE_TRAINER_ID": f"{t.rank}",
+            "PADDLE_CURRENT_ENDPOINT": f"{t.endpoint}",
+            "PADDLE_TRAINERS_NUM": f"{cluster.trainers_nranks()}",
+            "PADDLE_TRAINER_ENDPOINTS": ",".join(cluster.trainers_endpoints()),
+            "PYTHONPATH": str(Path(__file__).resolve().parent),
+        }
+
+        proc_env["FLAGS_allocator_strategy"] = allocator_strategy
+        if allocator_strategy == "auto_growth":
+            proc_env["FLAGS_fraction_of_gpu_memory_to_use"] = "0.1"
+
+        current_env.update(proc_env)
+
+        print(f"trainer proc env:{current_env}")
+
+        if os.getenv('WITH_COVERAGE', 'OFF') == 'ON':
+            cmd = "python -m coverage run --branch -p " + training_script
+        else:
+            cmd = "python -u " + training_script
+
+        print(f"start trainer proc:{cmd} env:{proc_env}")
+
+        fn = None
+
+        proc = subprocess.Popen(cmd.split(" ") + training_script_args, env=current_env)    # pylint: disable=consider-using-with
+
+        tp = TrainerProc()
+        tp.proc = proc
+        tp.rank = t.rank
+        tp.log_fn = fn
+        tp.cmd = cmd
+
+        procs.append(tp)
+
+    return procs
+
+
+class TestDistributed(unittest.TestCase):
+    """Base class for distributed test"""
+
+    @staticmethod
+    def run_2gpu(
+        target_file_name,
+        allocator_strategy="auto_growth",
+    ):
+        """Run target file in subprocesses"""
+        if (not fluid.core.is_compiled_with_cuda() or fluid.core.get_cuda_device_count() == 0):
+            return
+
+        selected_gpus = get_gpus('0,1')
+        cluster = None
+        pod = None
+
+        cluster, pod = get_cluster_from_args(selected_gpus)
+
+        procs = start_local_trainers(
+            cluster,
+            pod,
+            allocator_strategy=allocator_strategy,
+            training_script=target_file_name,
+            training_script_args=[],
+        )
+
+        while True:
+            alive = watch_local_trainers(procs, cluster.trainers_endpoints())
+
+            if not alive:
+                print(f"Local procs complete, POD info:{pod}")
+                break
+            time.sleep(3)
diff --git a/tests/paddle/parallel_tests/amax_reduction.py b/tests/paddle/parallel_tests/amax_reduction.py
new file mode 100644
index 0000000000..931af07657
--- /dev/null
+++ b/tests/paddle/parallel_tests/amax_reduction.py
@@ -0,0 +1,87 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Unittest for Linear layer in tensor parallel"""
+
+import unittest
+
+import paddle
+from paddle.distributed import fleet
+
+from utils import assert_allclose, set_random_seed
+import transformer_engine.paddle as te
+
+
+def assert_allclose_across_ranks(tensor, group=None):
+    """Assert tensor is identical in all ranks"""
+    gathered_list = []
+    paddle.distributed.all_gather(gathered_list, tensor, group=group)
+    assert len(gathered_list) > 1
+    for gathered_tensor in gathered_list:
+        assert_allclose(tensor, gathered_tensor)
+
+
+class TestAmaxReduction(unittest.TestCase):
+    """Tests Amax reduction"""
+
+    def setUp(self):
+        self.data_parallel_size = 2
+        self.init_dist_env()
+        self.global_dtype = 'bfloat16'
+        paddle.set_default_dtype(self.global_dtype)
+
+    def init_dist_env(self):
+        """Init Paddle Fleet environment"""
+        strategy = fleet.DistributedStrategy()
+        strategy.hybrid_configs = {
+            "dp_degree": self.data_parallel_size,
+            "mp_degree": 1,
+            "pp_degree": 1,
+        }
+        fleet.init(is_collective=True, strategy=strategy)
+
+    def test_amax_reduction(self):
+        """Tests column parallel linear"""
+        set_random_seed(1024)
+        layer1 = te.Linear(16, 16)
+        layer2 = te.Linear(16, 16)
+        model = paddle.nn.Sequential(layer1, layer2)
+        model = fleet.distributed_model(model)
+
+        rank_id = paddle.distributed.get_rank()
+        set_random_seed(rank_id)
+
+        optimizer = paddle.optimizer.SGD(learning_rate=10.0, parameters=model.parameters())
+        optimizer = fleet.distributed_optimizer(optimizer)
+
+        def train_one_step(layer, inp, optimizer):
+            inp = paddle.to_tensor(inp)
+            inp.stop_gradient = False
+            out = layer(inp)
+            loss = out.mean()
+            loss.backward()
+            optimizer.step()
+            optimizer.clear_grad()
+            return loss
+
+        for _ in range(5):
+            inp = paddle.uniform([16, 16], self.global_dtype)
+            with te.fp8_autocast(enabled=True):
+                train_one_step(model, inp, optimizer)
+
+            assert_allclose_across_ranks(layer1.fp8_meta["scaling_fwd"].amax_history[-1])
+            assert_allclose_across_ranks(layer1.fp8_meta["scaling_fwd"].scale)
+            assert_allclose_across_ranks(layer1.fp8_meta["scaling_fwd"].scale_inv)
+            assert_allclose_across_ranks(layer2.fp8_meta["scaling_fwd"].amax_history[-1])
+            assert_allclose_across_ranks(layer2.fp8_meta["scaling_fwd"].scale)
+            assert_allclose_across_ranks(layer2.fp8_meta["scaling_fwd"].scale_inv)
+            assert_allclose_across_ranks(layer1.fp8_meta["scaling_bwd"].amax_history[-1])
+            assert_allclose_across_ranks(layer1.fp8_meta["scaling_bwd"].scale)
+            assert_allclose_across_ranks(layer1.fp8_meta["scaling_bwd"].scale_inv)
+            assert_allclose_across_ranks(layer2.fp8_meta["scaling_bwd"].amax_history[-1])
+            assert_allclose_across_ranks(layer2.fp8_meta["scaling_bwd"].scale)
+            assert_allclose_across_ranks(layer2.fp8_meta["scaling_bwd"].scale_inv)
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/paddle/parallel_tests/group_sharding.py b/tests/paddle/parallel_tests/group_sharding.py
new file mode 100644
index 0000000000..b8e4fd885d
--- /dev/null
+++ b/tests/paddle/parallel_tests/group_sharding.py
@@ -0,0 +1,187 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Unittest for group sharding"""
+
+import unittest
+
+import paddle
+from paddle.distributed import fleet
+from paddle.distributed.fleet.meta_optimizers.dygraph_optimizer import (
+    DygraphShardingOptimizer,)
+
+from utils import assert_allclose, set_random_seed
+import transformer_engine.paddle as te
+
+
+class TestGroupSharding(unittest.TestCase):
+    """Tests group sharding"""
+
+    def setUp(self):
+        self.set_attr()
+        self.init_dist_env()
+        paddle.set_default_dtype(self.global_dtype)
+
+    def set_attr(self):
+        """Set test configs"""
+        self.sharding_degree = 2
+        self.global_dtype = 'float32'
+        self.rtol = 1e-5
+        self.atol = 1e-5
+        self.batch_size = 16
+        self.in_channels = 16
+        self.out_channels = 32
+        self.fp8 = False
+
+    def init_dist_env(self):
+        """Init Paddle Fleet environment"""
+        strategy = fleet.DistributedStrategy()
+        strategy.hybrid_configs = {
+            "dp_degree": 1,
+            "mp_degree": 1,
+            "pp_degree": 1,
+            "sharding_degree": self.sharding_degree,
+        }
+        self.strategy = strategy
+        fleet.init(is_collective=True, strategy=strategy)
+
+    def _get_model_and_optimizer(self, model, stage):
+        if stage == 1:
+            optimizer = DygraphShardingOptimizer(
+                hcg=fleet.get_hybrid_communicate_group(),
+                user_defined_strategy=self.strategy,
+                params=model.parameters(),
+                inner_optimizer_class=paddle.optimizer.AdamW,
+                learning_rate=0.01,
+            )
+            model = fleet.distributed_model(model)
+            optimizer = fleet.distributed_optimizer(optimizer)
+        elif stage in [2, 3]:
+            optimizer = paddle.optimizer.AdamW(learning_rate=0.01, parameters=model.parameters())
+            group = fleet.get_hybrid_communicate_group().get_sharding_parallel_group()
+
+            class ShardingLevel:    # pylint: disable=too-few-public-methods,
+                """Paddle sharding options"""
+                kStage1 = 'os'
+                kStage2 = 'os_g'
+                kStage3 = 'p_g_os'
+
+            level = ShardingLevel.kStage3 if stage == 3 else ShardingLevel.kStage2
+            model, optimizer, _ = paddle.distributed.sharding.group_sharded_parallel(
+                model=model,
+                optimizer=optimizer,
+                level=level,
+                group=group,
+                segment_size=256,
+            )
+        else:
+            raise ValueError(f"Stage {stage} not supported")
+        return model, optimizer
+
+    def test_group_sharding_stage1(self):
+        """Tests group sharding training"""
+        set_random_seed(1024)
+        model_te = te.Linear(self.in_channels, self.out_channels)
+        model_pd = paddle.nn.Linear(self.in_channels, self.out_channels)
+        model_pd.weight.copy_(model_te.weight.T, True)
+        model_pd.bias.copy_(model_te.bias, True)
+
+        model_te, optimizer_te = self._get_model_and_optimizer(model_te, stage=1)
+        model_pd, optimizer_pd = self._get_model_and_optimizer(model_pd, stage=1)
+
+        rank_id = paddle.distributed.get_rank()
+        paddle.seed(rank_id)
+
+        def train_one_step(model, inp, optimizer):
+            out = model(inp)
+            loss = out.mean()
+            loss.backward()
+            optimizer.step()
+            optimizer.clear_grad()
+            return loss
+
+        for _ in range(5):
+            inp = paddle.uniform([self.batch_size, self.in_channels], self.global_dtype)
+            with te.fp8_autocast(enabled=False):
+                loss_te = train_one_step(model_te, inp, optimizer_te)
+            loss_pd = train_one_step(model_pd, inp, optimizer_pd)
+            assert_allclose(loss_te, loss_pd, rtol=self.rtol, atol=self.atol)
+
+        assert len(optimizer_te.state_dict()) == 4, \
+            "Expect each rank to hold 4 optimizer state entries."
+
+    def test_group_sharding_stage2(self):
+        """Tests group sharding training"""
+        set_random_seed(1024)
+        model_te = te.Linear(self.in_channels, self.out_channels)
+        model_pd = paddle.nn.Linear(self.in_channels, self.out_channels)
+        model_pd.weight.copy_(model_te.weight.T, True)
+        model_pd.bias.copy_(model_te.bias, True)
+
+        model_te, optimizer_te = self._get_model_and_optimizer(model_te, stage=2)
+        model_pd, optimizer_pd = self._get_model_and_optimizer(model_pd, stage=2)
+
+        rank_id = paddle.distributed.get_rank()
+        paddle.seed(rank_id)
+
+        def train_one_step(model, inp, optimizer):
+            out = model(inp)
+            loss = out.mean()
+            loss.backward()
+            # Check gradients are split to different trainers
+            if rank_id == 0:
+                assert model.bias.grad is None and model.weight.grad is not None
+            elif rank_id == 1:
+                assert model.weight.grad is None and model.bias.grad is not None
+            optimizer.step()
+            optimizer.clear_grad()
+            return loss
+
+        for _ in range(5):
+            inp = paddle.uniform([self.batch_size, self.in_channels], self.global_dtype)
+            with te.fp8_autocast(enabled=False):
+                loss_te = train_one_step(model_te, inp, optimizer_te)
+            loss_pd = train_one_step(model_pd, inp, optimizer_pd)
+            assert_allclose(loss_te, loss_pd, rtol=self.rtol, atol=self.atol)
+
+        assert len(optimizer_te.state_dict()) == 4, \
+            "Expect each rank to hold 4 optimizer state entries."
+
+    def test_group_sharding_stage3(self):
+        """Tests group sharding training"""
+        set_random_seed(1024)
+        model_te = te.Linear(self.in_channels, self.out_channels)
+        model_pd = paddle.nn.Linear(self.in_channels, self.out_channels)
+        model_pd.weight.copy_(model_te.weight.T, True)
+        model_pd.bias.copy_(model_te.bias, True)
+
+        model_te, optimizer_te = self._get_model_and_optimizer(model_te, stage=3)
+        model_pd, optimizer_pd = self._get_model_and_optimizer(model_pd, stage=3)
+
+        rank_id = paddle.distributed.get_rank()
+        paddle.seed(rank_id)
+
+        def train_one_step(model, inp, optimizer):
+            out = model(inp)
+            loss = out.mean()
+            loss.backward()
+            optimizer.step()
+            optimizer.clear_grad()
+            return loss
+
+        for _ in range(5):
+            inp = paddle.uniform([self.batch_size, self.in_channels], self.global_dtype)
+            with te.fp8_autocast(enabled=False):
+                loss_te = train_one_step(model_te, inp, optimizer_te)
+            loss_pd = train_one_step(model_pd, inp, optimizer_pd)
+            assert_allclose(loss_te, loss_pd, rtol=self.rtol, atol=self.atol)
+
+        for name, value in optimizer_te.state_dict().items():
+            if name.endswith('w_0_moment1_0'):
+                assert value.numel() == \
+                    self.in_channels * self.out_channels // self.sharding_degree, \
+                    "Expect optimizer state to be sharded across trainers."
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/paddle/parallel_tests/layernorm_linear_tp.py b/tests/paddle/parallel_tests/layernorm_linear_tp.py
new file mode 100644
index 0000000000..1034fb26fc
--- /dev/null
+++ b/tests/paddle/parallel_tests/layernorm_linear_tp.py
@@ -0,0 +1,119 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Unittest for LayerNormLinear layer in tensor parallel"""
+
+import unittest
+
+import paddle
+from paddle.distributed import fleet
+from paddle.distributed.fleet.layers.mpu import mp_ops
+
+from utils import assert_allclose, assert_shape, set_random_seed
+import transformer_engine.paddle as te
+
+
+class TestLayerNormLinearTp(unittest.TestCase):
+    """Tests LayerNormLinear layer with column/row parallelism in BF16"""
+
+    def setUp(self):
+        self.set_attr()
+        self.init_dist_env()
+        paddle.set_default_dtype(self.global_dtype)
+
+    def init_dist_env(self):
+        """Init Paddle Fleet environment"""
+        strategy = fleet.DistributedStrategy()
+        self.model_parallel_size = 2
+        strategy.hybrid_configs = {
+            "dp_degree": 1,
+            "mp_degree": self.model_parallel_size,
+            "pp_degree": 1,
+        }
+        fleet.init(is_collective=True, strategy=strategy)
+        self.hcg = fleet.get_hybrid_communicate_group()
+        self.tp_group = self.hcg.get_model_parallel_group()
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 16
+        self.in_features = 32
+        self.out_features = 64
+        self.global_dtype = 'bfloat16'
+        self.rtol = 1e-3
+        self.atol = 1e-3
+        self.eps = 1e-3
+        self.fp8 = False
+
+    def test_column_parallel_layer(self):
+        """Tests column parallel LayerNormLinear"""
+        set_random_seed(1024)
+        layer_te = te.LayerNormLinear(
+            self.in_features,
+            self.out_features,
+            eps=self.eps,
+            parallel_mode='column',
+        )
+        layer_pd = te.LayerNormLinear(
+            self.in_features,
+            self.out_features,
+            eps=self.eps,
+            backend='paddle',
+        )
+        # Get total weight
+        total_weight = []
+        partial_weight = layer_te.weight.clone().detach()
+        paddle.distributed.all_gather(total_weight, partial_weight, group=self.tp_group)
+        total_weight = paddle.concat(total_weight, axis=0)
+        layer_pd.weight.copy_(total_weight.T, True)
+
+        assert_shape(layer_te.weight,
+                     [self.out_features // self.model_parallel_size, self.in_features])
+        assert_shape(layer_te.bias, [self.out_features // self.model_parallel_size])
+
+        optimizer_te = paddle.optimizer.SGD(learning_rate=0.001, parameters=layer_te.parameters())
+        optimizer_pd = paddle.optimizer.SGD(learning_rate=0.001, parameters=layer_pd.parameters())
+
+        layer_te = fleet.distributed_model(layer_te)
+        optimizer_te = fleet.distributed_optimizer(optimizer_te)
+
+        def train_one_step(layer, inp, optimizer, gather=False):
+            inp = paddle.to_tensor(inp)
+            inp.stop_gradient = False
+            out = layer(inp)
+            if gather:
+                total_out = mp_ops._c_concat(out, group=self.tp_group)
+            else:
+                total_out = out
+            loss = total_out.mean()
+            loss.backward()
+            optimizer.step()
+            optimizer.clear_grad()
+            return loss, inp.grad
+
+        for _ in range(5):
+            inp = paddle.uniform([self.batch_size, self.in_features], self.global_dtype)
+            with te.fp8_autocast(enabled=self.fp8):
+                loss_tp, grad_input = train_one_step(layer_te, inp, optimizer_te, gather=True)
+            loss_ref, grad_input_ref = train_one_step(layer_pd, inp, optimizer_pd)
+            assert_allclose(loss_tp, loss_ref, rtol=self.rtol, atol=self.atol)
+            assert_allclose(grad_input, grad_input_ref, rtol=self.rtol, atol=self.atol)
+
+
+class TestLayerNormLinearTpFp8(TestLayerNormLinearTp):
+    """Tests LayernormLinear layer with column/row parallelism in FP8"""
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 16
+        self.in_features = 32
+        self.out_features = 64
+        self.global_dtype = 'bfloat16'
+        self.rtol = 1e-2
+        self.atol = 1e-2
+        self.eps = 1e-3
+        self.fp8 = True
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/paddle/parallel_tests/layernorm_mlp_tp.py b/tests/paddle/parallel_tests/layernorm_mlp_tp.py
new file mode 100644
index 0000000000..f579f5f371
--- /dev/null
+++ b/tests/paddle/parallel_tests/layernorm_mlp_tp.py
@@ -0,0 +1,125 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Unittest for LayerNormMLP layer in tensor parallel"""
+
+import unittest
+
+import paddle
+from paddle.distributed import fleet
+
+from utils import assert_allclose, assert_shape, set_random_seed
+import transformer_engine.paddle as te
+
+
+class TestLayerNormMLPTp(unittest.TestCase):
+    """Tests LayerNormMLP layer with model parallel in BF16"""
+
+    def setUp(self):
+        self.set_attr()
+        self.init_dist_env()
+        paddle.set_default_dtype(self.global_dtype)
+
+    def init_dist_env(self):
+        """Init Paddle Fleet environment"""
+        strategy = fleet.DistributedStrategy()
+        self.model_parallel_size = 2
+        strategy.hybrid_configs = {
+            "dp_degree": 1,
+            "mp_degree": self.model_parallel_size,
+            "pp_degree": 1,
+        }
+        fleet.init(is_collective=True, strategy=strategy)
+        self.hcg = fleet.get_hybrid_communicate_group()
+        self.tp_group = self.hcg.get_model_parallel_group()
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 16
+        self.hidden_size = 32
+        self.ffn_hidden_size = 64
+        self.global_dtype = 'bfloat16'
+        self.rtol = 1e-3
+        self.atol = 1e-3
+        self.eps = 1e-3
+        self.fp8 = False
+
+    def test_parallel_layer(self):
+        """Tests parallel LayerNormMLP"""
+        set_random_seed(1024)
+        layer_te = te.LayerNormMLP(
+            hidden_size=self.hidden_size,
+            ffn_hidden_size=self.ffn_hidden_size,
+            eps=self.eps,
+            set_parallel_mode=True,
+        )
+        layer_pd = te.LayerNormMLP(
+            hidden_size=self.hidden_size,
+            ffn_hidden_size=self.ffn_hidden_size,
+            eps=self.eps,
+            set_parallel_mode=False,
+            backend='paddle',
+        )
+
+        def _get_total_weight(local_weight, tp_group, axis):
+            total_weight = []
+            partial_weight = local_weight.clone().detach()
+            paddle.distributed.all_gather(total_weight, partial_weight, group=tp_group)
+            total_weight = paddle.concat(total_weight, axis=axis)
+            return total_weight
+
+        # Get total weight
+        total_fc1_weight = _get_total_weight(layer_te.fc1_weight, tp_group=self.tp_group, axis=0)
+        total_fc2_weight = _get_total_weight(layer_te.fc2_weight, tp_group=self.tp_group, axis=1)
+        layer_pd.fc1_weight.copy_(total_fc1_weight.T, True)
+        layer_pd.fc2_weight.copy_(total_fc2_weight.T, True)
+
+        assert_shape(layer_te.fc1_weight,
+                     [self.ffn_hidden_size // self.model_parallel_size, self.hidden_size])
+        assert_shape(layer_te.fc1_bias, [self.ffn_hidden_size // self.model_parallel_size])
+        assert_shape(layer_te.fc2_weight,
+                     [self.hidden_size, self.ffn_hidden_size // self.model_parallel_size])
+        assert_shape(layer_te.fc2_bias, [self.hidden_size])
+
+        optimizer_te = paddle.optimizer.SGD(learning_rate=0.001, parameters=layer_te.parameters())
+        optimizer_pd = paddle.optimizer.SGD(learning_rate=0.001, parameters=layer_pd.parameters())
+
+        layer_te = fleet.distributed_model(layer_te)
+        optimizer_te = fleet.distributed_optimizer(optimizer_te)
+
+        def train_one_step(layer, inp, optimizer):
+            inp = paddle.to_tensor(inp)
+            inp.stop_gradient = False
+            out = layer(inp)
+            loss = out.mean()
+            loss.backward()
+            optimizer.step()
+            optimizer.clear_grad()
+            return loss, inp.grad
+
+        for _ in range(5):
+            inp = paddle.uniform([self.batch_size, self.hidden_size], self.global_dtype)
+            with te.fp8_autocast(enabled=self.fp8):
+                loss_tp, grad_input = train_one_step(layer_te, inp, optimizer_te)
+            loss_ref, grad_input_ref = train_one_step(layer_pd, inp, optimizer_pd)
+            assert_allclose(loss_tp, loss_ref, rtol=self.rtol, atol=self.atol)
+            assert_allclose(grad_input, grad_input_ref, rtol=self.rtol, atol=self.atol)
+
+
+class TestLayerNormMLPTpFp8(TestLayerNormMLPTp):
+    """Tests LayerNormMLP layer with tensor parallelism in FP8"""
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 16
+        self.hidden_size = 32
+        self.ffn_hidden_size = 64
+        self.global_dtype = 'bfloat16'
+        self.rtol = 1e-2
+        self.atol = 1e-2
+        self.eps = 1e-3
+        self.fp8 = True
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/paddle/parallel_tests/linear_pp.py b/tests/paddle/parallel_tests/linear_pp.py
new file mode 100644
index 0000000000..994e15ba7d
--- /dev/null
+++ b/tests/paddle/parallel_tests/linear_pp.py
@@ -0,0 +1,192 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Unittest for Linear layer in pipeline parallel"""
+
+import unittest
+
+import numpy as np
+
+import paddle
+from paddle.distributed import fleet
+
+from paddle.distributed.fleet.meta_parallel import (
+    LayerDesc,
+    PipelineLayer,
+)
+
+from utils import assert_allclose, set_random_seed
+import transformer_engine.paddle as te
+
+
+class TEPipelineModel(PipelineLayer):
+    """Model for pipeline parallel test"""
+
+    def __init__(self,
+                 in_features,
+                 hidden_features,
+                 weight_attrs,
+                 use_te=True,
+                 use_fp8=False,
+                 **kwargs):
+        self.in_features = in_features
+        self.hidden_features = hidden_features
+        self.fp8 = use_fp8
+        hcg = fleet.get_hybrid_communicate_group()
+        self.dp_group = hcg.get_data_parallel_group()
+
+        Linear = te.Linear if use_te else paddle.nn.Linear
+        model_desc = [
+            LayerDesc(Linear, self.in_features, self.hidden_features, weight_attr=weight_attrs[0]),
+            LayerDesc(Linear, self.hidden_features, self.in_features, weight_attr=weight_attrs[1]),
+        ]
+        super().__init__(layers=model_desc, loss_fn=paddle.nn.CrossEntropyLoss(), **kwargs)
+
+    def forward(self, *args, **kwargs):
+        with te.fp8_autocast(enabled=self.fp8, fp8_group=self.dp_group):
+            return super().forward(*args, **kwargs)
+
+
+class StandaloneModel(paddle.nn.Layer):
+    """Model for pipeline parallel test"""
+
+    def __init__(self, in_features, hidden_features, weight_attrs):
+        super().__init__()
+        self.in_features = in_features
+        self.hidden_features = hidden_features
+        Linear = paddle.nn.Linear
+        self.layer = paddle.nn.Sequential(
+            Linear(self.in_features, self.hidden_features, weight_attr=weight_attrs[0]),
+            Linear(self.hidden_features, self.in_features, weight_attr=weight_attrs[1]),
+        )
+        self.loss = paddle.nn.CrossEntropyLoss()
+
+    def forward(self, inp):
+        out = self.layer(inp[0])
+        loss = self.loss(out, inp[1])
+        return loss
+
+
+class TestLinearPipelineParallel(unittest.TestCase):
+    """Tests Linear layer with pipeline parallel"""
+
+    def setUp(self):
+        self.set_attr()
+        self.init_dist_env()
+        paddle.set_default_dtype(self.global_dtype)
+
+    def init_dist_env(self):
+        """Init Paddle Fleet environment"""
+        strategy = fleet.DistributedStrategy()
+        self.pipeline_parallel_size = 2
+        strategy.hybrid_configs = {
+            "dp_degree": 1,
+            "mp_degree": 1,
+            "pp_degree": self.pipeline_parallel_size,
+        }
+        strategy.pipeline_configs = {
+            "accumulate_steps": self.batch_size // self.micro_batch_size,
+            "micro_batch_size": self.micro_batch_size,
+        }
+        fleet.init(is_collective=True, strategy=strategy)
+        self.rank = fleet.worker_index()
+        self.hcg = fleet.get_hybrid_communicate_group()
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 32
+        self.micro_batch_size = 16
+        self.in_features = 32
+        self.hidden_features = 64
+        self.global_dtype = 'float32'
+        self.rtol = 1e-5
+        self.atol = 1e-5
+        self.iter = 10
+        self.fp8 = False
+
+    def test_pipeline_train(self):
+        """Test pipeline parallel training"""
+        set_random_seed(1024)
+
+        weight1_np = np.random.normal(size=[self.in_features, self.hidden_features])
+        weight2_np = np.random.normal(size=[self.hidden_features, self.in_features])
+        weight_attrs = [
+            paddle.ParamAttr(initializer=paddle.nn.initializer.Assign(weight1_np)),
+            paddle.ParamAttr(initializer=paddle.nn.initializer.Assign(weight2_np)),
+        ]
+        weight_attrs_transposed = [
+            paddle.ParamAttr(initializer=paddle.nn.initializer.Assign(weight1_np.T)),
+            paddle.ParamAttr(initializer=paddle.nn.initializer.Assign(weight2_np.T)),
+        ]
+
+        pipe_model = TEPipelineModel(
+            self.in_features,
+            self.hidden_features,
+            weight_attrs_transposed,
+            use_te=True,
+            use_fp8=self.fp8,
+            seg_method="layer:Linear",
+            num_stages=self.pipeline_parallel_size,
+        )
+
+        # Check if model is split across ranks as expected
+        for name, sublayer in pipe_model.named_sublayers():
+            if name in ('_loss_fn', 'shared_layers'):
+                continue
+            if self.rank == 0:
+                assert tuple(sublayer.weight.shape) == weight1_np.T.shape, \
+                    f"Shape does not match, expect: {weight1_np.T.shape}, " \
+                    f"actual: {tuple(sublayer.weight.shape)}"
+            elif self.rank == 1:
+                assert tuple(sublayer.weight.shape) == weight2_np.T.shape, \
+                    f"Shape does not match, expect: {weight2_np.T.shape}, " \
+                    f"actual: {tuple(sublayer.weight.shape)}"
+
+        standalone_model = StandaloneModel(
+            self.in_features,
+            self.hidden_features,
+            weight_attrs,
+        )
+
+        optimizer_te = paddle.optimizer.SGD(learning_rate=0.1, parameters=pipe_model.parameters())
+        optimizer_pd = paddle.optimizer.SGD(learning_rate=0.1,
+                                            parameters=standalone_model.parameters())
+
+        pipe_model = fleet.distributed_model(pipe_model)
+        optimizer_te = fleet.distributed_optimizer(optimizer_te)
+
+        def train_one_step(layer, inp, optimizer):
+            loss = layer(inp)
+            loss.backward()
+            optimizer.step()
+            optimizer.clear_grad()
+            return loss
+
+        for i in range(self.iter):
+            inp = paddle.to_tensor(np.random.normal(size=[self.batch_size, self.in_features]),
+                                   dtype=self.global_dtype)
+            label = paddle.to_tensor(np.random.randint(self.in_features, size=[self.batch_size, 1]))
+            loss_te = pipe_model.train_batch([inp, label], optimizer_te)
+            loss_pd = train_one_step(standalone_model, [inp, label], optimizer_pd)
+            print(f"Iter: {i}, loss_te: {loss_te.item()}, loss_pd: {loss_pd.item()}")
+            assert_allclose(loss_te, loss_pd, rtol=self.rtol, atol=self.atol)
+
+
+class TestLinearPipelineParallelFP8(TestLinearPipelineParallel):
+    """Tests Linear layer with column/row parallelism in FP8"""
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 32
+        self.micro_batch_size = 16
+        self.in_features = 32
+        self.hidden_features = 64
+        self.global_dtype = 'float32'
+        self.rtol = 5e-2
+        self.atol = 5e-2
+        self.iter = 10
+        self.fp8 = True
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/paddle/parallel_tests/linear_tp.py b/tests/paddle/parallel_tests/linear_tp.py
new file mode 100644
index 0000000000..fe0aeddccd
--- /dev/null
+++ b/tests/paddle/parallel_tests/linear_tp.py
@@ -0,0 +1,180 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Unittest for Linear layer in tensor parallel"""
+
+import unittest
+
+import paddle
+from paddle.distributed import fleet
+from paddle.distributed.fleet.layers.mpu import mp_ops
+
+from utils import assert_allclose, assert_shape, set_random_seed
+import transformer_engine.paddle as te
+
+
+class TestLinearTp(unittest.TestCase):
+    """Tests Linear layer with column/row parallelism in BF16"""
+
+    def setUp(self):
+        self.set_attr()
+        self.init_dist_env()
+        paddle.set_default_dtype(self.global_dtype)
+
+    def init_dist_env(self):
+        """Init Paddle Fleet environment"""
+        strategy = fleet.DistributedStrategy()
+        self.model_parallel_size = 2
+        strategy.hybrid_configs = {
+            "dp_degree": 1,
+            "mp_degree": self.model_parallel_size,
+            "pp_degree": 1,
+        }
+        fleet.init(is_collective=True, strategy=strategy)
+        self.rank = fleet.worker_index()
+        self.hcg = fleet.get_hybrid_communicate_group()
+        self.tp_group = self.hcg.get_model_parallel_group()
+        self.world_size = self.hcg.get_model_parallel_world_size()
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 16
+        self.in_features = 32
+        self.out_features = 64
+        self.global_dtype = 'bfloat16'
+        self.rtol = 1e-3
+        self.atol = 1e-3
+        self.fp8 = False
+
+    def test_column_parallel_layer(self):
+        """Tests column parallel linear"""
+        set_random_seed(1024)
+        layer_te = te.Linear(
+            self.in_features,
+            self.out_features,
+            parallel_mode='column',
+        )
+        layer_pd = te.Linear(
+            self.in_features,
+            self.out_features,
+            backend='paddle',
+        )
+        # Get total weight
+        total_weight = []
+        partial_weight = layer_te.weight.clone().detach()
+        paddle.distributed.all_gather(total_weight, partial_weight, group=self.tp_group)
+        total_weight = paddle.concat(total_weight, axis=0)
+        layer_pd.weight.copy_(total_weight.T, True)
+
+        assert_shape(layer_te.weight,
+                     [self.out_features // self.model_parallel_size, self.in_features])
+        assert_shape(layer_te.bias, [self.out_features // self.model_parallel_size])
+
+        optimizer_te = paddle.optimizer.SGD(learning_rate=0.001, parameters=layer_te.parameters())
+        optimizer_pd = paddle.optimizer.SGD(learning_rate=0.001, parameters=layer_pd.parameters())
+
+        layer_te = fleet.distributed_model(layer_te)
+        optimizer_te = fleet.distributed_optimizer(optimizer_te)
+
+        def train_one_step(layer, inp, optimizer, gather=False):
+            inp = paddle.to_tensor(inp)
+            inp.stop_gradient = False
+            out = layer(inp)
+            if gather:
+                total_out = mp_ops._c_concat(out, group=self.tp_group)
+            else:
+                total_out = out
+            loss = total_out.mean()
+            loss.backward()
+            optimizer.step()
+            optimizer.clear_grad()
+            return loss, inp.grad
+
+        for _ in range(5):
+            inp = paddle.uniform([self.batch_size, self.in_features], self.global_dtype)
+            with te.fp8_autocast(enabled=self.fp8):
+                loss_tp, grad_input = train_one_step(layer_te, inp, optimizer_te, gather=True)
+            loss_ref, grad_input_ref = train_one_step(layer_pd, inp, optimizer_pd)
+            assert_allclose(loss_tp, loss_ref, rtol=self.rtol, atol=self.atol)
+            assert_allclose(grad_input, grad_input_ref, rtol=self.rtol, atol=self.atol)
+
+    def test_row_parallel_layer(self):
+        """Tests row parallel linear"""
+        set_random_seed(1024)
+        layer_te = te.Linear(
+            self.in_features,
+            self.out_features,
+            parallel_mode='row',
+        )
+        layer_pd = te.Linear(
+            self.in_features,
+            self.out_features,
+            backend='paddle',
+        )
+        # Get total weight
+        total_weight = []
+        partial_weight = layer_te.weight.clone().detach()
+        paddle.distributed.all_gather(total_weight, partial_weight, group=self.tp_group)
+        total_weight = paddle.concat(total_weight, axis=1)
+        layer_pd.weight.copy_(total_weight.T, True)
+
+        assert_shape(layer_te.weight,
+                     [self.out_features, self.in_features // self.model_parallel_size])
+        assert_shape(layer_te.bias, [self.out_features])
+
+        optimizer_te = paddle.optimizer.SGD(learning_rate=0.001, parameters=layer_te.parameters())
+        optimizer_pd = paddle.optimizer.SGD(learning_rate=0.001, parameters=layer_pd.parameters())
+
+        # Note(tizheng): For this test, we cannot wrap model with fleet.distributed_model,
+        # because it will broadcast inputs across mp group. However, RPL expects splitted
+        # inputs, which is different on each rank.
+
+        def train_one_step(layer, inp, optimizer, split=False):
+            inp = paddle.to_tensor(inp, stop_gradient=True)
+            if split:
+                # TODO(tizheng): Why not working?
+                # issue: https://github.com/PaddlePaddle/Paddle/issues/55565
+                # input_parallel = mp_ops._c_split(inp, group=layer.tp_group)
+                split_size = inp.shape[1] // self.world_size
+                input_parallel = inp[:, split_size * self.rank:split_size * (self.rank + 1)]
+            else:
+                input_parallel = inp
+            input_parallel.stop_gradient = False
+            out = layer(input_parallel)
+            loss = out.mean()
+            loss.backward()
+            optimizer.step()
+            optimizer.clear_grad()
+            if split:
+                grad_input = []
+                paddle.distributed.all_gather(grad_input, input_parallel.grad, group=self.tp_group)
+                grad_input = paddle.concat(grad_input, axis=1)
+            else:
+                grad_input = input_parallel.grad
+            return loss, grad_input
+
+        for _ in range(5):
+            inp = paddle.uniform([self.batch_size, self.in_features], self.global_dtype)
+            with te.fp8_autocast(enabled=self.fp8):
+                loss_tp, grad_input = train_one_step(layer_te, inp, optimizer_te, split=True)
+            loss_ref, grad_input_ref = train_one_step(layer_pd, inp, optimizer_pd)
+            assert_allclose(loss_tp, loss_ref, rtol=self.rtol, atol=self.atol)
+            assert_allclose(grad_input, grad_input_ref, rtol=self.rtol, atol=self.atol)
+
+
+class TestLinearTpFP8(TestLinearTp):
+    """Tests Linear layer with column/row parallelism in FP8"""
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 16
+        self.in_features = 32
+        self.out_features = 64
+        self.global_dtype = 'bfloat16'
+        self.rtol = 1e-2
+        self.atol = 1e-2
+        self.fp8 = True
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/paddle/parallel_tests/transformer_tp.py b/tests/paddle/parallel_tests/transformer_tp.py
new file mode 100644
index 0000000000..69fef08d56
--- /dev/null
+++ b/tests/paddle/parallel_tests/transformer_tp.py
@@ -0,0 +1,151 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Unittest for Transformer layer in tensor parallel"""
+
+import unittest
+
+import paddle
+from paddle.distributed import fleet
+
+from utils import assert_allclose, set_random_seed
+import transformer_engine.paddle as te
+
+
+class TestTransformerTp(unittest.TestCase):
+    """Tests Transformer layer with model parallel in BF16"""
+
+    def setUp(self):
+        self.set_attr()
+        self.init_dist_env()
+        paddle.set_default_dtype(self.global_dtype)
+
+    def init_dist_env(self):
+        """Init Paddle Fleet environment"""
+        strategy = fleet.DistributedStrategy()
+        self.model_parallel_size = 2
+        strategy.hybrid_configs = {
+            "dp_degree": 1,
+            "mp_degree": self.model_parallel_size,
+            "pp_degree": 1,
+        }
+        fleet.init(is_collective=True, strategy=strategy)
+        self.hcg = fleet.get_hybrid_communicate_group()
+        self.tp_group = self.hcg.get_model_parallel_group()
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 16
+        self.hidden_size = 1024
+        self.num_heads = 16
+        self.ffn_hidden_size = 4096
+        self.q_seqlen = 128
+        self.kv_seqlen = 128
+        self.mask_type = 'padding'
+        self.layer_type = 'encoder'
+        self.global_dtype = 'bfloat16'
+        self.rtol = 5e-2
+        self.atol = 5e-2
+        self.eps = 1e-3
+        self.fp8 = False
+
+    def test_parallel_layer(self):
+        """Tests parallel Transformer"""
+        set_random_seed(1024)
+        common_args = [
+            self.hidden_size,
+            self.ffn_hidden_size,
+            self.num_heads,
+        ]
+        common_kwargs = {
+            'layernorm_epsilon': self.eps,
+            'hidden_dropout': 0.0,
+            'attention_dropout': 0.0,
+            'self_attn_mask_type': self.mask_type,
+            'layer_type': self.layer_type,
+        }
+        layer_tp = te.TransformerLayer(*common_args, **common_kwargs, set_parallel_mode=True)
+        layer_single = te.TransformerLayer(*common_args, **common_kwargs, set_parallel_mode=False)
+
+        def _get_total_weight(local_weight, tp_group, axis):
+            total_weight = []
+            partial_weight = local_weight.clone().detach()
+            paddle.distributed.all_gather(total_weight, partial_weight, group=tp_group)
+            total_weight = paddle.concat(total_weight, axis=axis)
+            return total_weight
+
+        def _get_weight(obj, weight_names):
+            for name in weight_names:
+                obj = getattr(obj, name)
+            return obj
+
+        def copy_weight(layer_src, layer_dst, partition_mode, weight_names):
+            weight_src = _get_weight(layer_src, weight_names)
+            weight_dst = _get_weight(layer_dst, weight_names)
+            if partition_mode is None:
+                total_weight = weight_src
+            elif partition_mode == 'column':
+                total_weight = _get_total_weight(weight_src, tp_group=self.tp_group, axis=0)
+            elif partition_mode == 'row':
+                total_weight = _get_total_weight(weight_src, tp_group=self.tp_group, axis=1)
+            else:
+                raise ValueError(f"Partition Mode {partition_mode} is not supported.")
+            assert weight_dst.shape == total_weight.shape, \
+                    f"Shapes of src:{total_weight.shape} and dst:{weight_dst.shape} do not match."
+            weight_dst.copy_(total_weight, True)
+
+        copy_weight(layer_tp, layer_single, None, ['self_attention', 'layernorm_qkv', 'ln_weight'])
+        copy_weight(layer_tp, layer_single, 'column', ['self_attention', 'layernorm_qkv', 'weight'])
+        copy_weight(layer_tp, layer_single, 'row', ['self_attention', 'proj', 'weight'])
+        copy_weight(layer_tp, layer_single, None, ['layernorm_mlp', 'ln_weight'])
+        copy_weight(layer_tp, layer_single, 'column', ['layernorm_mlp', 'fc1_weight'])
+        copy_weight(layer_tp, layer_single, 'row', ['layernorm_mlp', 'fc2_weight'])
+
+        optimizer_tp = paddle.optimizer.SGD(learning_rate=0.1, parameters=layer_tp.parameters())
+        optimizer_single = paddle.optimizer.SGD(learning_rate=0.1,
+                                                parameters=layer_single.parameters())
+
+        layer_tp = fleet.distributed_model(layer_tp)
+        optimizer_tp = fleet.distributed_optimizer(optimizer_tp)
+
+        def train_one_step(layer, inp_list, optimizer, fp8_enabled):
+            with te.fp8_autocast(enabled=fp8_enabled):
+                out = layer(*inp_list)
+            loss = out.mean()
+            loss.backward()
+            optimizer.step()
+            optimizer.clear_grad()
+            return loss
+
+        for _ in range(5):
+            inp = paddle.uniform([self.batch_size, self.q_seqlen, self.hidden_size],
+                                 self.global_dtype)
+            mask = paddle.zeros(shape=(self.batch_size, 1, self.q_seqlen, self.kv_seqlen),
+                                dtype='bool')
+            loss_tp = train_one_step(layer_tp, [inp, mask], optimizer_tp, self.fp8)
+            loss_single = train_one_step(layer_single, [inp, mask], optimizer_single, self.fp8)
+            assert_allclose(loss_tp, loss_single, rtol=self.rtol, atol=self.atol)
+
+
+class TestTransformerTpFp8(TestTransformerTp):
+    """Tests Transformer layer with tensor parallelism in FP8"""
+
+    def set_attr(self):
+        """Set test configs"""
+        self.batch_size = 16
+        self.hidden_size = 1024
+        self.num_heads = 16
+        self.ffn_hidden_size = 4096
+        self.q_seqlen = 128
+        self.kv_seqlen = 128
+        self.mask_type = 'padding'
+        self.layer_type = 'encoder'
+        self.global_dtype = 'bfloat16'
+        self.rtol = 5e-2
+        self.atol = 5e-2
+        self.eps = 1e-3
+        self.fp8 = True
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/paddle/test_layers.py b/tests/paddle/test_layers.py
index 171b9233e7..bb93458230 100644
--- a/tests/paddle/test_layers.py
+++ b/tests/paddle/test_layers.py
@@ -98,8 +98,8 @@ def test_linear_bf16(bs, in_features, out_features, has_bias, no_dbias, no_dgrad
         """
         Test BF16 Linear
         """
-        rtol = 1e-2
-        atol = 1e-2
+        rtol = 5e-2
+        atol = 5e-2
 
         input_tensor = paddle.uniform(shape=(bs, in_features), dtype=activation_dtype)
         input_tensor.stop_gradient = no_dgrad
@@ -258,8 +258,8 @@ def test_layernorm_linear_bf16(bs, in_features, out_features, has_bias, no_dbias
         Test BF16 LayerNormLinear Layer
         """
         paddle.set_default_dtype(activation_dtype)
-        rtol = 1e-2
-        atol = 1e-2
+        rtol = 5e-2
+        atol = 5e-2
 
         input_tensor = paddle.uniform(shape=(bs, in_features), dtype=activation_dtype)
         input_tensor.stop_gradient = no_dgrad
@@ -905,7 +905,7 @@ def test_transformer_decoder_layer(bs, hidden_size, num_heads, ffn_hidden_size,
     """
     paddle.set_default_dtype(math_dtype)
     rtol = 5e-2
-    atol = 5e-2
+    atol = 6e-2
     eps = 1e-3
 
     encoder_input = paddle.uniform(shape=(bs, q_seqlen, hidden_size), dtype=math_dtype)
diff --git a/tests/paddle/test_operators.py b/tests/paddle/test_operators.py
index 662978086a..241f96214b 100644
--- a/tests/paddle/test_operators.py
+++ b/tests/paddle/test_operators.py
@@ -728,8 +728,8 @@ def _get_fused_attention_out(self):
 
         return out, q_grad, k_grad, v_grad
 
-    @pytest.mark.skipif(paddle.device.cuda.get_device_capability() < (8, 0),
-                        reason="cuDNN fMHA requires Ampere+ GPU")
+    @pytest.mark.skipif(paddle.device.cuda.get_device_capability() not in ((8, 0), (9, 0)),
+                        reason="cuDNN fMHA requires Ampere and Hopper GPU")
     @pytest.mark.parametrize('b, s, h, d', SELF_ATTN_CASES)
     @pytest.mark.parametrize('dtype', ['float16', 'bfloat16'])
     @pytest.mark.parametrize('is_causal_masking', [True, False])
@@ -745,8 +745,8 @@ def test_self_attn_forward_backward(self, b, s, h, d, dtype, is_causal_masking):
         assert_allclose(k_grad_ref, k_grad, rtol=1e-3, atol=1e-2)
         assert_allclose(v_grad_ref, v_grad, rtol=1e-3, atol=1e-2)
 
-    @pytest.mark.skipif(paddle.device.cuda.get_device_capability() < (8, 0),
-                        reason="cuDNN fMHA requires Ampere+ GPU")
+    @pytest.mark.skipif(paddle.device.cuda.get_device_capability() not in ((8, 0), (9, 0)),
+                        reason="cuDNN fMHA requires Ampere and Hopper GPU")
     @pytest.mark.parametrize('b, s_q, s_kv, h, d', CROSS_ATTN_CASES)
     @pytest.mark.parametrize('dtype', ['float16', 'bfloat16'])
     def test_cross_attn_forward_backward(self, b, s_q, s_kv, h, d, dtype):
diff --git a/tests/paddle/test_parallel.py b/tests/paddle/test_parallel.py
new file mode 100644
index 0000000000..d6e02747d1
--- /dev/null
+++ b/tests/paddle/test_parallel.py
@@ -0,0 +1,89 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Test TE Paddle Parallel"""
+
+from pathlib import Path
+import unittest
+
+from dist_launcher import TestDistributed
+from utils import is_devices_enough
+
+from transformer_engine.paddle.fp8 import is_fp8_available
+
+test_root = Path(__file__).resolve().parent
+gpu_has_fp8, reason = is_fp8_available()
+
+
+class TestParallelLinear(TestDistributed):
+    """Test Linear in Parallel mode"""
+
+    @unittest.skipIf(not is_devices_enough(2), "TestParallelLinear needs 2 GPUs")
+    @unittest.skipIf(not gpu_has_fp8, reason)
+    def test_linear_tp(self):
+        """Tests linear with tensor parallel in BF16"""
+        self.run_2gpu(str(test_root / 'parallel_tests' / 'linear_tp.py'))
+
+
+class TestParallelLayerNormLinear(TestDistributed):
+    """Test LayerNormLinear in Parallel mode"""
+
+    @unittest.skipIf(not is_devices_enough(2), "TestParallelLayerNormLinear needs 2 GPUs")
+    @unittest.skipIf(not gpu_has_fp8, reason)
+    def test_layernorm_linear_tp(self):
+        """Tests layernorm_linear with tensor parallel in BF16"""
+        self.run_2gpu(str(test_root / 'parallel_tests' / 'layernorm_linear_tp.py'))
+
+
+class TestParallelLayerNormMLP(TestDistributed):
+    """Test LayerNormMLP in Parallel mode"""
+
+    @unittest.skipIf(not is_devices_enough(2), "TestParallelLayerNormMLP needs 2 GPUs")
+    @unittest.skipIf(not gpu_has_fp8, reason)
+    def test_layernorm_mlp_tp(self):
+        """Tests layernorm_mlp with tensor parallel in BF16"""
+        self.run_2gpu(str(test_root / 'parallel_tests' / 'layernorm_mlp_tp.py'))
+
+
+class TestAmaxReduction(TestDistributed):
+    """Test amax reduction in dp mode"""
+
+    @unittest.skipIf(not is_devices_enough(2), "TestAmaxReduction needs 2 GPUs")
+    @unittest.skipIf(not gpu_has_fp8, reason)
+    def test_amax_reduction(self):
+        """Tests amax reduction"""
+        self.run_2gpu(str(test_root / 'parallel_tests' / 'amax_reduction.py'))
+
+
+class TestPipelineParallel(TestDistributed):
+    """Test pipeline parallel"""
+
+    @unittest.skipIf(not is_devices_enough(2), "TestPipelineParallel needs 2 GPUs")
+    @unittest.skipIf(not gpu_has_fp8, reason)
+    def test_pipeline_parallel(self):
+        """Tests pipeline parallel"""
+        self.run_2gpu(str(test_root / 'parallel_tests' / 'linear_pp.py'))
+
+
+class TestGroupSharding(TestDistributed):
+    """Test group sharding"""
+
+    @unittest.skipIf(not is_devices_enough(2), "TestGroupSharding needs 2 GPUs")
+    @unittest.skipIf(not gpu_has_fp8, reason)
+    def test_group_sharding(self):
+        """Tests group sharding"""
+        self.run_2gpu(str(test_root / 'parallel_tests' / 'group_sharding.py'))
+
+
+class TestParallelTransformerLayer(TestDistributed):
+    """Test Transformer Layer in Parallel mode"""
+
+    @unittest.skipIf(not is_devices_enough(2), "TestParallelTransformerLayer needs 2 GPUs")
+    @unittest.skipIf(not gpu_has_fp8, reason)
+    def test_transformer_tp(self):
+        """Tests Transformer Layer with tensor parallel in BF16"""
+        self.run_2gpu(str(test_root / 'parallel_tests' / 'transformer_tp.py'))
+
+
+if __name__ == '__main__':
+    unittest.main()
diff --git a/tests/paddle/utils.py b/tests/paddle/utils.py
index 432b39c2e0..5960cccd3d 100644
--- a/tests/paddle/utils.py
+++ b/tests/paddle/utils.py
@@ -34,3 +34,21 @@ def assert_allclose(actual,
     if isinstance(desired, paddle.Tensor):
         desired = paddle.cast(desired, 'float32').numpy()
     np.testing.assert_allclose(actual, desired, rtol, atol, equal_nan, err_msg, verbose)
+
+
+def assert_shape(inp, expected_shape):
+    """Assert the shape of input tensor equals to expected shape"""
+    assert inp.shape == expected_shape, f"Expected tensor shape: {expected_shape} != " \
+        f"actual tensor shape: {inp.shape}"
+
+
+def is_devices_enough(required):
+    """If the number of device is enough"""
+    return paddle.device.cuda.device_count() >= required
+
+
+def set_random_seed(seed):
+    """Set random seed for reproducability."""
+    np.random.seed(seed)
+    paddle.seed(seed)
+    paddle.distributed.fleet.meta_parallel.model_parallel_random_seed(seed)
diff --git a/transformer_engine/paddle/constants.py b/transformer_engine/paddle/constants.py
index eac161ec60..cfecd39564 100644
--- a/transformer_engine/paddle/constants.py
+++ b/transformer_engine/paddle/constants.py
@@ -46,3 +46,7 @@ class FP8BwdTensors(Enum):
 AttnTypes = ("self", "cross")
 
 LayerTypes = ("encoder", "decoder")
+
+GemmParallelModes = ("row", "column", None)
+
+dist_group_type = paddle.distributed.collective.Group
diff --git a/transformer_engine/paddle/distributed.py b/transformer_engine/paddle/distributed.py
new file mode 100644
index 0000000000..5bf51c9274
--- /dev/null
+++ b/transformer_engine/paddle/distributed.py
@@ -0,0 +1,100 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""Methods needed for distributed training."""
+
+from contextlib import contextmanager
+from typing import Optional, Union, Tuple
+
+import paddle
+
+import paddle.distributed.fleet.base.topology as tp
+from paddle.distributed.fleet.meta_parallel import get_rng_state_tracker
+from paddle.distributed.fleet.layers.mpu import mp_ops
+
+from .constants import dist_group_type
+
+_weight_split_axis = {
+    'transformer_engine': {
+        'row': 1,
+        'column': 0
+    },
+    'paddle': {
+        'row': 0,
+        'column': 1
+    }
+}
+
+
+def get_tp_group_and_world_size(tp_group: Union[dist_group_type, None],
+                                enable_tp: bool = True) -> Tuple[Union[dist_group_type, None], int]:
+    """Get TP group and world size using Fleet API"""
+    if not (paddle.distributed.is_initialized() and enable_tp):
+        return None, 1
+    model_parallel_group = (tp._HYBRID_PARALLEL_GROUP.get_model_parallel_group()
+                            if tp_group is None else tp_group)
+    world_size = (tp._HYBRID_PARALLEL_GROUP.get_model_parallel_world_size()
+                  if tp_group is None else tp_group.nranks)
+    return model_parallel_group, world_size
+
+
+@contextmanager
+def track_rng_state(enable: bool) -> None:
+    """
+    Applies get_rng_state_tracker().rng_state() to the context.
+    If not enabled, it does nothing.
+    """
+    if enable:
+        with get_rng_state_tracker().rng_state():
+            yield
+    else:
+        yield
+
+
+def set_tensor_dist_attr(tensor: paddle.Tensor, is_parallel: bool, axis: int) -> None:
+    """Set distributed attributes for the input tensor"""
+    tensor.is_distributed = is_parallel
+    if is_parallel:
+        tensor.split_axis = axis
+
+
+def set_weight_tensor_dist_attr(tensor: paddle.Tensor, is_parallel: bool,
+                                parallel_mode: Optional[str], backend: str) -> None:
+    """Set distributed attributes for the weight tensor"""
+    if not is_parallel or parallel_mode is None:
+        return
+    set_tensor_dist_attr(tensor, is_parallel, axis=_weight_split_axis[backend][parallel_mode])
+
+
+def allreduce(
+    input_: paddle.Tensor,
+    tp_group: Optional[dist_group_type] = None,
+) -> paddle.Tensor:
+    """All-reduce the input tensor across model parallel group."""
+
+    # Bypass the function if we are using only 1 GPU.
+    if tp_group is None or tp_group.nranks == 1:
+        return input_
+
+    # All-reduce.
+    output = mp_ops._mp_allreduce(
+        input_,
+        group=tp_group,
+        use_calc_stream=True,
+        use_model_parallel=True,
+    )
+
+    return output
+
+
+def identity(
+    input_: paddle.Tensor,
+    tp_group: Optional[dist_group_type] = None,
+) -> paddle.Tensor:
+    """
+    Identity when forward.
+    Allreduce across model parallel group when backward.
+    """
+    output = mp_ops._c_identity(input_, group=tp_group)
+
+    return output
diff --git a/transformer_engine/paddle/fp8.py b/transformer_engine/paddle/fp8.py
index bcd7ae2b22..576b8d859c 100644
--- a/transformer_engine/paddle/fp8.py
+++ b/transformer_engine/paddle/fp8.py
@@ -3,9 +3,8 @@
 # See LICENSE for license information.
 """FP8 utilities for TransformerEngine"""
 
-import copy
 from contextlib import contextmanager
-from typing import Tuple, Optional, Dict, Any
+from typing import Tuple, Optional, Dict, Any, Union
 
 import numpy as np
 
@@ -13,6 +12,9 @@
 import transformer_engine_paddle as tex
 from transformer_engine.common.recipe import DelayedScaling, Format
 
+from .constants import dist_group_type
+from .fp8_buffer import FP8MetaFwdBuffer, FP8MetaBwdBuffer
+
 # FP8 support
 _is_fp8_available = None
 _reason_for_no_fp8 = ""
@@ -50,21 +52,27 @@ class FP8State:
     """Stores FP8 state"""
 
     def __init__(self):
-        self.fp8_enabled = False
-        self.fp8_calibration = False
-        self.fp8_recipe = None
+        self._fp8_enabled = False
+        self._fp8_calibration = False
+        self._fp8_recipe = None
+        self._fp8_distributed_group = None
+        self._is_first_fp8_module = False
+        self._fp8_autocast_counter = 0
+        self._fp8_autocast_depth = 0
+        self._fp8_fwd_buffer = FP8MetaFwdBuffer()
+        self._fp8_bwd_buffer = FP8MetaBwdBuffer()
 
     def is_fp8_enabled(self) -> bool:
         """Is FP8 enabled"""
-        return self.fp8_enabled
+        return self._fp8_enabled
 
     def is_fp8_calibration(self) -> bool:
         """Is FP8 calibration"""
-        return self.fp8_calibration
+        return self._fp8_calibration
 
     def get_fp8_recipe(self) -> DelayedScaling:
         """Return the fp8 recipe"""
-        return self.fp8_recipe
+        return self._fp8_recipe
 
     @staticmethod
     def get_default_fp8_recipe() -> DelayedScaling:
@@ -73,6 +81,63 @@ def get_default_fp8_recipe() -> DelayedScaling:
         """
         return DelayedScaling()
 
+    def get_autocast_id(self) -> int:
+        """Returns the number of times of entering the `fp8_autocast` context.
+        as a unique ID for different training steps."""
+        return self._fp8_autocast_counter
+
+    def is_first_fp8_module(self):
+        """Returns `True` only the first time when called multiple
+        times from within the same `fp8_autocast` context.
+        """
+        tmp = self._is_first_fp8_module
+        self._is_first_fp8_module = False
+        return tmp
+
+    def get_fp8_group(self) -> Union[dist_group_type, None]:
+        """Return the fp8 group for scale/amax comm"""
+        return self._fp8_distributed_group
+
+    def get_fp8_fwd_buffer(self) -> FP8MetaFwdBuffer:
+        """Returns global fp8 forward buffer."""
+        return self._fp8_fwd_buffer
+
+    def get_fp8_bwd_buffer(self) -> FP8MetaBwdBuffer:
+        """Returns global fp8 backward buffer."""
+        return self._fp8_bwd_buffer
+
+    def enter(
+        self,
+        enabled: bool,
+        calibrating: bool,
+        fp8_recipe: Optional[DelayedScaling],
+        fp8_group: Optional[dist_group_type],
+    ) -> None:
+        """Called when entering 'fp8_autocast'"""
+        self.saved_states = (self._fp8_enabled, self._fp8_calibration, self._fp8_recipe,
+                             self._fp8_distributed_group, self._is_first_fp8_module)
+
+        self._fp8_enabled = enabled
+        self._fp8_calibration = calibrating
+        self._fp8_recipe = self.get_default_fp8_recipe() if fp8_recipe is None else fp8_recipe
+        self._fp8_distributed_group = fp8_group
+
+        if self._fp8_autocast_depth == 0:
+            self._is_first_fp8_module = True
+            self._fp8_autocast_counter += 1
+        self._fp8_autocast_depth += 1
+
+    def exit(self):
+        """Called when exiting 'fp8_autocast'"""
+        # Restore saved states
+        (self._fp8_enabled, self._fp8_calibration, self._fp8_recipe, self._fp8_distributed_group,
+         self._is_first_fp8_module) = self.saved_states
+
+        self._fp8_autocast_depth -= 1
+
+        if self._fp8_autocast_depth == 0:
+            self._fp8_fwd_buffer.finalize()
+
 
 _global_fp8_state = FP8State()
 
@@ -87,25 +152,20 @@ def fp8_autocast(
     enabled: bool = False,
     calibrating: bool = False,
     fp8_recipe: Optional[DelayedScaling] = None,
+    fp8_group: Optional[dist_group_type] = None,
 ) -> None:
     """
     Context manager for FP8 usage.
     """
-
-    global _global_fp8_state
-    saved_fp8_state = copy.deepcopy(_global_fp8_state)
     try:
-        _global_fp8_state.fp8_enabled = enabled
-        _global_fp8_state.fp8_calibration = calibrating
-        _global_fp8_state.fp8_recipe = FP8State.get_default_fp8_recipe(
-        ) if fp8_recipe is None else fp8_recipe
+        _global_fp8_state.enter(enabled, calibrating, fp8_recipe, fp8_group)
 
         if enabled:
             fp8_available, reason_for_no_fp8 = is_fp8_available()
             assert fp8_available, reason_for_no_fp8
         yield
     finally:
-        _global_fp8_state = saved_fp8_state
+        _global_fp8_state.exit()
 
 
 def get_fp8_te_dtype(fp8_recipe: DelayedScaling, fprop_tensor: bool = True) -> tex.DType:
diff --git a/transformer_engine/paddle/fp8_buffer.py b/transformer_engine/paddle/fp8_buffer.py
new file mode 100644
index 0000000000..76b0c9db59
--- /dev/null
+++ b/transformer_engine/paddle/fp8_buffer.py
@@ -0,0 +1,257 @@
+# Copyright (c) 2022-2023, NVIDIA CORPORATION & AFFILIATES. All rights reserved.
+#
+# See LICENSE for license information.
+"""FP8 meta buffer for FP8 amax reduction"""
+
+from abc import ABC, abstractmethod
+from functools import partial
+import os
+from typing import Dict, Any, List, Union
+
+import numpy as np
+import paddle
+
+from .constants import dist_group_type
+
+
+class FP8MetaBufferBase(ABC):
+    """
+    A global buffer that holds FP8 meta for reduction across trainers.
+    """
+
+    def __init__(self):
+        self._data = {}
+        self._buffer_delete_key = None
+        self._amax_reduce_wait_func = None
+        self._dp_amax_reduce_interval = None
+        self._dp_amax_reduce_idx = 0
+
+    @staticmethod
+    @abstractmethod
+    def _get_meta_tensor_key():
+        """Returns scaling key in `fp8_meta`."""
+
+    @staticmethod
+    @abstractmethod
+    def _get_buffer_position_key():
+        """Returns module position key in `fp8_meta`."""
+
+    @staticmethod
+    @abstractmethod
+    def _get_autocast_key():
+        """Returns autocast id key in `fp8_meta`."""
+
+    def _get_amax_buffer_key(self, fp8_meta: Dict[str, Any]) -> str:
+        """Return a key in `_data` for the AMAX storage."""
+        return f"AMAX_{fp8_meta[self._get_autocast_key()]}"
+
+    def _execute_deletion(self) -> None:
+        """Delete the key from global amax buffer."""
+        if (self._buffer_delete_key is not None and self._buffer_delete_key in self._data):
+            del self._data[self._buffer_delete_key]
+
+    def _wait_handle_and_split(
+        self,
+        contiguous_amax: paddle.Tensor,
+        chunk_sizes: List[int],
+        amax_buffer_key: str,
+        wait_handle: Union[bool, None],
+    ) -> None:
+        """Wait for amax reduction to finish and then copy reduced amax to buffer"""
+        if wait_handle is not None:
+            wait_handle.wait()
+        self._data[amax_buffer_key] = list(contiguous_amax.split(chunk_sizes))
+
+    def _global_amax_reduction(
+        self,
+        fp8_meta: Dict[str, Any],
+        tp_group: dist_group_type,
+        tp_size: int,
+    ) -> None:
+        """Concatenate, reduce, and split amaxes in the global buffer."""
+
+        def _reduce_tensor_across_group_op_max(tensor, group, sync_op):
+            if paddle.distributed.is_initialized():
+                wait_handle = paddle.distributed.all_reduce(
+                    tensor,
+                    op=paddle.distributed.ReduceOp.MAX,
+                    group=group,
+                    sync_op=sync_op,
+                )
+                return wait_handle
+            return None
+
+        amax_buffer_key = self._get_amax_buffer_key(fp8_meta)
+        # Key already deleted.
+        if amax_buffer_key not in self._data:
+            return None
+
+        # Reduce AMAX in DP-domain at an interval.
+        if self._dp_amax_reduce_interval is None:
+            self._dp_amax_reduce_interval = int(os.getenv("NVTE_DP_AMAX_REDUCE_INTERVAL", "1"))
+
+        tp_amax_reduce = False
+        if self._dp_amax_reduce_idx == 0:
+            reduce_group = fp8_meta["fp8_group"]
+        else:
+            tp_amax_reduce = True
+        self._dp_amax_reduce_idx = (self._dp_amax_reduce_idx + 1) % self._dp_amax_reduce_interval
+
+        if tp_amax_reduce:
+            if tp_size > 1:
+                reduce_group = tp_group
+            else:
+                return None
+
+        chunk_sizes = [x.shape[0] for x in self._data[amax_buffer_key]]
+        contiguous_amax = paddle.concat(self._data[amax_buffer_key])
+
+        wait_handle = _reduce_tensor_across_group_op_max(
+            contiguous_amax,
+            reduce_group,
+            not fp8_meta["async_amax_reduction"],
+        )
+
+        return partial(
+            self._wait_handle_and_split,
+            contiguous_amax,
+            chunk_sizes,
+            amax_buffer_key,
+            wait_handle,
+        )
+
+    def add_amax(self, fp8_meta: Dict[str, Any]) -> None:
+        """Append `amax_history` to global buffer."""
+        buffer_key = self._get_amax_buffer_key(fp8_meta)
+        fp8_meta_tensor_key = self._get_meta_tensor_key()
+        buffer_position_key = self._get_buffer_position_key()
+
+        if buffer_key not in self._data:
+            self._data[buffer_key] = [fp8_meta[fp8_meta_tensor_key].amax_history[0]]
+        else:
+            self._data[buffer_key].append(fp8_meta[fp8_meta_tensor_key].amax_history[0])
+
+        if buffer_position_key not in fp8_meta:
+            fp8_meta[buffer_position_key] = len(self._data[buffer_key]) - 1
+
+        # Catch incorrect fp8_autocast usage.
+        assert fp8_meta[buffer_position_key] == len(self._data[buffer_key]) - 1, \
+            "Same module is being invoked more than once inside an `fp8_autocast` " \
+            "region when using FP8 with amax reduction. This behavior is currently " \
+            "unsupported. For more details and correct usage, please see " \
+            "https://github.com/NVIDIA/TransformerEngine/pull/93."
+
+    def copy_amax_from_buffer(self, fp8_meta: Dict[str, Any]) -> None:
+        """Populate current amax with the correct location from buffer."""
+        fp8_meta_tensor_key = self._get_meta_tensor_key()
+        buffer_position_key = self._get_buffer_position_key()
+        if buffer_position_key not in fp8_meta:
+            return
+
+        amax_buffer_key = self._get_amax_buffer_key(fp8_meta)
+        assert amax_buffer_key in self._data, "TE internal error."
+
+        fp8_meta[fp8_meta_tensor_key].amax_history[0] = self._data[amax_buffer_key][
+            fp8_meta[buffer_position_key]]
+
+    def set_for_deletion(self, fp8_meta: Dict[str, Any]) -> None:
+        """Delete this amax key from global buffer during autocast end."""
+        if self._get_autocast_key() not in fp8_meta:
+            return
+        self._buffer_delete_key = self._get_amax_buffer_key(fp8_meta)
+
+    def get_amax_reduce_handle(self) -> Union[bool, None]:
+        """Return AMAX reduction wait handle."""
+        return self._amax_reduce_handle
+
+    def wait(self) -> None:
+        """Wait for reduced amax to be available in buffer."""
+        if self._amax_reduce_wait_func is not None:
+            self._amax_reduce_wait_func()    # pylint: disable=not-callable
+            self._amax_reduce_wait_func = None
+
+    def to_numpy(self) -> Dict[str, List[np.array]]:
+        """Convert to numpy arrays"""
+        out = {}
+        for k, v in self._data.items():
+            out[k] = [tensor.numpy() for tensor in v]
+        return out
+
+    def from_numpy(self, buffer: Dict[str, np.array]) -> None:
+        """Set buffer values from numpy arrays"""
+        for k, v in buffer.items():
+            self._data[k] = [paddle.to_tensor(arr) for arr in v]
+
+
+class FP8MetaFwdBuffer(FP8MetaBufferBase):
+    """FP8Meta Buffer for forward"""
+
+    @staticmethod
+    def _get_meta_tensor_key() -> str:
+        """Returns scaling key in `fp8_meta`."""
+        return "scaling_fwd"
+
+    @staticmethod
+    def _get_buffer_position_key() -> str:
+        """Returns module position key in `fp8_meta`."""
+        return "global_fp8_buffer_pos_fwd"
+
+    @staticmethod
+    def _get_autocast_key() -> str:
+        """Returns module position key in `fp8_meta`."""
+        return "autocast_id_fwd"
+
+    def set_for_amax_reduction(
+        self,
+        fp8_meta: Dict[str, Any],
+        tp_group: dist_group_type,
+        tp_size: int,
+    ) -> None:
+        """Sets up the function to call during autocast exit."""
+        self._amax_global_reduce_func = partial(
+            self._global_amax_reduction,
+            fp8_meta,
+            tp_group,
+            tp_size,
+        )
+
+    def finalize(self) -> None:
+        """
+        Called at FP8 autocast end.
+        Performs AMAX reduction and delete unused buffer entries.
+        """
+        if hasattr(self, '_amax_global_reduce_func') and callable(self._amax_global_reduce_func):
+            self._amax_reduce_wait_func = self._amax_global_reduce_func()
+        self._execute_deletion()
+
+
+class FP8MetaBwdBuffer(FP8MetaBufferBase):
+    """FP8Meta Buffer for backward"""
+
+    @staticmethod
+    def _get_meta_tensor_key() -> str:
+        """Returns scaling key in `fp8_meta`."""
+        return "scaling_bwd"
+
+    @staticmethod
+    def _get_buffer_position_key() -> str:
+        """Returns module position key in `fp8_meta`."""
+        return "global_fp8_buffer_pos_bwd"
+
+    @staticmethod
+    def _get_autocast_key() -> str:
+        """Returns module position key in `fp8_meta`."""
+        return "autocast_id_bwd"
+
+    def finalize(
+        self,
+        fp8_meta: Dict[str, Any],
+        tp_group: dist_group_type,
+        tp_size: int,
+    ) -> None:
+        """
+        Called at FP8 autocast end in backward.
+        Performs AMAX reduction and delete unused buffer entries.
+        """
+        self._amax_reduce_wait_func = self._global_amax_reduction(fp8_meta, tp_group, tp_size)
+        self._execute_deletion()
diff --git a/transformer_engine/paddle/layer/attention.py b/transformer_engine/paddle/layer/attention.py
index a5aac3566f..565321baad 100644
--- a/transformer_engine/paddle/layer/attention.py
+++ b/transformer_engine/paddle/layer/attention.py
@@ -4,27 +4,25 @@
 """Attntion API"""
 
 import math
+import os
 import warnings
 from typing import Optional, Tuple, Union
 
 import paddle
 import paddle.nn.functional as F
 
-from transformer_engine.paddle.constants import (
-    AttnTypes,
-    TE_DType,
-)
-from transformer_engine.paddle.cpp_extensions import (
+from .layernorm_linear import LayerNormLinear
+from .linear import Linear
+from .softmax import FusedScaleMaskSoftmax
+from ..constants import AttnTypes, TE_DType, dist_group_type
+from ..cpp_extensions import (
     fused_attn_fwd_qkvpacked,
     fused_attn_bwd_qkvpacked,
     fused_attn_fwd_kvpacked,
     fused_attn_bwd_kvpacked,
 )
-from transformer_engine.paddle.utils import (attention_mask_func, mask_to_cu_seqlens)
-from .base import TransformerEngineBaseLayer
-from .layernorm_linear import LayerNormLinear
-from .linear import Linear
-from .softmax import FusedScaleMaskSoftmax
+from ..distributed import get_tp_group_and_world_size, track_rng_state
+from ..utils import attention_mask_func, divide, mask_to_cu_seqlens
 
 
 class FusedAttnFuncPackedQKV(paddle.autograd.PyLayer):
@@ -161,9 +159,20 @@ def __init__(self,
         self.attn_mask_type = attn_mask_type
         self.attention_dropout = attention_dropout
         self.attention_type = attention_type
-        self.backend = backend
         self.rng_state = paddle.zeros((2,), dtype='int64')
         self.rng_state.persistable = True
+
+        self.backend = backend
+
+        arch = paddle.device.cuda.get_device_capability()
+        self.is_fused_attn_supported = arch in ((8, 0), (9, 0))
+        self.enable_fused_attn = int(os.getenv("NVTE_FUSED_ATTN",
+                                               "0")) and self.is_fused_attn_supported
+
+        if not self.enable_fused_attn and backend == 'transformer_engine':
+            # FMHA is not enabled, falling back to Paddle backend
+            self.backend = 'paddle'
+
         if self.backend != 'transformer_engine':
             self.scale_mask_softmax = FusedScaleMaskSoftmax(attn_mask_type,
                                                             attention_mask_func,
@@ -343,7 +352,7 @@ def _pd_forward(
         return out
 
 
-class MultiHeadAttention(TransformerEngineBaseLayer):
+class MultiHeadAttention(paddle.nn.Layer):
     """Attention w/ QKV and Proj Gemms
 
     Parameters
@@ -390,6 +399,8 @@ def __init__(
         input_layernorm: bool = False,
         attention_type: str = "self",
         zero_centered_gamma: bool = False,
+        set_parallel_mode: bool = False,
+        tp_group: Optional[dist_group_type] = None,
         backend: str = 'transformer_engine',
     ) -> None:
         super().__init__()
@@ -403,11 +414,19 @@ def __init__(
 
         assert attention_type in AttnTypes, f"attention_type {attention_type} not supported"
 
+        self.tp_group, self.tp_size = get_tp_group_and_world_size(tp_group,
+                                                                  enable_tp=set_parallel_mode)
+        self.tensor_parallel = self.tp_size > 1
+
         self.hidden_size_per_attention_head = hidden_size // num_attention_heads
         self.num_attention_heads = num_attention_heads
         norm_factor = math.sqrt(self.hidden_size_per_attention_head)
+        self.set_parallel_mode = set_parallel_mode
         self.backend = backend
 
+        self.num_attention_heads_per_partition = divide(self.num_attention_heads, self.tp_size)
+        qkv_parallel_mode = "column" if set_parallel_mode else None
+
         if self.attention_type == "self":
             if self.input_layernorm:
                 self.layernorm_qkv = LayerNormLinear(
@@ -418,6 +437,8 @@ def __init__(
                     bias_attr=self.bias_attr,
                     return_layernorm_output=return_layernorm_output,
                     zero_centered_gamma=zero_centered_gamma,
+                    parallel_mode=qkv_parallel_mode,
+                    tp_group=self.tp_group,
                     backend=self.backend,
                 )
             else:
@@ -426,6 +447,8 @@ def __init__(
                     3 * hidden_size,
                     self.weight_attr,
                     self.bias_attr,
+                    parallel_mode=qkv_parallel_mode,
+                    tp_group=self.tp_group,
                     backend=self.backend,
                 )
 
@@ -439,6 +462,8 @@ def __init__(
                     bias_attr=self.bias_attr,
                     return_layernorm_output=return_layernorm_output,
                     zero_centered_gamma=zero_centered_gamma,
+                    parallel_mode=qkv_parallel_mode,
+                    tp_group=self.tp_group,
                     backend=self.backend,
                 )
             else:
@@ -447,6 +472,8 @@ def __init__(
                     hidden_size,
                     self.weight_attr,
                     self.bias_attr,
+                    parallel_mode=qkv_parallel_mode,
+                    tp_group=self.tp_group,
                     backend=self.backend,
                 )
             self.key_value = Linear(
@@ -454,6 +481,8 @@ def __init__(
                 2 * hidden_size,
                 self.weight_attr,
                 self.bias_attr,
+                parallel_mode=qkv_parallel_mode,
+                tp_group=self.tp_group,
                 backend=self.backend,
             )
 
@@ -472,6 +501,8 @@ def __init__(
             hidden_size,
             self.weight_attr,
             self.bias_attr,
+            parallel_mode="row" if set_parallel_mode else None,
+            tp_group=self.tp_group,
             backend=self.backend,
         )
 
@@ -520,23 +551,26 @@ def forward(
                 mixed_qkv_layer = self.qkv(hidden_states)
 
             # [b, s_q, 3 * hidden_size] --> [b, s_q, 3, num_heads, head_size]
-            mixed_qkv_layer = mixed_qkv_layer.reshape(
-                shape=[0, 0, 3, self.num_attention_heads, self.hidden_size_per_attention_head])
-
-            context_layer = self.core_attention(
-                query_layer=mixed_qkv_layer,
-                key_value_layer=None,
-                attention_mask=attention_mask,
-                core_attention_bias_type=core_attention_bias_type,
-                core_attention_bias=core_attention_bias,
-                set_zero=set_zero,
-            )
+            mixed_qkv_layer = mixed_qkv_layer.reshape(shape=[
+                0, 0, 3, self.num_attention_heads_per_partition, self.hidden_size_per_attention_head
+            ])
+
+            with track_rng_state(enable=self.tensor_parallel):
+                context_layer = self.core_attention(
+                    query_layer=mixed_qkv_layer,
+                    key_value_layer=None,
+                    attention_mask=attention_mask,
+                    core_attention_bias_type=core_attention_bias_type,
+                    core_attention_bias=core_attention_bias,
+                    set_zero=set_zero,
+                )
 
         else:    # cross attention
             mixed_kv_layer = self.key_value(encoder_output)
             # [b, s_kv, 2 * hidden_size] --> [b, s_kv, 2, num_heads, head_size]
-            mixed_kv_layer = mixed_kv_layer.reshape(
-                shape=[0, 0, 2, self.num_attention_heads, self.hidden_size_per_attention_head])
+            mixed_kv_layer = mixed_kv_layer.reshape(shape=[
+                0, 0, 2, self.num_attention_heads_per_partition, self.hidden_size_per_attention_head
+            ])
 
             if self.input_layernorm:
                 layernorm_query_outputs = self.layernorm_query(hidden_states)
@@ -547,16 +581,18 @@ def forward(
             else:
                 query_layer = self.query_layer(hidden_states)
 
-            query_layer = query_layer.reshape(
-                shape=[0, 0, self.num_attention_heads, self.hidden_size_per_attention_head])
-            context_layer = self.core_attention(
-                query_layer=query_layer,
-                key_value_layer=mixed_kv_layer,
-                attention_mask=attention_mask,
-                core_attention_bias_type=core_attention_bias_type,
-                core_attention_bias=core_attention_bias,
-                set_zero=set_zero,
-            )
+            query_layer = query_layer.reshape(shape=[
+                0, 0, self.num_attention_heads_per_partition, self.hidden_size_per_attention_head
+            ])
+            with track_rng_state(enable=self.tensor_parallel):
+                context_layer = self.core_attention(
+                    query_layer=query_layer,
+                    key_value_layer=mixed_kv_layer,
+                    attention_mask=attention_mask,
+                    core_attention_bias_type=core_attention_bias_type,
+                    core_attention_bias=core_attention_bias,
+                    set_zero=set_zero,
+                )
 
         context_layer = paddle.reshape(context_layer,
                                        [0, 0, context_layer.shape[2] * context_layer.shape[3]])
diff --git a/transformer_engine/paddle/layer/base.py b/transformer_engine/paddle/layer/base.py
index 5e16fda098..0f5a1af65c 100644
--- a/transformer_engine/paddle/layer/base.py
+++ b/transformer_engine/paddle/layer/base.py
@@ -5,6 +5,7 @@
 
 from abc import ABC, abstractmethod
 from contextlib import contextmanager
+import os
 import pickle
 from typing import Generator, Dict, Tuple, Union, Any
 
@@ -14,7 +15,7 @@
 from paddle.fluid import core
 from paddle.fluid.framework import _dygraph_tracer
 
-from ..constants import FP8BwdTensors
+from ..constants import FP8BwdTensors, dist_group_type
 from ..cpp_extensions import cast_transpose, cast_transpose_bgrad, cast_to_fp8
 from ..fp8 import (
     FP8State,
@@ -24,7 +25,6 @@
     get_fp8_te_dtype,
 )
 from ..profile import nvtx_range
-from ..utils import get_bias_dtype, cast_if_needed
 
 _2X_ACC_FPROP = False
 _2X_ACC_DGRAD = True
@@ -61,9 +61,15 @@ def __init__(self) -> None:
         self.fp8_calibration = False
         self.fp8_meta = {}
         self.fp8_meta["fp8_checkpoint"] = False
+        self.fp8_meta["fp8_group"] = None
         self.fp8_meta["recipe"] = FP8State.get_default_fp8_recipe()
         self.fp8_meta["scaling_fwd"] = FP8TensorMeta(is_forward=True)
         self.fp8_meta["scaling_bwd"] = FP8TensorMeta(is_forward=False)
+        self.tp_group = None
+        self.tp_size = 1
+        self.fp8_meta["autocast_id_fwd_stack"] = []
+        self.fp8_meta["async_amax_reduction"] = bool(
+            int(os.getenv("NVTE_ASYNC_AMAX_REDUCTION", "0")))
 
     def set_activation_dtype(self, inp: paddle.Tensor) -> None:
         """Get activation data type for AMP."""
@@ -102,18 +108,20 @@ def set_activation_dtype(self, inp: paddle.Tensor) -> None:
     # assume FP8 execution.
     def fp8_init(self, num_gemms: int = 1) -> None:
         """Initialize fp8 related metadata and tensors during fprop."""
-        state = get_global_fp8_state()
-        self.fp8_enabled = state.is_fp8_enabled()
-        self.fp8_calibration = state.is_fp8_calibration()
+        global_fp8_state = get_global_fp8_state()
+        self.fp8_enabled = global_fp8_state.is_fp8_enabled()
+        self.fp8_calibration = global_fp8_state.is_fp8_calibration()
         self.fp8_meta["fp8_checkpoint"] = self.fp8_enabled or self.fp8_calibration
 
         if self.fp8_enabled or self.fp8_calibration:
             # FP8 init has already been run and recipe is the same, don't do anything.
-            if self.fp8_initialized and state.get_fp8_recipe() == self.fp8_meta["recipe"]:
+            if self.fp8_initialized and global_fp8_state.get_fp8_recipe(
+            ) == self.fp8_meta["recipe"]:
                 return
 
             # Set FP8, recipe, and other FP8 metadata
-            self.fp8_meta["recipe"] = state.get_fp8_recipe()
+            self.fp8_meta["recipe"] = global_fp8_state.get_fp8_recipe()
+            self.fp8_meta["fp8_group"] = global_fp8_state.get_fp8_group()
 
             # Set FP8_MAX per tensor according to recipe
             self.fp8_meta["fp8_max_fwd"] = self.fp8_meta["recipe"].fp8_format.value.max_fwd
@@ -136,6 +144,8 @@ def _get_fp8_state(self) -> paddle.Tensor:
             state = {}
             state["scaling_fwd"] = self.fp8_meta["scaling_fwd"].to_numpy()
             state["scaling_bwd"] = self.fp8_meta["scaling_bwd"].to_numpy()
+            state["global_fp8_fwd_buffer"] = get_global_fp8_state().get_fp8_fwd_buffer().to_numpy()
+            state["global_fp8_bwd_buffer"] = get_global_fp8_state().get_fp8_bwd_buffer().to_numpy()
             # Store other pickelable values.
             extra = {}
             for k, v in self.fp8_meta.items():
@@ -179,6 +189,12 @@ def _set_fp8_state(self, state: paddle.Tensor) -> None:
         self.fp8_meta["scaling_fwd"].from_numpy(state["scaling_fwd"])
         self.fp8_meta["scaling_bwd"].from_numpy(state["scaling_bwd"])
 
+        # Restore global FP8 buffer states.
+        global_fp8_fwd_buffer = get_global_fp8_state().get_fp8_fwd_buffer()
+        global_fp8_bwd_buffer = get_global_fp8_state().get_fp8_bwd_buffer()
+        global_fp8_fwd_buffer.from_numpy(state["global_fp8_fwd_buffer"])
+        global_fp8_bwd_buffer.from_numpy(state["global_fp8_bwd_buffer"])
+
         # Load extra items.
         self.fp8_meta.update(state["extra_fp8_variables"])
         self.fp8_meta["recipe"].amax_history_len = self.fp8_meta["scaling_fwd"].amax_history.shape[
@@ -210,9 +226,22 @@ def prepare_forward(
 
         # Previous iteration was grad_enabled
         if self.fp8_meta.get("update_amax_and_scale_fwd", False):
-            amax_and_scale_update(self.fp8_meta, True)
+            global_fp8_fwd_buffer = get_global_fp8_state().get_fp8_fwd_buffer()
+            global_fp8_fwd_buffer.wait()
+            if self.fp8_meta["recipe"].reduce_amax:
+                global_fp8_fwd_buffer.copy_amax_from_buffer(self.fp8_meta)
+                amax_and_scale_update(self.fp8_meta, True)
+                global_fp8_fwd_buffer.set_for_deletion(self.fp8_meta)
+            else:
+                amax_and_scale_update(self.fp8_meta, True)
 
         if self.fp8_enabled and self.training:
+            # Setup for amax reduction
+            if self.fp8_meta["recipe"].reduce_amax:
+                global_fp8_state = get_global_fp8_state()
+                self.fp8_meta["first_module"] = global_fp8_state.is_first_fp8_module()
+                self.fp8_meta["autocast_id_fwd"] = global_fp8_state.get_autocast_id()
+                self.fp8_meta["autocast_id_fwd_stack"].append(self.fp8_meta["autocast_id_fwd"])
             self.fp8_meta["update_amax_and_scale_fwd"] = True
         else:
             self.fp8_meta["update_amax_and_scale_fwd"] = False
@@ -220,18 +249,47 @@ def prepare_forward(
         with nvtx_range(self.__class__.__name__ + " forward"):
             yield inp
 
+        if self.fp8_enabled and self.training and self.fp8_meta["recipe"].reduce_amax:
+            global_fp8_state = get_global_fp8_state()
+            global_fp8_fwd_buffer = global_fp8_state.get_fp8_fwd_buffer()
+            global_fp8_fwd_buffer.add_amax(self.fp8_meta)
+            global_fp8_fwd_buffer.set_for_amax_reduction(
+                self.fp8_meta,
+                self.tp_group,
+                self.tp_size,
+            )
+
     @staticmethod
     @contextmanager
     def prepare_backward(fp8_enabled: bool,
                          fp8_meta: Dict[str, Any],
+                         tp_group: dist_group_type,
+                         tp_size: int,
                          name: str = "") -> Generator[None, None, None]:
         """Checks and prep for BWD."""
         if fp8_enabled:
-            amax_and_scale_update(fp8_meta, False)
+            global_fp8_state = get_global_fp8_state()
+            global_fp8_bwd_buffer = global_fp8_state.get_fp8_bwd_buffer()
+            global_fp8_bwd_buffer.wait()
+
+            if fp8_meta["recipe"].reduce_amax:
+                global_fp8_bwd_buffer.copy_amax_from_buffer(fp8_meta)
+                amax_and_scale_update(fp8_meta, False)
+                global_fp8_bwd_buffer.set_for_deletion(fp8_meta)
+
+                # Get new backward key.
+                fp8_meta["autocast_id_bwd"] = fp8_meta["autocast_id_fwd_stack"].pop(0)
+            else:
+                amax_and_scale_update(fp8_meta, False)
 
         with nvtx_range(name + " backward"):
             yield
 
+        if fp8_enabled and fp8_meta["recipe"].reduce_amax:
+            global_fp8_bwd_buffer.add_amax(fp8_meta)
+            if fp8_meta["first_module"]:
+                global_fp8_bwd_buffer.finalize(fp8_meta, tp_group, tp_size)
+
     @staticmethod
     def grad_output_preprocess(
             ctx, grad_output: paddle.Tensor) -> Tuple[Union[paddle.Tensor, None], ...]:
@@ -258,8 +316,6 @@ def grad_output_preprocess(
                 FP8BwdTensors.GRAD_OUTPUT1,
                 fp8_dtype_backward,
             )
-            bias_dtype = get_bias_dtype(ctx.activation_dtype)
-            bgrad = cast_if_needed(bgrad, bias_dtype)
         else:
             if not ctx.fp8_meta["recipe"].override_linear_precision.wgrad:
                 grad_output_c, grad_output_t = cast_transpose(
diff --git a/transformer_engine/paddle/layer/layernorm.py b/transformer_engine/paddle/layer/layernorm.py
index 3f0b8c4a50..89c03ee25c 100644
--- a/transformer_engine/paddle/layer/layernorm.py
+++ b/transformer_engine/paddle/layer/layernorm.py
@@ -31,7 +31,7 @@ def forward(
         zero_centered_gamma: bool,
     ) -> paddle.Tensor:
         # Make sure input dimensions are compatible
-        in_features = ln_weight.numel()
+        in_features = ln_weight.shape[0]
         assert inp.shape[-1] == in_features, "LayerNorm not possible"
         inputmat = inp.reshape((-1, in_features))
 
diff --git a/transformer_engine/paddle/layer/layernorm_linear.py b/transformer_engine/paddle/layer/layernorm_linear.py
index 608f02a6ff..285cf4609a 100644
--- a/transformer_engine/paddle/layer/layernorm_linear.py
+++ b/transformer_engine/paddle/layer/layernorm_linear.py
@@ -4,7 +4,7 @@
 """LayerNormLinear API"""
 
 import os
-from typing import Union, Tuple, Dict, Any
+from typing import Union, Tuple, Dict, Any, Optional
 
 import paddle
 import paddle.nn.functional as F
@@ -21,9 +21,22 @@
 
 from .base import TransformerEngineBaseLayer
 from .linear import _linear_fwd, _linear_bwd
-from ..constants import TE_DType, FP8FwdTensors, FP8BwdTensors
+from ..constants import TE_DType, FP8FwdTensors, FP8BwdTensors, GemmParallelModes, dist_group_type
+from ..distributed import (
+    allreduce,
+    get_tp_group_and_world_size,
+    identity,
+    track_rng_state,
+    set_tensor_dist_attr,
+    set_weight_tensor_dist_attr,
+)
 from ..fp8 import get_fp8_te_dtype
-from ..utils import cast_if_needed, cast_if_needed_inplace, assert_dim_for_fp8_forward_exec
+from ..utils import (
+    assert_dim_for_fp8_forward_exec,
+    cast_if_needed,
+    cast_if_needed_inplace,
+    divide,
+)
 
 __all__ = ["LayerNormLinear", "_layernorm_fwd_fp8_cast", "_layernorm_bwd"]
 
@@ -128,9 +141,13 @@ def forward(
         fwd_ln_sm_margin: int,
         bwd_ln_sm_margin: int,
         zero_centered_gamma: bool,
+        parallel_mode: Union[str, None],
+        tensor_parallel: bool,
+        tp_group: Union[dist_group_type, None],
+        tp_size: int,
     ) -> Union[Tuple[paddle.Tensor, ...], paddle.Tensor]:
         # Make sure input dimensions are compatible
-        in_features = ln_weight.numel()
+        in_features = ln_weight.shape[0]
         assert inp.shape[-1] == in_features, "GEMM not possible"
         inputmat = inp.reshape((-1, in_features))
         if fp8_enabled:
@@ -169,6 +186,9 @@ def forward(
             fp8_calibration,
             fp8_meta,
             activation_dtype,
+            parallel_mode,
+            tensor_parallel,
+            tp_group,
             is_grad_enabled,
         )
 
@@ -192,6 +212,10 @@ def forward(
             ctx.return_layernorm_output = return_layernorm_output
             ctx.bwd_ln_sm_margin = bwd_ln_sm_margin
             ctx.zero_centered_gamma = zero_centered_gamma
+            ctx.parallel_mode = parallel_mode
+            ctx.tensor_parallel = tensor_parallel
+            ctx.tp_group = tp_group
+            ctx.tp_size = tp_size
             ctx.requires_dgrad = not inp.stop_gradient
             ctx.requires_bgrad = use_bias and not bias.stop_gradient
             ctx.requires_ln_bgrad = not ln_bias.stop_gradient
@@ -208,6 +232,8 @@ def backward(
                                       ...]) -> Tuple[Union[paddle.Tensor, None], ...]:
         with TransformerEngineBaseLayer.prepare_backward(ctx.fp8_enabled,
                                                          ctx.fp8_meta,
+                                                         ctx.tp_group,
+                                                         ctx.tp_size,
                                                          name="_LayerNormLinear"):
             (
                 inputmat,
@@ -262,6 +288,9 @@ def backward(
                 ctx.fp8_meta,
                 True,    # Always compute dgrad to feed into LayerNorm bwd
                 ctx.activation_dtype,
+                ctx.parallel_mode,
+                ctx.tensor_parallel,
+                ctx.tp_group,
             )
 
             if not ctx.fp8_enabled:
@@ -307,6 +336,8 @@ def __init__(
         bias_attr: Union[paddle.ParamAttr, None, bool] = None,
         return_layernorm_output: bool = False,
         zero_centered_gamma: bool = False,
+        parallel_mode: Optional[str] = None,
+        tp_group: Union[dist_group_type, None] = None,
         backend: str = 'transformer_engine',
     ) -> None:
         super().__init__()
@@ -322,9 +353,23 @@ def __init__(
         self._bias_attr = bias_attr
         self._dtype = self._helper.get_default_dtype()
 
+        # Set parallel configs
+        self.tp_group, self.tp_size = get_tp_group_and_world_size(tp_group,
+                                                                  enable_tp=parallel_mode
+                                                                  is not None)
+        self.tensor_parallel = self.tp_size > 1
+        self.parallel_mode = parallel_mode
+        assert (self.parallel_mode
+                in GemmParallelModes), f"parallel_mode {parallel_mode} not supported"
+
+        if self.parallel_mode == "column":
+            self.out_features = divide(self.out_features, self.tp_size)
+        elif self.parallel_mode == "row":
+            self.in_features = divide(self.in_features, self.tp_size)
+
         # LayerNorm weights
         self.ln_weight = self.create_parameter(
-            shape=[in_features],
+            shape=[self.in_features],
             attr=paddle.ParamAttr(initializer=Constant(
                 value=0.0 if self.zero_centered_gamma else 1.0)),
             dtype=self._dtype,
@@ -332,34 +377,48 @@ def __init__(
         )
 
         self.ln_bias = self.create_parameter(
-            shape=[in_features],
+            shape=[self.in_features],
             attr=paddle.ParamAttr(initializer=Constant(value=0.0)),
             dtype=self._dtype,
             is_bias=True,
         )
 
-        # Linear weights
-        self.weight = self.create_parameter(
-            shape=[out_features, in_features]
-            if self.backend == 'transformer_engine' else [in_features, out_features],
-            attr=self._weight_attr,
-            dtype=self._dtype,
-            is_bias=False,
-        )
+        # Initialize Linear weight parameter
+        with track_rng_state(enable=self.tensor_parallel):
+            # TE linear weight is in column major
+            self.weight = self.create_parameter(
+                shape=[self.out_features, self.in_features]
+                if self.backend == 'transformer_engine' else [self.in_features, self.out_features],
+                attr=self._weight_attr,
+                dtype=self._dtype,
+                is_bias=False,
+            )
+        set_weight_tensor_dist_attr(self.weight, self.tensor_parallel, self.parallel_mode,
+                                    self.backend)
 
+        # Initialize Linear bias parameter
         self.has_bias = self._bias_attr is not False
         use_default_bias = self._bias_attr is None or self._bias_attr is True
         if self.has_bias:
             self.bias = self.create_parameter(
-                shape=[out_features],
+                shape=[self.out_features],
                 attr=self._bias_attr if not use_default_bias else paddle.ParamAttr(
                     initializer=Constant(value=0.0)),
                 dtype=self._dtype,
                 is_bias=True,
             )
+            if parallel_mode == "column":
+                set_tensor_dist_attr(self.bias, self.tensor_parallel, axis=0)
         else:
             self.bias = None
 
+        # For RPL, bias has to be added after TP collectives
+        # So it cannot be fused with the GEMM
+        if self.parallel_mode == "row" and self.tensor_parallel and self.has_bias:
+            self.gemm_bias_fused_add = False
+        else:
+            self.gemm_bias_fused_add = True
+
         # These many SMs are subtracted from the total SM count when calling forward
         # and backward LayerNorm C APIs. These envvars can be used to prevent the LN
         # kernels from using all SMs in the device. This is useful for cases such as
@@ -385,8 +444,8 @@ def _te_forward(
                 self.ln_weight,
                 self.ln_bias,
                 self.weight,
-                self.bias,
-                self.has_bias,
+                self.bias if self.gemm_bias_fused_add else None,
+                self.has_bias and self.gemm_bias_fused_add,
                 self.eps,
                 self.fp8_enabled,
                 self.fp8_calibration,
@@ -397,10 +456,19 @@ def _te_forward(
                 self.fwd_ln_sm_margin,
                 self.bwd_ln_sm_margin,
                 self.zero_centered_gamma,
+                self.parallel_mode,
+                self.tensor_parallel,
+                self.tp_group,
+                self.tp_size,
             )
 
         if self.return_layernorm_output:
             out, ln_out = out
+
+        if not self.gemm_bias_fused_add:
+            out = out + cast_if_needed_inplace(self.bias, self.activation_dtype)
+
+        if self.return_layernorm_output:
             return out, ln_out
         return out
 
@@ -418,7 +486,12 @@ def _pd_forward(
                               weight=self.ln_weight,
                               bias=self.ln_bias,
                               epsilon=self.eps)
-        out = F.linear(ln_out, self.weight, self.bias)
+        if self.parallel_mode == 'column' and self.tensor_parallel:
+            ln_out = identity(ln_out, self.tp_group)
+        out = F.linear(ln_out, self.weight, self.bias if self.gemm_bias_fused_add else None)
+        if self.parallel_mode == 'row' and self.tensor_parallel:
+            out = allreduce(out, self.tp_group)
+            out = out + self.bias if self.bias is not None else out
         if self.return_layernorm_output:
             return out, ln_out
         return out
diff --git a/transformer_engine/paddle/layer/layernorm_mlp.py b/transformer_engine/paddle/layer/layernorm_mlp.py
index 6d725114b0..9b89d05d47 100644
--- a/transformer_engine/paddle/layer/layernorm_mlp.py
+++ b/transformer_engine/paddle/layer/layernorm_mlp.py
@@ -4,25 +4,38 @@
 """LayerNormMLP API"""
 
 import os
-from typing import Union, Tuple, Dict, Any
+from typing import Union, Tuple, Dict, Any, Optional
 
 import paddle
 import paddle.nn.functional as F
 from paddle.nn.initializer import Constant
 
+from .base import TransformerEngineBaseLayer
+from .layernorm_linear import _layernorm_fwd_fp8_cast, _layernorm_bwd
+from .linear import _linear_fwd_fp8, _linear_fwd_non_fp8, _linear_bwd_fp8, _linear_bwd_non_fp8
+from ..constants import TE_DType, FP8FwdTensors, FP8BwdTensors, dist_group_type
 from ..cpp_extensions import (
     cast_from_fp8,
     dgelu_cast_transpose_bgrad_fp8,
     gelu_fp8,
     transpose,
 )
-
-from .base import TransformerEngineBaseLayer
-from .layernorm_linear import _layernorm_fwd_fp8_cast, _layernorm_bwd
-from .linear import _linear_fwd_fp8, _linear_fwd_non_fp8, _linear_bwd_fp8, _linear_bwd_non_fp8
-from ..constants import TE_DType, FP8FwdTensors, FP8BwdTensors
+from ..distributed import (
+    allreduce,
+    get_tp_group_and_world_size,
+    identity,
+    track_rng_state,
+    set_tensor_dist_attr,
+    set_weight_tensor_dist_attr,
+)
 from ..fp8 import get_fp8_te_dtype
-from ..utils import cast_if_needed, assert_dim_for_fp8_forward_exec, get_paddle_act_func
+from ..utils import (
+    assert_dim_for_fp8_forward_exec,
+    cast_if_needed,
+    cast_if_needed_inplace,
+    divide,
+    get_paddle_act_func,
+)
 
 __all__ = ["LayerNormMLP"]
 
@@ -43,7 +56,11 @@ def _mlp_forward(
     fp8_calibration: bool,
     fp8_meta: Dict[str, Any],
     activation_dtype: paddle.dtype,
+    activation: str,
     is_grad_enabled: bool,
+    set_parallel_mode: bool,
+    tensor_parallel: bool,
+    tp_group: Union[dist_group_type, None],
 ):
     if fp8_enabled:
         fp8_dtype_forward = get_fp8_te_dtype(fp8_meta["recipe"], fprop_tensor=True)
@@ -56,6 +73,9 @@ def _mlp_forward(
             use_fc1_bias,
             fp8_meta,
             activation_dtype,
+            'column' if set_parallel_mode else None,
+            tensor_parallel,
+            tp_group,
             is_grad_enabled,
         )
 
@@ -75,6 +95,9 @@ def _mlp_forward(
             use_fc2_bias,
             fp8_meta,
             activation_dtype,
+            'row' if set_parallel_mode else None,
+            tensor_parallel,
+            tp_group,
             is_grad_enabled,
         )
     else:
@@ -88,7 +111,10 @@ def _mlp_forward(
             fp8_calibration,
             fp8_meta,
             activation_dtype,
-            activation='gelu',
+            'column' if set_parallel_mode else None,
+            tensor_parallel,
+            tp_group,
+            activation=activation,
         )
 
         fc2_out = _linear_fwd_non_fp8(
@@ -101,6 +127,9 @@ def _mlp_forward(
             fp8_calibration,
             fp8_meta,
             activation_dtype,
+            'row' if set_parallel_mode else None,
+            tensor_parallel,
+            tp_group,
         )
     return (
         fc1_out,
@@ -136,6 +165,9 @@ def _mlp_backward(
     requires_dgrad: bool,
     activation_dtype: paddle.dtype,
     activation: str,
+    set_parallel_mode: bool,
+    tensor_parallel: bool,
+    tp_group: Union[dist_group_type, None],
 ):
     (
         fc1_dgrad,
@@ -179,6 +211,9 @@ def _mlp_backward(
             True,
             requires_fc2_wgrad,
             activation_dtype,
+            'row' if set_parallel_mode else None,
+            tensor_parallel,
+            tp_group,
         )
 
         # GELU Bwd
@@ -193,7 +228,7 @@ def _mlp_backward(
         if requires_fc1_bgrad:
             fc1_bgrad = fc1_bgrad_
 
-        # FC2 Bwd
+        # FC1 Bwd
         requires_fc1_wgrad = not fc1_weight.stop_gradient
         dgelu_no_fp8, fc1_input_no_fp8, fc1_input_t = None, None, None
         if requires_fc1_wgrad:
@@ -231,6 +266,9 @@ def _mlp_backward(
             requires_dgrad,
             requires_fc1_wgrad,
             activation_dtype,
+            'column' if set_parallel_mode else None,
+            tensor_parallel,
+            tp_group,
         )
     else:
         dgelu, fc2_wgrad, fc2_bgrad = _linear_bwd_non_fp8(
@@ -240,6 +278,9 @@ def _mlp_backward(
             requires_fc2_bgrad,
             True,
             activation_dtype,
+            'row' if set_parallel_mode else None,
+            tensor_parallel,
+            tp_group,
             gelu_input=fc1_out,
             activation=activation,
         )
@@ -250,6 +291,9 @@ def _mlp_backward(
             requires_fc1_bgrad,
             requires_dgrad,
             activation_dtype,
+            'column' if set_parallel_mode else None,
+            tensor_parallel,
+            tp_group,
         )
     return (
         fc1_dgrad,
@@ -286,9 +330,13 @@ def forward(
         bwd_ln_sm_margin: int,
         zero_centered_gamma: bool,
         activation: str,
+        set_parallel_mode: bool,
+        tensor_parallel: bool,
+        tp_group: Union[dist_group_type, None],
+        tp_size: int,
     ) -> Union[Tuple[paddle.Tensor, ...], paddle.Tensor]:
         # Make sure input dimensions are compatible
-        in_features = ln_weight.numel()
+        in_features = ln_weight.shape[0]
         assert inp.shape[-1] == in_features, "GEMM not possible"
         inputmat = inp.reshape((-1, in_features))
         if fp8_enabled:
@@ -341,7 +389,11 @@ def forward(
             fp8_calibration,
             fp8_meta,
             activation_dtype,
+            activation,
             is_grad_enabled,
+            set_parallel_mode,
+            tensor_parallel,
+            tp_group,
         )
 
         if is_grad_enabled:
@@ -369,6 +421,10 @@ def forward(
             ctx.return_layernorm_output = return_layernorm_output
             ctx.bwd_ln_sm_margin = bwd_ln_sm_margin
             ctx.zero_centered_gamma = zero_centered_gamma
+            ctx.set_parallel_mode = set_parallel_mode
+            ctx.tensor_parallel = tensor_parallel
+            ctx.tp_group = tp_group
+            ctx.tp_size = tp_size
             ctx.requires_dgrad = not inp.stop_gradient
             ctx.requires_fc1_bgrad = use_fc1_bias and not fc1_bias.stop_gradient
             ctx.requires_fc2_bgrad = use_fc2_bias and not fc2_bias.stop_gradient
@@ -387,6 +443,8 @@ def backward(
                                       ...]) -> Tuple[Union[paddle.Tensor, None], ...]:
         with TransformerEngineBaseLayer.prepare_backward(ctx.fp8_enabled,
                                                          ctx.fp8_meta,
+                                                         ctx.tp_group,
+                                                         ctx.tp_size,
                                                          name="_LayerNormMLP"):
             (
                 inputmat,
@@ -442,6 +500,9 @@ def backward(
                 True,
                 ctx.activation_dtype,
                 ctx.activation,
+                ctx.set_parallel_mode,
+                ctx.tensor_parallel,
+                ctx.tp_group,
             )
             if not ctx.fp8_enabled:
                 # fc2_bias is fused with gemm for non-FP8 path
@@ -491,6 +552,8 @@ def __init__(
         activation: str = "gelu",
         return_layernorm_output: bool = False,
         zero_centered_gamma: bool = False,
+        set_parallel_mode: bool = False,
+        tp_group: Optional[dist_group_type] = None,
         backend: str = 'transformer_engine',
     ) -> None:
         super().__init__()
@@ -507,6 +570,17 @@ def __init__(
         self._bias_attr = bias_attr
         self._dtype = self._helper.get_default_dtype()
 
+        # Set parallel configs
+        self.tp_group, self.tp_size = get_tp_group_and_world_size(tp_group,
+                                                                  enable_tp=set_parallel_mode)
+        self.tensor_parallel = self.tp_size > 1
+        self.set_parallel_mode = set_parallel_mode
+
+        if self.set_parallel_mode:
+            self.size_per_partition = divide(self.ffn_hidden_size, self.tp_size)
+        else:
+            self.size_per_partition = self.ffn_hidden_size
+
         # LayerNorm weights
         self.ln_weight = self.create_parameter(
             shape=[self.hidden_size],
@@ -524,36 +598,47 @@ def __init__(
         )
 
         # FC1 weights
-        self.fc1_weight = self.create_parameter(
-            shape=[self.ffn_hidden_size, self.hidden_size]
-            if self.backend == 'transformer_engine' else [self.hidden_size, self.ffn_hidden_size],
-            attr=self._weight_attr,
-            dtype=self._dtype,
-            is_bias=False,
-        )
+        with track_rng_state(enable=self.tensor_parallel):
+            self.fc1_weight = self.create_parameter(
+                shape=[self.size_per_partition, self.hidden_size] if self.backend
+                == 'transformer_engine' else [self.hidden_size, self.size_per_partition],
+                attr=self._weight_attr,
+                dtype=self._dtype,
+                is_bias=False,
+            )
+        set_weight_tensor_dist_attr(self.fc1_weight,
+                                    self.tensor_parallel,
+                                    parallel_mode='column',
+                                    backend=self.backend)
 
         self.has_bias = self._bias_attr is not False
-        if self._bias_attr is None or self._bias_attr is True:
+        use_default_bias = self._bias_attr is None or self._bias_attr is True
+        if use_default_bias:
             self._bias_attr = paddle.ParamAttr(initializer=Constant(value=0.0))
 
         if self.has_bias:
             self.fc1_bias = self.create_parameter(
-                shape=[self.ffn_hidden_size],
+                shape=[self.size_per_partition],
                 attr=self._bias_attr,
                 dtype=self._dtype,
                 is_bias=True,
             )
+            set_tensor_dist_attr(self.fc1_bias, self.tensor_parallel, axis=0)
         else:
             self.fc1_bias = None
 
         # FC2 weights
         self.fc2_weight = self.create_parameter(
-            shape=[self.hidden_size, self.ffn_hidden_size]
-            if self.backend == 'transformer_engine' else [self.ffn_hidden_size, self.hidden_size],
+            shape=[self.hidden_size, self.size_per_partition] if self.backend
+            == 'transformer_engine' else [self.size_per_partition, self.hidden_size],
             attr=self._weight_attr,
             dtype=self._dtype,
             is_bias=False,
         )
+        set_weight_tensor_dist_attr(self.fc2_weight,
+                                    self.tensor_parallel,
+                                    parallel_mode='row',
+                                    backend=self.backend)
 
         if self.has_bias:
             self.fc2_bias = self.create_parameter(
@@ -565,6 +650,13 @@ def __init__(
         else:
             self.fc2_bias = None
 
+        # For RPL, bias has to be added after TP collectives
+        # So it cannot be fused with the GEMM
+        if self.set_parallel_mode and self.tensor_parallel and self.has_bias:
+            self.gemm_bias_fused_add = False
+        else:
+            self.gemm_bias_fused_add = True
+
         # These many SMs are subtracted from the total SM count when calling forward
         # and backward LayerNorm C APIs. These envvars can be used to prevent the LN
         # kernels from using all SMs in the device. This is useful for cases such as
@@ -606,12 +698,20 @@ def _te_forward(
                 self.bwd_ln_sm_margin,
                 self.zero_centered_gamma,
                 self.activation,
+                self.set_parallel_mode,
+                self.tensor_parallel,
+                self.tp_group,
+                self.tp_size,
             )
 
         if self.return_layernorm_output:
             out, ln_out = out
-            return out, ln_out
 
+        if not self.gemm_bias_fused_add:
+            out = out + cast_if_needed_inplace(self.fc2_bias, self.activation_dtype)
+
+        if self.return_layernorm_output:
+            return out, ln_out
         return out
 
     def _pd_forward(
@@ -628,11 +728,16 @@ def _pd_forward(
                               weight=self.ln_weight,
                               bias=self.ln_bias,
                               epsilon=self.eps)
+        if self.set_parallel_mode and self.tensor_parallel:
+            ln_out = identity(ln_out, self.tp_group)
         fc1_out = F.linear(ln_out, self.fc1_weight, self.fc1_bias)
         act_func = get_paddle_act_func(self.activation)
         act_out = act_func(fc1_out)
-        out = F.linear(act_out, self.fc2_weight, self.fc2_bias)
-
+        out = F.linear(act_out, self.fc2_weight,
+                       self.fc2_bias if self.gemm_bias_fused_add else None)
+        if self.set_parallel_mode and self.tensor_parallel:
+            out = allreduce(out, self.tp_group)
+            out = out + self.fc2_bias if self.fc2_bias is not None else out
         if self.return_layernorm_output:
             return out, ln_out
         return out
diff --git a/transformer_engine/paddle/layer/linear.py b/transformer_engine/paddle/layer/linear.py
index dc9863e062..ff164067a7 100644
--- a/transformer_engine/paddle/layer/linear.py
+++ b/transformer_engine/paddle/layer/linear.py
@@ -3,7 +3,7 @@
 # See LICENSE for license information.
 """Linear API"""
 
-from typing import Union, Tuple, Dict, Any
+from typing import Union, Tuple, Dict, Any, Optional
 
 import paddle
 import paddle.nn.functional as F
@@ -17,13 +17,22 @@
     _2X_ACC_WGRAD,
 )
 
-from ..fp8 import get_fp8_te_dtype
-from ..constants import FP8FwdTensors, FP8BwdTensors
+from ..constants import FP8FwdTensors, FP8BwdTensors, GemmParallelModes, dist_group_type
 from ..cpp_extensions import gemm, fp8_gemm, cast_to_fp8, cast_transpose
+from ..distributed import (
+    allreduce,
+    get_tp_group_and_world_size,
+    identity,
+    track_rng_state,
+    set_tensor_dist_attr,
+    set_weight_tensor_dist_attr,
+)
+from ..fp8 import get_fp8_te_dtype
 from ..utils import (
+    assert_dim_for_fp8_forward_exec,
     cast_if_needed,
     cast_if_needed_inplace,
-    assert_dim_for_fp8_forward_exec,
+    divide,
     get_bias_dtype,
 )
 
@@ -39,12 +48,15 @@ def _linear_fwd_fp8(
     use_bias: bool,
     fp8_meta: Dict[str, Any],
     activation_dtype: paddle.dtype,
+    parallel_mode: Union[str, None],
+    tensor_parallel: bool,
+    tp_group: Union[dist_group_type, None],
     is_grad_enabled: bool,
 ):
     """FP8 path of Linear Fwd"""
     fp8_dtype_forward = get_fp8_te_dtype(fp8_meta["recipe"], fprop_tensor=True)
     bias_dtype = get_bias_dtype(activation_dtype)
-    bias = cast_if_needed_inplace(bias, bias_dtype)
+    bias = cast_if_needed(bias, bias_dtype)
 
     if is_grad_enabled:
         weight_fp8, weight_t_fp8 = cast_transpose(
@@ -78,6 +90,10 @@ def _linear_fwd_fp8(
         use_split_accumulator=_2X_ACC_FPROP,
     )
 
+    # Row Parallel Linear
+    if parallel_mode == "row" and tensor_parallel:
+        out = allreduce(out, tp_group)
+
     return out, weight_t_fp8
 
 
@@ -91,6 +107,9 @@ def _linear_fwd_non_fp8(
     fp8_calibration: bool,
     fp8_meta: Dict[str, Any],
     activation_dtype: paddle.dtype,
+    parallel_mode: Union[str, None],
+    tensor_parallel: bool,
+    tp_group: Union[dist_group_type, None],
     activation: str = "",
 ):
     """Non-FP8 path of Linear Fwd"""
@@ -123,6 +142,9 @@ def _linear_fwd_non_fp8(
         return out, gelu_out
 
     out, _, _ = outputs
+    # Row Parallel Linear
+    if parallel_mode == "row" and tensor_parallel:
+        out = allreduce(out, tp_group)
     return out
 
 
@@ -137,6 +159,9 @@ def _linear_fwd(
     fp8_calibration: bool,
     fp8_meta: Dict[str, Any],
     activation_dtype: paddle.dtype,
+    parallel_mode: Union[str, None],
+    tensor_parallel: bool,
+    tp_group: Union[dist_group_type, None],
     is_grad_enabled: bool,
 ):
     if fp8_enabled:
@@ -149,6 +174,9 @@ def _linear_fwd(
             use_bias,
             fp8_meta,
             activation_dtype,
+            parallel_mode,
+            tensor_parallel,
+            tp_group,
             is_grad_enabled,
         )
     else:
@@ -162,6 +190,9 @@ def _linear_fwd(
             fp8_calibration,
             fp8_meta,
             activation_dtype,
+            parallel_mode,
+            tensor_parallel,
+            tp_group,
         )
     return (
         out,
@@ -184,6 +215,9 @@ def _linear_bwd_fp8(
     requires_dgrad: bool,
     requires_wgrad: bool,
     activation_dtype: paddle.dtype,
+    parallel_mode: Union[str, None],
+    tensor_parallel: bool,
+    tp_group: Union[dist_group_type, None],
 ):
     dgrad, wgrad = None, None
     fp8_dtype_forward = get_fp8_te_dtype(fp8_meta["recipe"], fprop_tensor=True)
@@ -202,6 +236,9 @@ def _linear_bwd_fp8(
             get_workspace(),
             use_split_accumulator=_2X_ACC_DGRAD,
         )
+        if parallel_mode == "column" and tensor_parallel:
+            dgrad = allreduce(dgrad, tp_group)
+
     if requires_wgrad:
         if not fp8_meta["recipe"].override_linear_precision.wgrad:
             wgrad = fp8_gemm(
@@ -236,6 +273,9 @@ def _linear_bwd_non_fp8(
     requires_bgrad: bool,
     requires_dgrad: bool,
     activation_dtype: paddle.dtype,
+    parallel_mode: Union[str, None],
+    tensor_parallel: bool,
+    tp_group: Union[dist_group_type, None],
     gelu_input: Union[paddle.Tensor, None] = None,
     activation: str = "",
 ):
@@ -255,6 +295,9 @@ def _linear_bwd_non_fp8(
             gelu_input=gelu_input,
             grad=True,
         )
+        if parallel_mode == "column" and tensor_parallel:
+            dgrad = allreduce(dgrad, tp_group)
+
     if requires_wgrad:
         wgrad, bgrad, _ = gemm(
             inputmat,
@@ -288,6 +331,9 @@ def _linear_bwd(
     fp8_meta: Dict[str, Any],
     requires_dgrad: bool,
     activation_dtype: paddle.dtype,
+    parallel_mode: Union[str, None],
+    tensor_parallel: bool,
+    tp_group: Union[dist_group_type, None],
 ):
     dgrad, wgrad, bgrad = None, None, None
     requires_wgrad = not weight.stop_gradient
@@ -307,6 +353,9 @@ def _linear_bwd(
             requires_dgrad,
             requires_wgrad,
             activation_dtype,
+            parallel_mode,
+            tensor_parallel,
+            tp_group,
         )
     else:
         dgrad, wgrad, bgrad = _linear_bwd_non_fp8(
@@ -316,6 +365,9 @@ def _linear_bwd(
             requires_bgrad,
             requires_dgrad,
             activation_dtype,
+            parallel_mode,
+            tensor_parallel,
+            tp_group,
         )
     return dgrad, wgrad, bgrad
 
@@ -335,6 +387,10 @@ def forward(
         fp8_meta: Dict[str, Any],
         activation_dtype: paddle.dtype,
         is_grad_enabled: bool,
+        parallel_mode: Union[str, None],
+        tensor_parallel: bool,
+        tp_group: Union[dist_group_type, None],
+        tp_size: int,
     ) -> paddle.Tensor:
         # Make sure input dimensions are compatible
         in_features = weight.shape[-1]
@@ -385,6 +441,9 @@ def forward(
             fp8_calibration,
             fp8_meta,
             activation_dtype,
+            parallel_mode,
+            tensor_parallel,
+            tp_group,
             is_grad_enabled,
         )
 
@@ -402,6 +461,10 @@ def forward(
             ctx.fp8_meta = fp8_meta
             ctx.use_bias = use_bias
             ctx.inp_shape = inp.shape
+            ctx.parallel_mode = parallel_mode
+            ctx.tensor_parallel = tensor_parallel
+            ctx.tp_group = tp_group
+            ctx.tp_size = tp_size
             ctx.requires_dgrad = not inp.stop_gradient
             ctx.requires_bgrad = use_bias and not bias.stop_gradient
 
@@ -411,6 +474,8 @@ def forward(
     def backward(ctx, grad_output: paddle.Tensor) -> Tuple[Union[paddle.Tensor, None], ...]:
         with TransformerEngineBaseLayer.prepare_backward(ctx.fp8_enabled,
                                                          ctx.fp8_meta,
+                                                         ctx.tp_group,
+                                                         ctx.tp_size,
                                                          name="_Linear"):
             (
                 inputmat,
@@ -444,6 +509,9 @@ def backward(ctx, grad_output: paddle.Tensor) -> Tuple[Union[paddle.Tensor, None
                 ctx.fp8_meta,
                 ctx.requires_dgrad,
                 ctx.activation_dtype,
+                ctx.parallel_mode,
+                ctx.tensor_parallel,
+                ctx.tp_group,
             )
 
             if not ctx.fp8_enabled:
@@ -474,6 +542,8 @@ def __init__(
         out_features: int,
         weight_attr: Union[paddle.ParamAttr, None] = None,
         bias_attr: Union[paddle.ParamAttr, None, bool] = None,
+        parallel_mode: Optional[str] = None,
+        tp_group: Union[dist_group_type, None] = None,
         backend: str = 'transformer_engine',
     ) -> None:
         super().__init__()
@@ -484,28 +554,56 @@ def __init__(
         self._bias_attr = bias_attr
         self._dtype = self._helper.get_default_dtype()
 
-        # TE linear weight is in column major
-        self.weight = self.create_parameter(
-            shape=[out_features, in_features]
-            if self.backend == 'transformer_engine' else [in_features, out_features],
-            attr=self._weight_attr,
-            dtype=self._dtype,
-            is_bias=False,
-        )
+        # Set parallel configs
+        self.tp_group, self.tp_size = get_tp_group_and_world_size(tp_group,
+                                                                  enable_tp=parallel_mode
+                                                                  is not None)
+        self.tensor_parallel = self.tp_size > 1
+        self.parallel_mode = parallel_mode
+        assert (self.parallel_mode
+                in GemmParallelModes), f"parallel_mode {parallel_mode} not supported"
+
+        if self.parallel_mode == "column":
+            self.out_features = divide(self.out_features, self.tp_size)
+        elif self.parallel_mode == "row":
+            self.in_features = divide(self.in_features, self.tp_size)
+
+        # Initialize weight parameter
+        with track_rng_state(enable=self.tensor_parallel):
+            # TE linear weight is in column major
+            self.weight = self.create_parameter(
+                shape=[self.out_features, self.in_features]
+                if self.backend == 'transformer_engine' else [self.in_features, self.out_features],
+                attr=self._weight_attr,
+                dtype=self._dtype,
+                is_bias=False,
+            )
+        set_weight_tensor_dist_attr(self.weight, self.tensor_parallel, self.parallel_mode,
+                                    self.backend)
 
+        # Initialize bias parameter
         self.has_bias = self._bias_attr is not False
         use_default_bias = self._bias_attr is None or self._bias_attr is True
         if self.has_bias:
             self.bias = self.create_parameter(
-                shape=[out_features],
+                shape=[self.out_features],
                 attr=self._bias_attr if not use_default_bias else paddle.ParamAttr(
                     initializer=Constant(value=0.0)),
                 dtype=self._dtype,
                 is_bias=True,
             )
+            if parallel_mode == "column":
+                set_tensor_dist_attr(self.bias, self.tensor_parallel, axis=0)
         else:
             self.bias = None
 
+        # For RPL, bias has to be added after TP collectives
+        # So it cannot be fused with the GEMM
+        if self.parallel_mode == "row" and self.tensor_parallel and self.has_bias:
+            self.gemm_bias_fused_add = False
+        else:
+            self.gemm_bias_fused_add = True
+
     def _te_forward(
         self,
         inp: paddle.Tensor,
@@ -521,15 +619,22 @@ def _te_forward(
             out = _Linear.apply(
                 self.weight,
                 inp,
-                self.bias,
-                self.has_bias,
+                self.bias if self.gemm_bias_fused_add else None,
+                self.has_bias and self.gemm_bias_fused_add,
                 self.fp8_enabled,
                 self.fp8_calibration,
                 self.fp8_meta,
                 self.activation_dtype,
                 paddle.is_grad_enabled(),
+                self.parallel_mode,
+                self.tensor_parallel,
+                self.tp_group,
+                self.tp_size,
             )
 
+        if not self.gemm_bias_fused_add:
+            out = out + cast_if_needed_inplace(self.bias, self.activation_dtype)
+
         return out
 
     def _pd_forward(
@@ -537,7 +642,13 @@ def _pd_forward(
         inp: paddle.Tensor,
     ) -> paddle.Tensor:
         """Calls Paddle OP"""
-        return F.linear(inp, self.weight, self.bias)
+        if self.parallel_mode == 'column' and self.tensor_parallel:
+            inp = identity(inp, self.tp_group)
+        out = F.linear(inp, self.weight, self.bias if self.gemm_bias_fused_add else None)
+        if self.parallel_mode == 'row' and self.tensor_parallel:
+            out = allreduce(out, self.tp_group)
+            out = out + self.bias if self.bias is not None else out
+        return out
 
     def forward(self, *args, **kwargs):
         """forward"""
diff --git a/transformer_engine/paddle/layer/transformer.py b/transformer_engine/paddle/layer/transformer.py
index 6e6afd4ca2..a95b9fcfe1 100644
--- a/transformer_engine/paddle/layer/transformer.py
+++ b/transformer_engine/paddle/layer/transformer.py
@@ -7,15 +7,11 @@
 
 import paddle
 
-from transformer_engine.paddle.constants import (
-    AttnMaskTypes,
-    LayerTypes,
-)
-from transformer_engine.paddle.layer import (LayerNormMLP, LayerNorm, MultiHeadAttention)
-from .base import TransformerEngineBaseLayer
+from . import LayerNormMLP, LayerNorm, MultiHeadAttention
+from ..constants import AttnMaskTypes, LayerTypes, dist_group_type
 
 
-class TransformerLayer(TransformerEngineBaseLayer):
+class TransformerLayer(paddle.nn.Layer):
     r"""
     TransformerLayer is made up of an attention block and a feedforward network (MLP).
     This standard layer is based on the paper "Attention Is All You Need".
@@ -64,6 +60,16 @@ class TransformerLayer(TransformerEngineBaseLayer):
                   it controls the type used to allocate the initial parameters. Useful when
                   the model is trained with lower precision and the original FP32 parameters
                   would not fit in GPU memory.
+
+    Parallelism parameters
+    ----------------------
+    set_parallel_mode : bool, default = `False`
+                      if set to `True`, QKV and FC1 layers are used as Column Parallel
+                      whereas PROJ and FC2 is used as Row Parallel as described
+                      `here <https://arxiv.org/pdf/1909.08053.pdf>`_.
+    tp_group : ProcessGroup, default = `None`
+              tensor parallel process group.
+
     """
 
     def __init__(self,
@@ -82,6 +88,8 @@ def __init__(self,
                  layer_type: str = "encoder",
                  zero_centered_gamma: bool = False,
                  activation: str = 'gelu',
+                 set_parallel_mode: bool = False,
+                 tp_group: Optional[dist_group_type] = None,
                  backend: str = 'transformer_engine') -> None:
         super().__init__()
 
@@ -90,6 +98,8 @@ def __init__(self,
         self.layer_type = layer_type
         self.apply_residual_connection_post_layernorm = apply_residual_connection_post_layernorm
         self.self_attn_mask_type = self_attn_mask_type
+        self.set_parallel_mode = set_parallel_mode
+        self.tp_group = tp_group
 
         assert (self_attn_mask_type
                 in AttnMaskTypes), f"self_attn_mask_type {self_attn_mask_type} not supported"
@@ -107,6 +117,8 @@ def __init__(self,
             "params_dtype": params_dtype,
             "return_layernorm_output": apply_residual_connection_post_layernorm,
             "zero_centered_gamma": zero_centered_gamma,
+            "set_parallel_mode": set_parallel_mode,
+            "tp_group": tp_group,
             "backend": backend,
         }
 
@@ -136,6 +148,8 @@ def __init__(self,
             activation=activation,
             return_layernorm_output=apply_residual_connection_post_layernorm,
             zero_centered_gamma=zero_centered_gamma,
+            set_parallel_mode=set_parallel_mode,
+            tp_group=tp_group,
             backend=backend,
         )
 

From 89fdcf88df3ebfca203e46e3fa262a89875ea39f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 16:29:07 +0200
Subject: [PATCH 278/535] fix lint error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py    | 18 +++++++++++++++++-
 1 file changed, 17 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index f35a07e053..2db0920027 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -11,7 +11,7 @@
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
 
-class ForwardArgs(NamedTuple):
+class ForwardArgs:
     nvte_x: nvte.Tensor
     is_exposed_x_squished_now: bool
     upcoming_backward: BackwardComm | None
@@ -19,6 +19,22 @@ class ForwardArgs(NamedTuple):
     meta_tensor_provider_fwd: Final[Persistent[FP8Meta]]
     meta_tensor_provider_bwd: Final[Persistent[FP8Meta]]
 
+    def __init__(
+        self,
+        nvte_x: nvte.Tensor,
+        is_exposed_x_squished_now: bool,
+        upcoming_backward: BackwardComm | None,
+        op: Op,
+        meta_tensor_provider_fwd: Persistent[FP8Meta],
+        meta_tensor_provider_bwd: Persistent[FP8Meta],
+    ):
+        self.nvte_x = nvte_x
+        self.is_exposed_x_squished_now = is_exposed_x_squished_now
+        self.upcoming_backward = upcoming_backward
+        self.op = op
+        self.meta_tensor_provider_fwd = meta_tensor_provider_fwd
+        self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
+
 
 class BackwardComm:
     nvte_grad_output: nvte.Tensor | None = None

From 82a676f105619aff653e2f33a9ed8f9b2df3e8aa Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 17:29:57 +0200
Subject: [PATCH 279/535] make cpp extension pure pybind again

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp      | 205 +++++++++---------
 1 file changed, 103 insertions(+), 102 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 184de13020..21a3048364 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -5,15 +5,6 @@
  * See LICENSE for license information.
  ************************************************************************/
 
-#include <ATen/ATen.h>
-#include <ATen/Dispatch.h>
-#include <ATen/cuda/CUDAContext.h>
-#include <ATen/cuda/CUDAGeneratorImpl.h>
-#include <ATen/cuda/CUDAGraphsUtils.cuh>
-#include <ATen/cudnn/Handle.h>
-#include <ATen/native/DispatchStub.h>
-#include <c10/cuda/CUDAStream.h>
-#include <c10/macros/Macros.h>
 #include <cstdlib>
 #include <cublasLt.h>
 #include <cuda.h>
@@ -22,9 +13,6 @@
 #include <exception>
 #include <memory>
 #include <stdexcept>
-#include <torch/extension.h>
-#include <torch/script.h>
-#include <torch/torch.h>
 #include <transformer_engine/activation.h>
 #include <transformer_engine/cast.h>
 #include <transformer_engine/fused_attn.h>
@@ -35,6 +23,7 @@
 #include <transformer_engine/transformer_engine.h>
 #include <transformer_engine/transpose.h>
 #include <type_traits>
+#include <utility>
 
 #include "type_list.h"
 
@@ -59,22 +48,52 @@ void cuda_check() {
   }
 }
 
-float *getDataPtr(at::Tensor t) {
-  return reinterpret_cast<float *>(t.data_ptr());
-}
+class Tensor {
+  NVTETensor tensor;
+
+public:
+  Tensor(void *data, const NVTEShape &shape, NVTEDType dtype, float *amax,
+         float *scale, float *scale_inv)
+      : tensor{nvte_tensor_create(data, shape, dtype, amax, scale, scale_inv)} {
+  }
+  Tensor(NVTETensor &&tensor_) : tensor{std::exchange{tensor_, nullptr}} {}
+  Tensor(Tensor &&other) noexcept
+      : tensor{std::exchange(other.tensor, nullptr)} {}
+  Tensor(const Tensor &) = delete;
+  Tensor &operator=(const Tensor &) = delete;
+  Tensor &operator=(Tensor &&) = delete;
+  ~Tensor() {
+    if (tensor)
+      nvte_tensor_destroy(tensor);
+  }
+  operator NVTETensor() const { return tensor; }
+  NVTEDType dtype() const { return nvte_tensor_type(tensor); }
+  NVTEShape shape() const { return nvte_tensor_shape(tensor); }
+  void *data() const { return nvte_tensor_data(tensor); }
+  float *amax() const { return nvte_tensor_amax(tensor); }
+  float *scale() const { return nvte_tensor_scale(tensor); }
+  float *scale_inv() const { return nvte_tensor_scale_inv(tensor); }
+};
 
 // ----------- Wrapper for NVTETensorPack -----------
 struct TensorPack : NVTETensorPack {
-  TensorPack(const std::vector<int64_t> &tensors_) : NVTETensorPack{} {
+  TensorPack(const std::vector<Tensor> &tensors_) : NVTETensorPack{} {
     size = tensors_.size();
     if (size > MAX_SIZE) {
       throw std::runtime_error("TensorPack size exceeds MAX_SIZE");
     }
     for (size_t i = 0; i < size; ++i) {
-      tensors[i] = reinterpret_cast<NVTETensor>(tensors_[i]);
+      tensors[i] = static_cast<NVTETensor>(tensors_[i]);
     }
     nvte_tensor_pack_create(this);
   }
+  operator std::vector<Tensor>() const {
+    std::vector<Tensor> tensors_(size);
+    for (size_t i = 0; i < size; ++i) {
+      tensors_[i] = static_cast<Tensor>(tensors[i]);
+    }
+    return tensors_;
+  }
   operator NVTETensorPack *() { return this; }
   operator const NVTETensorPack *() const { return this; }
   ~TensorPack() { nvte_tensor_pack_destroy(this); }
@@ -86,24 +105,6 @@ template <typename T> struct exposed_type {
 };
 
 template <typename T> struct wrapped;
-
-#define TO_INT64_T(...)                                                        \
-  template <> struct wrapped<__VA_ARGS__> : exposed_type<int64_t> {            \
-    static __VA_ARGS__ wrap(int64_t arg) { return (__VA_ARGS__)arg; }          \
-    static int64_t unwrap(__VA_ARGS__ arg) { return (int64_t)arg; }            \
-  }
-
-TO_INT64_T(char);
-TO_INT64_T(unsigned char);
-TO_INT64_T(signed char);
-TO_INT64_T(unsigned short);
-TO_INT64_T(signed short);
-TO_INT64_T(unsigned int);
-TO_INT64_T(signed int);
-TO_INT64_T(unsigned long);
-TO_INT64_T(signed long);
-TO_INT64_T(unsigned long long);
-
 template <typename T> struct wrapped : exposed_type<T> {
   static T wrap(T arg) { return arg; }
   static T unwrap(T arg) { return arg; }
@@ -115,58 +116,30 @@ template <> struct wrapped<void> : exposed_type<void> {
   // void type, while conversion
   // should be skipped for void return type.
 };
-template <> struct wrapped<float> : exposed_type<double> {
-  static float wrap(double arg) { return arg; }
-  static double unwrap(float arg) { return arg; }
-};
-template <> struct wrapped<NVTETensor> : exposed_type<int64_t> {
-  static int64_t wrap(NVTETensor arg) { return reinterpret_cast<int64_t>(arg); }
-  static NVTETensor unwrap(int64_t arg) {
-    return reinterpret_cast<NVTETensor>(arg);
-  }
+template <> struct wrapped<NVTETensor> : exposed_type<Tensor> {
+  static Tensor wrap(NVTETensor arg) { return static_cast<Tensor>(arg); }
+  static NVTETensor unwrap(Tensor arg) { return static_cast<NVTETensor>(arg); }
 };
 template <>
-struct wrapped<NVTETensorPack *> : exposed_type<std::vector<int64_t>> {
-  static TensorPack unwrap(const std::vector<int64_t> &arg) {
+struct wrapped<NVTETensorPack *> : exposed_type<std::vector<Tensor>> {
+  static TensorPack unwrap(const std::vector<Tensor> &arg) {
     return TensorPack(arg);
   }
 };
 template <>
-struct wrapped<const NVTETensorPack *> : exposed_type<std::vector<int64_t>> {
-  static TensorPack unwrap(const std::vector<int64_t> &arg) {
+struct wrapped<const NVTETensorPack *> : exposed_type<std::vector<Tensor>> {
+  static TensorPack unwrap(const std::vector<Tensor> &arg) {
     return TensorPack(arg);
   }
 };
-template <> struct wrapped<NVTEDType> : exposed_type<int64_t> {
-  static int64_t wrap(NVTEDType arg) { return int64_t(arg); }
-  static NVTEDType unwrap(int64_t arg) { return NVTEDType(arg); }
-};
-template <> struct wrapped<NVTE_Fused_Attn_Backend> : exposed_type<int64_t> {
-  static int64_t wrap(NVTE_Fused_Attn_Backend arg) { return int64_t(arg); }
-  static NVTE_Fused_Attn_Backend unwrap(int64_t arg) {
-    return NVTE_Fused_Attn_Backend(arg);
-  }
-};
-template <> struct wrapped<NVTE_QKV_Layout> : exposed_type<int64_t> {
-  static int64_t wrap(NVTE_QKV_Layout arg) { return int64_t(arg); }
-  static NVTE_QKV_Layout unwrap(int64_t arg) { return NVTE_QKV_Layout(arg); }
-};
-template <> struct wrapped<NVTE_Bias_Type> : exposed_type<int64_t> {
-  static int64_t wrap(NVTE_Bias_Type arg) { return int64_t(arg); }
-  static NVTE_Bias_Type unwrap(int64_t arg) { return NVTE_Bias_Type(arg); }
-};
-template <> struct wrapped<NVTE_Mask_Type> : exposed_type<int64_t> {
-  static int64_t wrap(NVTE_Mask_Type arg) { return int64_t(arg); }
-  static NVTE_Mask_Type unwrap(int64_t arg) { return NVTE_Mask_Type(arg); }
-};
-template <> struct wrapped<NVTEShape> : exposed_type<std::vector<int64_t>> {
-  static std::vector<int64_t> wrap(NVTEShape arg) {
-    return std::vector<int64_t>(arg.data, arg.data + arg.ndim);
+template <> struct wrapped<NVTEShape> : exposed_type<std::vector<size_t>> {
+  static std::vector<size_t> wrap(NVTEShape arg) {
+    return std::vector<size_t>(arg.data, arg.data + arg.ndim);
   }
-  static NVTEShape unwrap(const std::vector<int64_t> &arg) {
+  static NVTEShape unwrap(const std::vector<size_t> &arg) {
     NVTEShape shape{};
     shape.ndim = arg.size();
-    shape.data = (size_t *)arg.data();
+    shape.data = arg.data();
     return shape;
   }
 };
@@ -177,22 +150,22 @@ struct at_scope_exit {
   ~at_scope_exit() { ptr(); }
 };
 
+// Makes the cuda stream argument always be the last argument
 template <typename Ret, typename... PrefixArgs, typename... SuffixArgs,
           typename... Args>
-constexpr auto
-remove_cuda_stream_arg_helper(Ret(func)(Args...), type_list<PrefixArgs...>,
-                              type_list<SuffixArgs...>) noexcept {
+constexpr auto cuda_stream_arg_helper(Ret(func)(Args...),
+                                      type_list<PrefixArgs...>,
+                                      type_list<SuffixArgs...>) noexcept {
   return [func](wrapped_t<PrefixArgs>... prefixArgs,
-                wrapped_t<SuffixArgs>... suffixArgs) -> wrapped_t<Ret> {
+                wrapped_t<SuffixArgs>... suffixArgs,
+                cudaStream_t stream) -> wrapped_t<Ret> {
     at_scope_exit _{cuda_check};
     if constexpr (!std::is_same_v<Ret, void>) {
       return wrapped<Ret>::wrap(
-          func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
-               at::cuda::getCurrentCUDAStream(),
+          func(wrapped<PrefixArgs>::unwrap(prefixArgs)..., stream,
                wrapped<SuffixArgs>::unwrap(suffixArgs)...));
     } else {
-      return func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
-                  at::cuda::getCurrentCUDAStream(),
+      return func(wrapped<PrefixArgs>::unwrap(prefixArgs)..., stream,
                   wrapped<SuffixArgs>::unwrap(suffixArgs)...);
     }
   };
@@ -205,7 +178,7 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
     constexpr size_t stream_arg_idx = tl::template find<cudaStream_t>;
     using prefix = typename tl::template pop_back<tl::size - stream_arg_idx>;
     using suffix = typename tl::template pop_front<stream_arg_idx + 1>;
-    return remove_cuda_stream_arg_helper(func, prefix(), suffix());
+    return cuda_stream_arg_helper(func, prefix(), suffix());
   } else {
     return [func](wrapped_t<Args>... args) -> wrapped_t<Ret> {
       at_scope_exit _{cuda_check};
@@ -219,35 +192,63 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
 }
 
 // Manual wrapper around nvte_multi_cast_transpose
-void multi_cast_transpose(const std::vector<int64_t> &inputs,
-                          const std::vector<int64_t> &cast_outs,
-                          const std::vector<int64_t> &transposed_outs) {
+void multi_cast_transpose(const std::vector<Tensor> &inputs,
+                          const std::vector<Tensor> &cast_outs,
+                          const std::vector<Tensor> &transposed_outs,
+                          cudaStream_t stream) {
   auto inputs_ = *reinterpret_cast<const std::vector<NVTETensor> *>(&inputs);
   auto cast_outs_ =
       *reinterpret_cast<const std::vector<NVTETensor> *>(&cast_outs);
   auto transposed_outs_ =
       *reinterpret_cast<const std::vector<NVTETensor> *>(&transposed_outs);
   nvte_multi_cast_transpose(inputs_.size(), inputs_.data(), cast_outs_.data(),
-                            transposed_outs_.data(),
-                            at::cuda::getCurrentCUDAStream());
+                            transposed_outs_.data(), stream);
 
   cuda_check();
 }
 
 // ----------- Registration of torch.ops -----------
-TORCH_LIBRARY(transformer_engine_cuda, m) {
-  m.def("create_tensor",
-        wrap(+[](NVTEDType dtype, const std::vector<int64_t> &shape,
-                 at::Tensor data, at::Tensor amax, at::Tensor scale,
-                 at::Tensor scale_inv) -> NVTETensor {
-          return nvte_create_tensor(
-              getDataPtr(data),
-              NVTEShape{(size_t *)(shape.data()), shape.size()}, dtype,
-              getDataPtr(amax), getDataPtr(scale), getDataPtr(scale_inv));
-        }));
-  m.def("get_tensor_dtype", wrap(nvte_tensor_type));
-  m.def("get_tensor_shape", wrap(nvte_tensor_shape));
-  m.def("destroy_tensor", wrap(nvte_destroy_tensor));
+PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
+  py::enum_<NVTEDType>(m, "DType", py::module_local())
+      .value("Byte", kNVTEByte)
+      .value("Int32", kNVTEInt32)
+      .value("Int64", kNVTEInt64)
+      .value("Float32", kNVTEFloat32)
+      .value("Float16", kNVTEFloat16)
+      .value("BFloat16", kNVTEBFloat16)
+      .value("Float8E4M3", kNVTEFloat8E4M3)
+      .value("Float8E5M2", kNVTEFloat8E5M2);
+
+  py::enum_<NVTE_Fused_Attn_Backend>(m, "FusedAttnBackend", py::module_local())
+      .value("No_Backend", NVTE_No_Backend)
+      .value("F16_max512_seqlen", NVTE_F16_max512_seqlen)
+      .value("F16_arbitrary_seqlen", NVTE_F16_arbitrary_seqlen)
+      .value("FP8", NVTE_FP8);
+
+  py::enum_<NVTE_QKV_Layout>(m, "QKVLayout", py::module_local())
+      .value("NOT_INTERLEAVED", NVTE_NOT_INTERLEAVED)
+      .value("QKV_INTERLEAVED", NVTE_QKV_INTERLEAVED)
+      .value("KV_INTERLEAVED", NVTE_KV_INTERLEAVED);
+
+  py::enum_<NVTE_Bias_Type>(m, "BiasType", py::module_local())
+      .value("NO_BIAS", NVTE_NO_BIAS)
+      .value("PRE_SCALE_BIAS", NVTE_PRE_SCALE_BIAS)
+      .value("POST_SCALE_BIAS", NVTE_POST_SCALE_BIAS);
+
+  py::enum_<NVTE_Mask_Type>(m, "MaskType", py::module_local())
+      .value("NO_MASK", NVTE_NO_MASK)
+      .value("PADDING_MASK", NVTE_PADDING_MASK)
+      .value("CAUSAL_MASK", NVTE_CAUSAL_MASK);
+
+  py::class_<Tensor>(m, "Tensor", py::module_local())
+      .def(py::init<void *, const NVTEShape &, NVTEDType, float *, float *,
+                    float *>())
+      .def_property_readonly("dtype", &Tensor::dtype)
+      .def_property_readonly("shape", &Tensor::shape)
+      .def_property_readonly("data", &Tensor::data)
+      .def_property_readonly("amax", &Tensor::amax)
+      .def_property_readonly("scale", &Tensor::scale)
+      .def_property_readonly("scale_inv", &Tensor::scale_inv);
 
   m.def("gelu", wrap(nvte_gelu));
   m.def("dgelu", wrap(nvte_dgelu));

From 01b9d3998e61983c024cc3acff4f8c3ca72b9e15 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 17:30:08 +0200
Subject: [PATCH 280/535] decrease binary size

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/setup.py b/setup.py
index 54213b6577..4f0628fded 100644
--- a/setup.py
+++ b/setup.py
@@ -484,7 +484,7 @@ def setup_pytorch_extension() -> setuptools.Extension:
     ]
 
     # Compiler flags
-    cxx_flags = ["-O3"]
+    cxx_flags = ["-O3", "-fvisibility=hidden"]
     nvcc_flags = [
         "-O3",
         "-gencode",
@@ -551,7 +551,7 @@ def setup_sequential_extension() -> setuptools.Extension:
     ]
 
     # Compiler flags
-    cxx_flags = ["-O3"]
+    cxx_flags = ["-O3", "-fvisibility=hidden"]
     nvcc_flags = [
         "-O3",
         "-gencode",
@@ -622,7 +622,7 @@ def setup_paddle_extension() -> setuptools.Extension:
     ]
 
     # Compiler flags
-    cxx_flags = ["-O3"]
+    cxx_flags = ["-O3", "-fvisibility=hidden"]
     nvcc_flags = [
         "-O3",
         "-gencode",

From 22dab5d4edca698723d33d87b9a11399ca44d4e4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 17:40:25 +0200
Subject: [PATCH 281/535] fix compile errors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp          | 15 +++++----------
 1 file changed, 5 insertions(+), 10 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 21a3048364..61a0e45199 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -12,6 +12,7 @@
 #include <cuda_runtime.h>
 #include <exception>
 #include <memory>
+#include <pybind11/pybind11.h>
 #include <stdexcept>
 #include <transformer_engine/activation.h>
 #include <transformer_engine/cast.h>
@@ -52,11 +53,12 @@ class Tensor {
   NVTETensor tensor;
 
 public:
+  Tensor() : tensor{nullptr} {}
   Tensor(void *data, const NVTEShape &shape, NVTEDType dtype, float *amax,
          float *scale, float *scale_inv)
-      : tensor{nvte_tensor_create(data, shape, dtype, amax, scale, scale_inv)} {
+      : tensor{nvte_create_tensor(data, shape, dtype, amax, scale, scale_inv)} {
   }
-  Tensor(NVTETensor &&tensor_) : tensor{std::exchange{tensor_, nullptr}} {}
+  Tensor(NVTETensor &&tensor_) : tensor{std::exchange(tensor_, nullptr)} {}
   Tensor(Tensor &&other) noexcept
       : tensor{std::exchange(other.tensor, nullptr)} {}
   Tensor(const Tensor &) = delete;
@@ -64,7 +66,7 @@ class Tensor {
   Tensor &operator=(Tensor &&) = delete;
   ~Tensor() {
     if (tensor)
-      nvte_tensor_destroy(tensor);
+      nvte_destroy_tensor(tensor);
   }
   operator NVTETensor() const { return tensor; }
   NVTEDType dtype() const { return nvte_tensor_type(tensor); }
@@ -87,13 +89,6 @@ struct TensorPack : NVTETensorPack {
     }
     nvte_tensor_pack_create(this);
   }
-  operator std::vector<Tensor>() const {
-    std::vector<Tensor> tensors_(size);
-    for (size_t i = 0; i < size; ++i) {
-      tensors_[i] = static_cast<Tensor>(tensors[i]);
-    }
-    return tensors_;
-  }
   operator NVTETensorPack *() { return this; }
   operator const NVTETensorPack *() const { return this; }
   ~TensorPack() { nvte_tensor_pack_destroy(this); }

From 9bcd1e132945f6a0c60a133464a9e857223c497f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 18:01:50 +0200
Subject: [PATCH 282/535] fix compile errors

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp      | 94 +++++++++++--------
 1 file changed, 56 insertions(+), 38 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 61a0e45199..6f48d9026a 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -50,31 +50,42 @@ void cuda_check() {
 }
 
 class Tensor {
-  NVTETensor tensor;
+  static_assert(std::is_same_v<NVTETensor, void *>);
+  std::shared_ptr<void> tensor;
 
-public:
-  Tensor() : tensor{nullptr} {}
-  Tensor(void *data, const NVTEShape &shape, NVTEDType dtype, float *amax,
-         float *scale, float *scale_inv)
-      : tensor{nvte_create_tensor(data, shape, dtype, amax, scale, scale_inv)} {
-  }
-  Tensor(NVTETensor &&tensor_) : tensor{std::exchange(tensor_, nullptr)} {}
-  Tensor(Tensor &&other) noexcept
-      : tensor{std::exchange(other.tensor, nullptr)} {}
-  Tensor(const Tensor &) = delete;
-  Tensor &operator=(const Tensor &) = delete;
-  Tensor &operator=(Tensor &&) = delete;
-  ~Tensor() {
+  static void destroy(void *tensor) {
     if (tensor)
       nvte_destroy_tensor(tensor);
   }
-  operator NVTETensor() const { return tensor; }
-  NVTEDType dtype() const { return nvte_tensor_type(tensor); }
-  NVTEShape shape() const { return nvte_tensor_shape(tensor); }
-  void *data() const { return nvte_tensor_data(tensor); }
-  float *amax() const { return nvte_tensor_amax(tensor); }
-  float *scale() const { return nvte_tensor_scale(tensor); }
-  float *scale_inv() const { return nvte_tensor_scale_inv(tensor); }
+
+public:
+  Tensor() : tensor{nullptr, destroy} {}
+  Tensor(size_t data, const NVTEShape &shape, NVTEDType dtype, size_t amax,
+         size_t scale, size_t scale_inv)
+      : tensor{nvte_create_tensor(reinterpret_cast<void *>(data), shape, dtype,
+                                  reinterpret_cast<float *>(amax),
+                                  reinterpret_cast<float *>(scale),
+                                  reinterpret_cast<float *>(scale_inv)),
+               destroy} {}
+  Tensor(const Tensor &other) = default;
+  Tensor(Tensor &&other) = default;
+  Tensor &operator=(const Tensor &other) = default;
+  Tensor &operator=(Tensor &&other) = default;
+  operator NVTETensor() const { return tensor.get(); }
+  NVTEDType dtype() const { return nvte_tensor_type(tensor.get()); }
+  NVTEShape shape() const { return nvte_tensor_shape(tensor.get()); }
+  size_t data_ptr() const {
+    return reinterpret_cast<size_t>(nvte_tensor_data(tensor.get()));
+  }
+  size_t amax_ptr() const {
+    return reinterpret_cast<size_t>(nvte_tensor_amax(tensor.get()));
+  }
+  size_t scale_ptr() const {
+    return reinterpret_cast<size_t>(nvte_tensor_scale(tensor.get()));
+  }
+  size_t scale_inv_ptr() const {
+    return reinterpret_cast<size_t>(nvte_tensor_scale_inv(tensor.get()));
+  }
 };
 
 // ----------- Wrapper for NVTETensorPack -----------
@@ -153,14 +164,16 @@ constexpr auto cuda_stream_arg_helper(Ret(func)(Args...),
                                       type_list<SuffixArgs...>) noexcept {
   return [func](wrapped_t<PrefixArgs>... prefixArgs,
                 wrapped_t<SuffixArgs>... suffixArgs,
-                cudaStream_t stream) -> wrapped_t<Ret> {
+                size_t stream) -> wrapped_t<Ret> {
     at_scope_exit _{cuda_check};
     if constexpr (!std::is_same_v<Ret, void>) {
       return wrapped<Ret>::wrap(
-          func(wrapped<PrefixArgs>::unwrap(prefixArgs)..., stream,
+          func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
+               static_cast<cudaStream_t>(stream),
                wrapped<SuffixArgs>::unwrap(suffixArgs)...));
     } else {
-      return func(wrapped<PrefixArgs>::unwrap(prefixArgs)..., stream,
+      return func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
+                  static_cast<cudaStream_t>(stream),
                   wrapped<SuffixArgs>::unwrap(suffixArgs)...);
     }
   };
@@ -190,14 +203,19 @@ constexpr auto wrap(Ret(func)(Args...)) noexcept {
 void multi_cast_transpose(const std::vector<Tensor> &inputs,
                           const std::vector<Tensor> &cast_outs,
                           const std::vector<Tensor> &transposed_outs,
-                          cudaStream_t stream) {
-  auto inputs_ = *reinterpret_cast<const std::vector<NVTETensor> *>(&inputs);
-  auto cast_outs_ =
-      *reinterpret_cast<const std::vector<NVTETensor> *>(&cast_outs);
-  auto transposed_outs_ =
-      *reinterpret_cast<const std::vector<NVTETensor> *>(&transposed_outs);
-  nvte_multi_cast_transpose(inputs_.size(), inputs_.data(), cast_outs_.data(),
-                            transposed_outs_.data(), stream);
+                          size_t stream) {
+  auto count = inputs.size();
+  std::vector<NVTETensor> inputs_(count);
+  std::vector<NVTETensor> cast_outs_(count);
+  std::vector<NVTETensor> transposed_outs_(count);
+  for (int i = 0; i < inputs.size(); ++i) {
+    inputs_[i] = static_cast<NVTETensor>(inputs[i]);
+    cast_outs_[i] = static_cast<NVTETensor>(cast_outs[i]);
+    transposed_outs_[i] = static_cast<NVTETensor>(transposed_outs[i]);
+  }
+  nvte_multi_cast_transpose(count, inputs_.data(), cast_outs_.data(),
+                            transposed_outs_.data(),
+                            static_cast<cudaStream_t>(stream));
 
   cuda_check();
 }
@@ -236,14 +254,14 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
       .value("CAUSAL_MASK", NVTE_CAUSAL_MASK);
 
   py::class_<Tensor>(m, "Tensor", py::module_local())
-      .def(py::init<void *, const NVTEShape &, NVTEDType, float *, float *,
-                    float *>())
+      .def(py::init<size_t, const NVTEShape &, NVTEDType, size_t, size_t,
+                    size_t>())
       .def_property_readonly("dtype", &Tensor::dtype)
       .def_property_readonly("shape", &Tensor::shape)
-      .def_property_readonly("data", &Tensor::data)
-      .def_property_readonly("amax", &Tensor::amax)
-      .def_property_readonly("scale", &Tensor::scale)
-      .def_property_readonly("scale_inv", &Tensor::scale_inv);
+      .def_property_readonly("data_ptr", &Tensor::data_ptr)
+      .def_property_readonly("amax_ptr", &Tensor::amax_ptr)
+      .def_property_readonly("scale_ptr", &Tensor::scale_ptr)
+      .def_property_readonly("scale_inv_ptr", &Tensor::scale_inv_ptr);
 
   m.def("gelu", wrap(nvte_gelu));
   m.def("dgelu", wrap(nvte_dgelu));

From 5050f961da84d2c3f4a45c359be6186e1cf823ee Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 18:12:11 +0200
Subject: [PATCH 283/535] fiz compilation

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cppsrc/pybind.cpp      | 20 +++++++++----------
 1 file changed, 10 insertions(+), 10 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 6f48d9026a..008a16b080 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -28,7 +28,6 @@
 
 #include "type_list.h"
 
-// ----------- Wrapper for NVTETensor -----------
 void cuda_check() {
   static const bool perform_check = []() {
     const char *var = std::getenv("CUDA_LAUNCH_BLOCKING");
@@ -49,6 +48,7 @@ void cuda_check() {
   }
 }
 
+// ----------- Wrapper for NVTETensor -----------
 class Tensor {
   static_assert(std::is_same_v<NVTETensor, void *>);
   std::shared_ptr<void> tensor;
@@ -123,7 +123,6 @@ template <> struct wrapped<void> : exposed_type<void> {
   // should be skipped for void return type.
 };
 template <> struct wrapped<NVTETensor> : exposed_type<Tensor> {
-  static Tensor wrap(NVTETensor arg) { return static_cast<Tensor>(arg); }
   static NVTETensor unwrap(Tensor arg) { return static_cast<NVTETensor>(arg); }
 };
 template <>
@@ -169,11 +168,11 @@ constexpr auto cuda_stream_arg_helper(Ret(func)(Args...),
     if constexpr (!std::is_same_v<Ret, void>) {
       return wrapped<Ret>::wrap(
           func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
-               static_cast<cudaStream_t>(stream),
+               reinterpret_cast<cudaStream_t>(stream),
                wrapped<SuffixArgs>::unwrap(suffixArgs)...));
     } else {
       return func(wrapped<PrefixArgs>::unwrap(prefixArgs)...,
-                  static_cast<cudaStream_t>(stream),
+                  reinterpret_cast<cudaStream_t>(stream),
                   wrapped<SuffixArgs>::unwrap(suffixArgs)...);
     }
   };
@@ -215,12 +214,13 @@ void multi_cast_transpose(const std::vector<Tensor> &inputs,
   }
   nvte_multi_cast_transpose(count, inputs_.data(), cast_outs_.data(),
                             transposed_outs_.data(),
-                            static_cast<cudaStream_t>(stream));
+                            reinterpret_cast<cudaStream_t>(stream));
 
   cuda_check();
 }
 
-// ----------- Registration of torch.ops -----------
+// ----------- Registration of module -----------
+namespace py = pybind11;
 PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
   py::enum_<NVTEDType>(m, "DType", py::module_local())
       .value("Byte", kNVTEByte)
@@ -258,10 +258,10 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
                     size_t>())
       .def_property_readonly("dtype", &Tensor::dtype)
       .def_property_readonly("shape", &Tensor::shape)
-      .def_property_readonly("data_ptr", &Tensor::data_ptr)
-      .def_property_readonly("amax_ptr", &Tensor::amax_ptr)
-      .def_property_readonly("scale_ptr", &Tensor::scale_ptr)
-      .def_property_readonly("scale_inv_ptr", &Tensor::scale_inv_ptr);
+      .def("data_ptr", &Tensor::data_ptr)
+      .def("amax_ptr", &Tensor::amax_ptr)
+      .def("scale_ptr", &Tensor::scale_ptr)
+      .def("scale_inv_ptr", &Tensor::scale_inv_ptr);
 
   m.def("gelu", wrap(nvte_gelu));
   m.def("dgelu", wrap(nvte_dgelu));

From 770846bf2c064e69e94c242965c4dd272162d628 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 19:54:10 +0200
Subject: [PATCH 284/535] update py load code

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.pyi    | 15 ++-
 .../sequential/cpp_extensions/dynamic_load.py | 92 +++++++++++++++++++
 .../pytorch/sequential/cpp_extensions/real.py | 76 ---------------
 .../sequential/cpp_extensions/tensor.py       | 69 ++++++++++++++
 4 files changed, 171 insertions(+), 81 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
 delete mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/real.py
 create mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/tensor.py

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index ab14368c91..3599f50576 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -34,6 +34,15 @@ class DType(Enum):
     Float8E4M3 = 6
     Float8E5M2 = 7
 
+class RawTensor:
+    dtype: DType
+    shape: Sequence[int]
+    def data_ptr(self) -> int: ...
+    def amax_ptr(self) -> int: ...
+    def scale_ptr(self) -> int: ...
+    def scale_inv_ptr(self) -> int: ...
+    def __init__(self, data_ptr: int, shape: Sequence[int], dtype: DType, amax_ptr: int, scale_ptr: int, scale_inv_ptr: int) -> None: ...
+
 class Tensor:
     dtype: DType
     shape: Sequence[int]
@@ -41,13 +50,9 @@ class Tensor:
     amax: torch.Tensor
     scale: torch.Tensor
     scale_inv: torch.Tensor
+    def data_ptr(self) -> int: ...
     def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
 
-def create_tensor(dtype: DType, shape: Sequence[int], data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> Tensor: ...
-def get_tensor_dtype(self: Tensor) -> DType: ...
-def get_tensor_shape(self: Tensor) -> Sequence[int]: ...
-def destroy_tensor(self: Tensor) -> None: ...
-
 def gelu(input: Tensor, output: Tensor) -> None: ...
 def dgelu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
 def geglu(input: Tensor, output: Tensor) -> None: ...
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
new file mode 100644
index 0000000000..63c2d8a776
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -0,0 +1,92 @@
+import functools
+import inspect
+from types import ModuleType
+from typing import Any, Callable, TypeVar
+from ..utils import import_file_as_module, get_arg_types
+import torch
+import re
+
+_T1 = TypeVar("_T1")
+_T2 = TypeVar("_T2")
+
+
+def _to_dict(l: list[tuple[_T1, _T2]], /) -> dict[_T1, _T2]:
+    return {t[0]: t[1] for t in l}
+
+
+def _get_stub_module():
+    return import_file_as_module("__init__.pyi")
+
+
+def _get_real_module() -> ModuleType:
+    import transformer_engine_cuda  # type: ignore
+
+    return transformer_engine_cuda
+
+
+def _this_module():
+    import sys
+
+    return sys.modules[__name__]
+
+
+def _name_resolution(name: str) -> Any:
+    namespaces = name.split(".")
+    result = _this_module()
+    for name in namespaces:
+        result = getattr(result, name)
+    return result
+
+
+def _get_real_func_arg_types(func: Callable[..., Any]):
+    assert func.__doc__ is not None
+    type_names: list[str] = re.split(r"[\(\),: ]", func.__doc__)[3:-2:4]
+    types = [_name_resolution(name) for name in type_names]
+    assert all(isinstance(t, type) for t in types)
+    types: list[type]
+    return types
+
+
+def _wrap_function(real_func: Callable[..., Any]):
+    Tensor = transformer_engine_cuda.Tensor  # type: ignore
+
+    @functools.wraps(real_func)
+    def wrapper(*args: Any):
+        real_args = [arg if not isinstance(arg, Tensor) else arg.__raw for arg in args]
+        return real_func(*real_args, torch.cuda.current_stream().cuda_stream)
+
+    return wrapper
+
+
+def inject_real(namespace: dict[str, Any]):
+    stub = _get_stub_module()
+    real = _get_real_module()
+
+    stub_functions = _to_dict(inspect.getmembers(stub, inspect.isfunction))
+    real_functions = _to_dict(inspect.getmembers(real, inspect.isfunction))
+
+    for func_name, func_obj in stub_functions.items():
+        if func_name not in real_functions:
+            raise RuntimeError(
+                f"Function {func_name} declared in {stub} not found in {real}"
+            )
+        stub_arg_types = get_arg_types(func_obj)
+        real_arg_types = _get_real_func_arg_types(real_functions[func_name])
+        if stub_arg_types != real_arg_types:
+            raise RuntimeError(
+                f"Function {func_name} implementation in {real} inconsistent with stub in {stub}"
+            )
+        namespace[func_name] = _wrap_function(real_functions[func_name])
+
+    stub_types = _to_dict(inspect.getmembers(stub, inspect.isclass))
+    real_types = _to_dict(inspect.getmembers(real, inspect.isclass))
+
+    for type_name, _ in stub_types.items():
+        if type_name not in real_types:
+            raise RuntimeError(
+                f"Type {type_name} declared in {stub} not found in {real}"
+            )
+        if type_name == "Tensor":
+            namespace["RawTensor"] = real_types["Tensor"]
+        else:
+            namespace[type_name] = real_types[type_name]
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/real.py b/transformer_engine/pytorch/sequential/cpp_extensions/real.py
deleted file mode 100644
index e1892aff75..0000000000
--- a/transformer_engine/pytorch/sequential/cpp_extensions/real.py
+++ /dev/null
@@ -1,76 +0,0 @@
-from enum import Enum
-import inspect
-from typing import Any, Callable
-from ..utils import import_file_as_module, get_return_type
-import torch
-from torch._ops import OpOverloadPacket, _OpNamespace  # type: ignore
-
-try:
-    # Normally, torch.classes.load_library would be used
-    # to load the classes from the module.
-    # However, that requires knowing where the module is.
-    # A simpler way is to just import it.
-    import transformer_engine_cuda  # type: ignore
-except:
-    # The import will always fail, as torch libraries
-    # are not supposed to be imported directly.
-    # However, it does achieve the effect of loading the classes.
-    pass
-
-
-def inject_real(namespace: dict[str, Any]):
-    stub = import_file_as_module("__init__.pyi")
-    from typing import TypeVar, Any
-
-    T1 = TypeVar("T1")
-    T2 = TypeVar("T2")
-
-    def to_dict(l: list[tuple[T1, T2]], /) -> dict[T1, T2]:
-        return {t[0]: t[1] for t in l}
-
-    stub_functions = to_dict(inspect.getmembers(stub, inspect.isfunction))
-    stub_types = to_dict(inspect.getmembers(stub, inspect.isclass))
-    enum_names = {
-        type_name
-        for type_name, type_obj in stub_types.items()
-        if issubclass(type_obj, Enum)
-    }
-
-    function_ns = torch.ops.transformer_engine_cuda  # type: ignore
-    assert isinstance(function_ns, _OpNamespace)
-
-    real_function: Callable[[str], OpOverloadPacket] = lambda name: getattr(
-        function_ns, name
-    )
-
-    for enum_name in enum_names:
-        namespace[enum_name] = stub_types[enum_name]
-
-    for func_name, func_obj in stub_functions.items():
-        exposed_return_type: type = get_return_type(func_obj)
-
-        def make_wrapper(real_func: Any):
-            def wrapper(*args: Any) -> Any:
-                real_args = ()
-                for arg in args:
-                    if isinstance(arg, Enum):
-                        real_args += (arg.value,)
-                    else:
-                        real_args += (arg,)
-                result: Any = real_func(*real_args)
-                if issubclass(exposed_return_type, Enum):
-                    assert isinstance(result, int)
-                    return exposed_return_type(result)  # type: ignore
-                else:
-                    return result
-
-            return wrapper
-
-        wrapper = make_wrapper(real_function(func_name))
-
-        wrapper.__name__ = func_name
-        wrapper.__annotations__ = func_obj.__annotations__
-        namespace[func_name] = wrapper
-
-
-inject_real(globals())
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/tensor.py b/transformer_engine/pytorch/sequential/cpp_extensions/tensor.py
new file mode 100644
index 0000000000..03d84db4f6
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/tensor.py
@@ -0,0 +1,69 @@
+from __future__ import annotations
+from typing import TYPE_CHECKING
+from .all_fp8_values import ALL_FP8E4M3_VALUES, ALL_FP8E5M2_VALUES
+
+import torch
+
+if TYPE_CHECKING:
+    from . import *  # type: ignore
+
+
+class Tensor:
+    __raw: RawTensor
+    data: torch.Tensor
+    amax: torch.Tensor
+    scale: torch.Tensor
+    scale_inv: torch.Tensor
+
+    def __init__(
+        self,
+        dtype: DType,
+        data: torch.Tensor,
+        amax: torch.Tensor,
+        scale: torch.Tensor,
+        scale_inv: torch.Tensor,
+    ):
+        self.__raw = RawTensor(
+            data.data_ptr(),
+            data.shape,
+            dtype,
+            amax.data_ptr(),
+            scale.data_ptr(),
+            scale_inv.data_ptr(),
+        )
+        self.data = data
+        self.amax = amax
+        self.scale = scale
+        self.scale_inv = scale_inv
+
+    def data_ptr(self):
+        return self.data.data_ptr()
+
+    @property
+    def dtype(self):
+        return self.__raw.dtype
+
+    @property
+    def shape(self):
+        return self.__raw.shape
+
+    def __repr__(self):
+        if self.dtype == DType.Float8E4M3 or DType.Float8E5M2:
+            conv_table = (
+                torch.tensor(ALL_FP8E4M3_VALUES, device="cpu")
+                if self.dtype == DType.Float8E4M3
+                else torch.tensor(ALL_FP8E5M2_VALUES, device="cpu")
+            )
+            fp32_values = conv_table[self.data.cpu().int()]
+            data_repr = repr(fp32_values)
+        else:
+            data_repr = repr(self.data)
+        data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1]
+        data_repr = "T" + data_repr[1:]
+        return f"""\
+{data_repr},
+    dtype={self.dtype.name},\
+amax={self.amax[0].item() if self.amax.numel() else None},\
+scale={self.scale.item() if self.scale.numel() else None},\
+scale_inv={self.scale_inv.item() if self.scale_inv.numel() else None}\
+)"""

From 36779569a4060414eafe5a15323bece97c8e0337 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 19:56:57 +0200
Subject: [PATCH 285/535] update init

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 80 +------------------
 1 file changed, 3 insertions(+), 77 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index ce36e5a8c9..33118b1688 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,80 +1,6 @@
-# type: ignore
 from __future__ import annotations
-from typing import Sequence
-from .real import *
+from .dynamic_load import inject_real
 
-from .all_fp8_values import ALL_FP8E4M3_VALUES, ALL_FP8E5M2_VALUES
+inject_real(globals())
 
-
-# Quacks like a Tensor. </joke>
-# Note: cannot inherit from _Tensor as
-# it is a torch.ScriptClass, and those,
-# for some reason, do not support being
-# inherited from.
-# Also, having to use free functions
-# as ScriptClass methods are not
-# torch.compile friendly.
-class Tensor:
-    handle: object
-    data: torch.Tensor
-    amax: torch.Tensor
-    scale: torch.Tensor
-    scale_inv: torch.Tensor
-
-    def __init__(
-        self,
-        dtype: Enum,
-        data: torch.Tensor,
-        amax: torch.Tensor,
-        scale: torch.Tensor,
-        scale_inv: torch.Tensor,
-    ):
-        # Torch.compile doesn't like these TODO
-        # assert data.is_cuda and data.is_contiguous()
-        # assert amax.is_cuda and amax.is_contiguous()
-        # assert scale.is_cuda and scale.is_contiguous()
-        # assert scale_inv.is_cuda and scale_inv.is_contiguous()
-
-        self.handle = create_tensor(
-            dtype.value, data.shape, data, amax, scale, scale_inv
-        )
-
-        self.data = data
-        self.amax = amax
-        self.scale = scale
-        self.scale_inv = scale_inv
-
-    @property
-    def dtype(self) -> DType:
-        return get_tensor_dtype(self.handle)
-
-    @property
-    def shape(self) -> Sequence[int]:
-        return get_tensor_shape(self.handle)
-
-    def __repr__(self) -> str:
-        if self.dtype == DType.Float8E4M3 or DType.Float8E5M2:
-            conv_table = (
-                torch.tensor(ALL_FP8E4M3_VALUES, device="cpu")
-                if self.dtype == DType.Float8E4M3
-                else torch.tensor(ALL_FP8E5M2_VALUES, device="cpu")
-            )
-            fp32_values = conv_table[self.data.cpu().int()]
-            data_repr = repr(fp32_values)
-        else:
-            data_repr = repr(self.data)
-        data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1]
-        data_repr = "T" + data_repr[1:]
-        return f"""\
-{data_repr},
-    dtype={self.dtype.name},\
-amax={self.amax[0].item() if self.amax.numel() else None},\
-scale={self.scale.item() if self.scale.numel() else None},\
-scale_inv={self.scale_inv.item() if self.scale_inv.numel() else None}\
-)"""
-
-    def __del__(self):
-        try:
-            destroy_tensor(self.handle)
-        except AttributeError:
-            pass
+from .tensor import Tensor

From 92ea1d2b6422a6484dc5dbc9b072d15c7072a19f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 19:59:45 +0200
Subject: [PATCH 286/535] fix check

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py           | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index 63c2d8a776..b9d0064b34 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -63,7 +63,7 @@ def inject_real(namespace: dict[str, Any]):
     real = _get_real_module()
 
     stub_functions = _to_dict(inspect.getmembers(stub, inspect.isfunction))
-    real_functions = _to_dict(inspect.getmembers(real, inspect.isfunction))
+    real_functions = _to_dict(inspect.getmembers(real, inspect.isroutine))
 
     for func_name, func_obj in stub_functions.items():
         if func_name not in real_functions:

From 357d64f62c0104ac9735ce33fefc65a19760e2ed Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:01:34 +0200
Subject: [PATCH 287/535] fix name resolution

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py          | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index b9d0064b34..ac6a46131b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -5,6 +5,7 @@
 from ..utils import import_file_as_module, get_arg_types
 import torch
 import re
+import transformer_engine_cuda  # type: ignore
 
 _T1 = TypeVar("_T1")
 _T2 = TypeVar("_T2")
@@ -19,8 +20,6 @@ def _get_stub_module():
 
 
 def _get_real_module() -> ModuleType:
-    import transformer_engine_cuda  # type: ignore
-
     return transformer_engine_cuda
 
 

From 4859a845843406abd864ad502f00bf2a35d17a71 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:03:03 +0200
Subject: [PATCH 288/535] fix eval

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py       | 6 ++++++
 1 file changed, 6 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index ac6a46131b..39067bde03 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -5,6 +5,7 @@
 from ..utils import import_file_as_module, get_arg_types
 import torch
 import re
+import ast
 import transformer_engine_cuda  # type: ignore
 
 _T1 = TypeVar("_T1")
@@ -30,6 +31,11 @@ def _this_module():
 
 
 def _name_resolution(name: str) -> Any:
+    try:
+        return ast.literal_eval(name)
+    except ValueError:
+        pass
+
     namespaces = name.split(".")
     result = _this_module()
     for name in namespaces:

From e3d58f02ae0183eefd0e51c39e2a75b92a5ce8bc Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:04:49 +0200
Subject: [PATCH 289/535] simplify dynamic_load

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/dynamic_load.py | 48 ++-----------------
 1 file changed, 3 insertions(+), 45 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index 39067bde03..3445f58339 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -16,42 +16,6 @@ def _to_dict(l: list[tuple[_T1, _T2]], /) -> dict[_T1, _T2]:
     return {t[0]: t[1] for t in l}
 
 
-def _get_stub_module():
-    return import_file_as_module("__init__.pyi")
-
-
-def _get_real_module() -> ModuleType:
-    return transformer_engine_cuda
-
-
-def _this_module():
-    import sys
-
-    return sys.modules[__name__]
-
-
-def _name_resolution(name: str) -> Any:
-    try:
-        return ast.literal_eval(name)
-    except ValueError:
-        pass
-
-    namespaces = name.split(".")
-    result = _this_module()
-    for name in namespaces:
-        result = getattr(result, name)
-    return result
-
-
-def _get_real_func_arg_types(func: Callable[..., Any]):
-    assert func.__doc__ is not None
-    type_names: list[str] = re.split(r"[\(\),: ]", func.__doc__)[3:-2:4]
-    types = [_name_resolution(name) for name in type_names]
-    assert all(isinstance(t, type) for t in types)
-    types: list[type]
-    return types
-
-
 def _wrap_function(real_func: Callable[..., Any]):
     Tensor = transformer_engine_cuda.Tensor  # type: ignore
 
@@ -64,23 +28,17 @@ def wrapper(*args: Any):
 
 
 def inject_real(namespace: dict[str, Any]):
-    stub = _get_stub_module()
-    real = _get_real_module()
+    stub = import_file_as_module("__init__.pyi")
+    real = transformer_engine_cuda
 
     stub_functions = _to_dict(inspect.getmembers(stub, inspect.isfunction))
     real_functions = _to_dict(inspect.getmembers(real, inspect.isroutine))
 
-    for func_name, func_obj in stub_functions.items():
+    for func_name, _ in stub_functions.items():
         if func_name not in real_functions:
             raise RuntimeError(
                 f"Function {func_name} declared in {stub} not found in {real}"
             )
-        stub_arg_types = get_arg_types(func_obj)
-        real_arg_types = _get_real_func_arg_types(real_functions[func_name])
-        if stub_arg_types != real_arg_types:
-            raise RuntimeError(
-                f"Function {func_name} implementation in {real} inconsistent with stub in {stub}"
-            )
         namespace[func_name] = _wrap_function(real_functions[func_name])
 
     stub_types = _to_dict(inspect.getmembers(stub, inspect.isclass))

From 54ec65f5a5ff08cc1c1261d1c9329c648ec4eb1c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:06:43 +0200
Subject: [PATCH 290/535] dont export imported names from stub file

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.pyi           | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 3599f50576..0c1aeb24f6 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -89,4 +89,7 @@ def cast_transpose_dbias(input: Tensor, cast_output: Tensor, transposed_output:
 def fp8_transpose_dbias(input: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
 def cast_transpose_dbias_dgelu(input: Tensor, gelu_input: Tensor, cast_output: Tensor, transposed_output: Tensor, dbias: Tensor, workspace: Tensor) -> None: ...
 def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tensor, transposed_output: Tensor) -> None: ...
-def multi_cast_transpose(input_list: Sequence[Tensor], cast_output_list: Sequence[Tensor], transposed_output_list: Sequence[Tensor]) -> None: ...
\ No newline at end of file
+def multi_cast_transpose(input_list: Sequence[Tensor], cast_output_list: Sequence[Tensor], transposed_output_list: Sequence[Tensor]) -> None: ...
+
+# Don't export these names (this stub file gets loaded as a real python module)
+del __future__, annotations, torch, enum, Enum, typing, equence # type: ignore
\ No newline at end of file

From dff1be3f58264d630708346d242b5764e8d02419 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:07:50 +0200
Subject: [PATCH 291/535] dont delete future as it isnt a real module

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.pyi              | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 0c1aeb24f6..e30169394b 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -92,4 +92,4 @@ def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tenso
 def multi_cast_transpose(input_list: Sequence[Tensor], cast_output_list: Sequence[Tensor], transposed_output_list: Sequence[Tensor]) -> None: ...
 
 # Don't export these names (this stub file gets loaded as a real python module)
-del __future__, annotations, torch, enum, Enum, typing, equence # type: ignore
\ No newline at end of file
+del annotations, torch, enum, Enum, typing, equence # type: ignore
\ No newline at end of file

From 12329a642b7d3082eda29082adfb2d0637a3739f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:08:51 +0200
Subject: [PATCH 292/535] delete names

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.pyi              | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index e30169394b..6972db7acf 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -92,4 +92,4 @@ def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tenso
 def multi_cast_transpose(input_list: Sequence[Tensor], cast_output_list: Sequence[Tensor], transposed_output_list: Sequence[Tensor]) -> None: ...
 
 # Don't export these names (this stub file gets loaded as a real python module)
-del annotations, torch, enum, Enum, typing, equence # type: ignore
\ No newline at end of file
+del annotations, torch, Enum, Sequence # type: ignore
\ No newline at end of file

From 26ca103c0a7e834a65b191d8149fb7d58438c979 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:09:53 +0200
Subject: [PATCH 293/535] fix if

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py     | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index 3445f58339..b60fb4c276 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -45,11 +45,11 @@ def inject_real(namespace: dict[str, Any]):
     real_types = _to_dict(inspect.getmembers(real, inspect.isclass))
 
     for type_name, _ in stub_types.items():
-        if type_name not in real_types:
-            raise RuntimeError(
-                f"Type {type_name} declared in {stub} not found in {real}"
-            )
         if type_name == "Tensor":
             namespace["RawTensor"] = real_types["Tensor"]
         else:
+            if type_name not in real_types:
+                raise RuntimeError(
+                    f"Type {type_name} declared in {stub} not found in {real}"
+                )
             namespace[type_name] = real_types[type_name]

From 26f13ac000b2c3fdccf440909790fcf49a9b3d1a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:10:50 +0200
Subject: [PATCH 294/535] fix if

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py         | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index b60fb4c276..0de94a906c 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -45,8 +45,10 @@ def inject_real(namespace: dict[str, Any]):
     real_types = _to_dict(inspect.getmembers(real, inspect.isclass))
 
     for type_name, _ in stub_types.items():
-        if type_name == "Tensor":
+        if type_name == "RawTensor":
             namespace["RawTensor"] = real_types["Tensor"]
+        if type_name == "Tensor":
+            continue
         else:
             if type_name not in real_types:
                 raise RuntimeError(

From 5475b02371408f884f86230e1a763b3c42c327ed Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:11:46 +0200
Subject: [PATCH 295/535] fix if

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py           | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index 0de94a906c..d7778a9325 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -47,7 +47,7 @@ def inject_real(namespace: dict[str, Any]):
     for type_name, _ in stub_types.items():
         if type_name == "RawTensor":
             namespace["RawTensor"] = real_types["Tensor"]
-        if type_name == "Tensor":
+        elif type_name == "Tensor":
             continue
         else:
             if type_name not in real_types:

From a896f038d8ceec88d8c95d4e7c0c0c34291f3ba3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:14:54 +0200
Subject: [PATCH 296/535] fix load order

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 68 +++++++++++++++++-
 .../sequential/cpp_extensions/tensor.py       | 69 -------------------
 2 files changed, 67 insertions(+), 70 deletions(-)
 delete mode 100644 transformer_engine/pytorch/sequential/cpp_extensions/tensor.py

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 33118b1688..9caf66c8b1 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,6 +1,72 @@
 from __future__ import annotations
+from typing import TYPE_CHECKING
+import torch
 from .dynamic_load import inject_real
 
 inject_real(globals())
 
-from .tensor import Tensor
+from .all_fp8_values import ALL_FP8E4M3_VALUES, ALL_FP8E5M2_VALUES
+
+if TYPE_CHECKING:
+    from . import *  # type: ignore
+
+
+class Tensor:
+    __raw: RawTensor
+    data: torch.Tensor
+    amax: torch.Tensor
+    scale: torch.Tensor
+    scale_inv: torch.Tensor
+
+    def __init__(
+        self,
+        dtype: DType,
+        data: torch.Tensor,
+        amax: torch.Tensor,
+        scale: torch.Tensor,
+        scale_inv: torch.Tensor,
+    ):
+        self.__raw = RawTensor(
+            data.data_ptr(),
+            data.shape,
+            dtype,
+            amax.data_ptr(),
+            scale.data_ptr(),
+            scale_inv.data_ptr(),
+        )
+        self.data = data
+        self.amax = amax
+        self.scale = scale
+        self.scale_inv = scale_inv
+
+    def data_ptr(self):
+        return self.data.data_ptr()
+
+    @property
+    def dtype(self):
+        return self.__raw.dtype
+
+    @property
+    def shape(self):
+        return self.__raw.shape
+
+    def __repr__(self):
+        if self.dtype == DType.Float8E4M3 or DType.Float8E5M2:
+            conv_table = (
+                torch.tensor(ALL_FP8E4M3_VALUES, device="cpu")
+                if self.dtype == DType.Float8E4M3
+                else torch.tensor(ALL_FP8E5M2_VALUES, device="cpu")
+            )
+            fp32_values = conv_table[self.data.cpu().int()]
+            data_repr = repr(fp32_values)
+        else:
+            data_repr = repr(self.data)
+        data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1]
+        data_repr = "T" + data_repr[1:]
+        return f"""\
+{data_repr},
+    dtype={self.dtype.name},\
+amax={self.amax[0].item() if self.amax.numel() else None},\
+scale={self.scale.item() if self.scale.numel() else None},\
+scale_inv={self.scale_inv.item() if self.scale_inv.numel() else None}\
+)"""
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/tensor.py b/transformer_engine/pytorch/sequential/cpp_extensions/tensor.py
deleted file mode 100644
index 03d84db4f6..0000000000
--- a/transformer_engine/pytorch/sequential/cpp_extensions/tensor.py
+++ /dev/null
@@ -1,69 +0,0 @@
-from __future__ import annotations
-from typing import TYPE_CHECKING
-from .all_fp8_values import ALL_FP8E4M3_VALUES, ALL_FP8E5M2_VALUES
-
-import torch
-
-if TYPE_CHECKING:
-    from . import *  # type: ignore
-
-
-class Tensor:
-    __raw: RawTensor
-    data: torch.Tensor
-    amax: torch.Tensor
-    scale: torch.Tensor
-    scale_inv: torch.Tensor
-
-    def __init__(
-        self,
-        dtype: DType,
-        data: torch.Tensor,
-        amax: torch.Tensor,
-        scale: torch.Tensor,
-        scale_inv: torch.Tensor,
-    ):
-        self.__raw = RawTensor(
-            data.data_ptr(),
-            data.shape,
-            dtype,
-            amax.data_ptr(),
-            scale.data_ptr(),
-            scale_inv.data_ptr(),
-        )
-        self.data = data
-        self.amax = amax
-        self.scale = scale
-        self.scale_inv = scale_inv
-
-    def data_ptr(self):
-        return self.data.data_ptr()
-
-    @property
-    def dtype(self):
-        return self.__raw.dtype
-
-    @property
-    def shape(self):
-        return self.__raw.shape
-
-    def __repr__(self):
-        if self.dtype == DType.Float8E4M3 or DType.Float8E5M2:
-            conv_table = (
-                torch.tensor(ALL_FP8E4M3_VALUES, device="cpu")
-                if self.dtype == DType.Float8E4M3
-                else torch.tensor(ALL_FP8E5M2_VALUES, device="cpu")
-            )
-            fp32_values = conv_table[self.data.cpu().int()]
-            data_repr = repr(fp32_values)
-        else:
-            data_repr = repr(self.data)
-        data_repr = data_repr[::-1][data_repr[::-1].find("]") :][::-1]
-        data_repr = "T" + data_repr[1:]
-        return f"""\
-{data_repr},
-    dtype={self.dtype.name},\
-amax={self.amax[0].item() if self.amax.numel() else None},\
-scale={self.scale.item() if self.scale.numel() else None},\
-scale_inv={self.scale_inv.item() if self.scale_inv.numel() else None}\
-)"""

From 63545f7b77dad52ed9efd1c588dc734a04fae6da Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:21:46 +0200
Subject: [PATCH 297/535] change tensor type name

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/dynamic_load.py       |  4 +---
 .../pytorch/sequential/cppsrc/pybind.cpp            | 13 +++++++------
 2 files changed, 8 insertions(+), 9 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index d7778a9325..a73dc863c7 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -45,9 +45,7 @@ def inject_real(namespace: dict[str, Any]):
     real_types = _to_dict(inspect.getmembers(real, inspect.isclass))
 
     for type_name, _ in stub_types.items():
-        if type_name == "RawTensor":
-            namespace["RawTensor"] = real_types["Tensor"]
-        elif type_name == "Tensor":
+        if type_name == "Tensor":  # Skip, as the type is a wrapper around RawTensor
             continue
         else:
             if type_name not in real_types:
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 008a16b080..947ad11c6c 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -60,9 +60,10 @@ class Tensor {
 
 public:
   Tensor() : tensor{nullptr, destroy} {}
-  Tensor(size_t data, const NVTEShape &shape, NVTEDType dtype, size_t amax,
-         size_t scale, size_t scale_inv)
-      : tensor{nvte_create_tensor(reinterpret_cast<void *>(data), shape, dtype,
+  Tensor(size_t data, const std::vector<size_t> &shape, NVTEDType dtype,
+         size_t amax, size_t scale, size_t scale_inv)
+      : tensor{nvte_create_tensor(reinterpret_cast<void *>(data),
+                                  NVTEShape{shape.data(), shape.size()}, dtype,
                                   reinterpret_cast<float *>(amax),
                                   reinterpret_cast<float *>(scale),
                                   reinterpret_cast<float *>(scale_inv)),
@@ -253,9 +254,9 @@ PYBIND11_MODULE(TORCH_EXTENSION_NAME, m) {
       .value("PADDING_MASK", NVTE_PADDING_MASK)
       .value("CAUSAL_MASK", NVTE_CAUSAL_MASK);
 
-  py::class_<Tensor>(m, "Tensor", py::module_local())
-      .def(py::init<size_t, const NVTEShape &, NVTEDType, size_t, size_t,
-                    size_t>())
+  py::class_<Tensor>(m, "RawTensor", py::module_local())
+      .def(py::init<size_t, const std::vector<size_t> &, NVTEDType, size_t,
+                    size_t, size_t>())
       .def_property_readonly("dtype", &Tensor::dtype)
       .def_property_readonly("shape", &Tensor::shape)
       .def("data_ptr", &Tensor::data_ptr)

From c0ed682267a9fa69f8d581dd3668c116e3419a70 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:26:31 +0200
Subject: [PATCH 298/535] fix tensor type name

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py      | 7 ++-----
 1 file changed, 2 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index a73dc863c7..19765c4d9c 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -1,11 +1,8 @@
 import functools
 import inspect
-from types import ModuleType
 from typing import Any, Callable, TypeVar
-from ..utils import import_file_as_module, get_arg_types
+from ..utils import import_file_as_module
 import torch
-import re
-import ast
 import transformer_engine_cuda  # type: ignore
 
 _T1 = TypeVar("_T1")
@@ -17,7 +14,7 @@ def _to_dict(l: list[tuple[_T1, _T2]], /) -> dict[_T1, _T2]:
 
 
 def _wrap_function(real_func: Callable[..., Any]):
-    Tensor = transformer_engine_cuda.Tensor  # type: ignore
+    Tensor = transformer_engine_cuda.RawTensor  # type: ignore
 
     @functools.wraps(real_func)
     def wrapper(*args: Any):

From 1390b96bbb67ac66d157a28c7afa917fdd59c68e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:27:22 +0200
Subject: [PATCH 299/535] turn shape to list

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py               | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 9caf66c8b1..7046ec9751 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -28,7 +28,7 @@ def __init__(
     ):
         self.__raw = RawTensor(
             data.data_ptr(),
-            data.shape,
+            list(data.shape),
             dtype,
             amax.data_ptr(),
             scale.data_ptr(),

From 847fb21284a1408f250f9b22ed08770ac6f75377 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:28:13 +0200
Subject: [PATCH 300/535] include missing headrer

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 947ad11c6c..1895a746e1 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -13,6 +13,7 @@
 #include <exception>
 #include <memory>
 #include <pybind11/pybind11.h>
+#include <pybind11/stl.h>
 #include <stdexcept>
 #include <transformer_engine/activation.h>
 #include <transformer_engine/cast.h>

From 3c637dc58720c0140132242794c133d9dae1493e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:33:50 +0200
Subject: [PATCH 301/535] fix return of shape

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 1895a746e1..932932c7f4 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -75,7 +75,10 @@ class Tensor {
   Tensor &operator=(Tensor &&other) = default;
   operator NVTETensor() const { return tensor.get(); }
   NVTEDType dtype() const { return nvte_tensor_type(tensor.get()); }
-  NVTEShape shape() const { return nvte_tensor_shape(tensor.get()); }
+  NVTEShape shape() const {
+    const auto shape_ = nvte_tensor_shape(tensor.get());
+    return std::vector<size_t>(shape_.data, shape_.data + shape_.ndim);
+  }
   size_t data_ptr() const {
     return reinterpret_cast<size_t>(nvte_tensor_data(tensor.get()));
   }

From 39c27a0356bbc18f507594e7a0ab4d8f65f08449 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:37:50 +0200
Subject: [PATCH 302/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/cppsrc/pybind.cpp | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
index 932932c7f4..65a4a5b5f5 100644
--- a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
+++ b/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
@@ -75,7 +75,7 @@ class Tensor {
   Tensor &operator=(Tensor &&other) = default;
   operator NVTETensor() const { return tensor.get(); }
   NVTEDType dtype() const { return nvte_tensor_type(tensor.get()); }
-  NVTEShape shape() const {
+  auto shape() const {
     const auto shape_ = nvte_tensor_shape(tensor.get());
     return std::vector<size_t>(shape_.data, shape_.data + shape_.ndim);
   }

From fb818a59141252bf02366bb759b31cdb4ba1a61d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:44:35 +0200
Subject: [PATCH 303/535] fix load

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py         | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index 19765c4d9c..bba5da44d9 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -14,11 +14,9 @@ def _to_dict(l: list[tuple[_T1, _T2]], /) -> dict[_T1, _T2]:
 
 
 def _wrap_function(real_func: Callable[..., Any]):
-    Tensor = transformer_engine_cuda.RawTensor  # type: ignore
-
     @functools.wraps(real_func)
     def wrapper(*args: Any):
-        real_args = [arg if not isinstance(arg, Tensor) else arg.__raw for arg in args]
+        real_args = [arg if not arg.__name__ == "Tensor" else arg.__raw for arg in args]
         return real_func(*real_args, torch.cuda.current_stream().cuda_stream)
 
     return wrapper

From 557e974fdc0741ad89b05a3895418cdc40685885 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:45:35 +0200
Subject: [PATCH 304/535] fix laid

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py         | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index bba5da44d9..3ae1ae34a2 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -16,7 +16,9 @@ def _to_dict(l: list[tuple[_T1, _T2]], /) -> dict[_T1, _T2]:
 def _wrap_function(real_func: Callable[..., Any]):
     @functools.wraps(real_func)
     def wrapper(*args: Any):
-        real_args = [arg if not arg.__name__ == "Tensor" else arg.__raw for arg in args]
+        real_args = [
+            arg if not arg.__class__.__name__ == "Tensor" else arg.__raw for arg in args
+        ]
         return real_func(*real_args, torch.cuda.current_stream().cuda_stream)
 
     return wrapper

From 8d85819fcb4aa33e8afc80ce071bf0468f96681a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:47:26 +0200
Subject: [PATCH 305/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py         | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 7046ec9751..dcd0835c89 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -12,7 +12,7 @@
 
 
 class Tensor:
-    __raw: RawTensor
+    _raw: RawTensor
     data: torch.Tensor
     amax: torch.Tensor
     scale: torch.Tensor
@@ -26,7 +26,7 @@ def __init__(
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
     ):
-        self.__raw = RawTensor(
+        self._raw = RawTensor(
             data.data_ptr(),
             list(data.shape),
             dtype,
@@ -44,11 +44,11 @@ def data_ptr(self):
 
     @property
     def dtype(self):
-        return self.__raw.dtype
+        return self._raw.dtype
 
     @property
     def shape(self):
-        return self.__raw.shape
+        return self._raw.shape
 
     def __repr__(self):
         if self.dtype == DType.Float8E4M3 or DType.Float8E5M2:

From 6d72c093014b5f78954bb0236aed75c030a7d8dd Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 20:48:00 +0200
Subject: [PATCH 306/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py           | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index 3ae1ae34a2..e45b9418b9 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -17,7 +17,7 @@ def _wrap_function(real_func: Callable[..., Any]):
     @functools.wraps(real_func)
     def wrapper(*args: Any):
         real_args = [
-            arg if not arg.__class__.__name__ == "Tensor" else arg.__raw for arg in args
+            arg if not arg.__class__.__name__ == "Tensor" else arg._raw for arg in args
         ]
         return real_func(*real_args, torch.cuda.current_stream().cuda_stream)
 

From dbd272cbd1f21a98a8b273f013baecb2f2a7ef12 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:11:40 +0200
Subject: [PATCH 307/535] use torch ops

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        |  2 +
 .../pytorch/sequential/utils.py               | 73 ++++++++++++++++++-
 2 files changed, 74 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 1fe30a10f5..54adbec70e 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -2,8 +2,10 @@
 import torch
 from .. import cpp_extensions as _nvte
 from .dtype import torch_to_te_dtype
+from ..utils import torch_op
 
 
+@torch_op
 def make_nvte_tensor(t: torch.Tensor):
     return _nvte.Tensor(
         torch_to_te_dtype(t.dtype),
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index e5ff1f696c..3b381cddf0 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -1,5 +1,14 @@
 from __future__ import annotations
-from typing import Any, Callable, Generic, Generator, Literal, TypeVar, overload
+from typing import (
+    Any,
+    Callable,
+    Generic,
+    Generator,
+    Literal,
+    Protocol,
+    TypeVar,
+    overload,
+)
 from types import TracebackType, ModuleType
 from typing_extensions import ParamSpec
 
@@ -152,3 +161,65 @@ def get_return_type(f: Callable[..., T]) -> type[T]:
     )
 
     return return_type  # type: ignore
+
+
+class Decorator(Protocol):
+    def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
+        ...
+
+
+def cast(x: Any, _: type[T], /) -> T:
+    return x
+
+
+def torch_op(func: Callable[..., Any]):
+    import torch
+    import cpp_extensions
+
+    dec = cast(torch._custom_ops.custom_op, Callable[[str], Decorator])  # type: ignore
+    name = f"nvte::{func.__name__}"
+
+    def make_wrapper(func: Callable[..., Any]):
+        storage: dict[int, cpp_extensions.Tensor] = {}
+
+        def wrap(x: Any) -> Any:
+            if isinstance(x, cpp_extensions.Tensor):
+                result = (x.data, x.amax, x.scale, x.scale_inv)
+                storage[id(result)] = x
+                return result
+            elif isinstance(x, list):
+                return [wrap(y) for y in x]  # type: ignore
+            elif isinstance(x, tuple):
+                return tuple(wrap(y) for y in x)  # type: ignore
+            elif isinstance(x, dict):
+                return {k: wrap(v) for k, v in x.items()}  # type: ignore
+            else:
+                return x
+
+        def unwrap(x: Any) -> Any:
+            if isinstance(x, tuple):
+                if len(x) == 4 and all(isinstance(y, torch.Tensor) for y in x):  # type: ignore
+                    return storage[id(x)]  # type: ignore
+                else:
+                    return tuple(unwrap(y) for y in x)  # type: ignore
+            elif isinstance(x, list):
+                return [unwrap(y) for y in x]  # type: ignore
+            elif isinstance(x, dict):
+                return {k: unwrap(v) for k, v in x.items()}  # type: ignore
+            else:
+                return x
+
+        @dec(name)
+        def wrapper1(*args: Any):
+            unwrapped = unwrap(args)
+            result = func(*unwrapped)
+            return wrap(result)
+
+        def wrapper2(*args: Any):
+            wrapped = wrap(args)
+            result = wrapper1(*wrapped)
+            return unwrap(result)
+
+        return wrapper2
+
+    return make_wrapper(func)

From 94b4e8fa809cccb6b3d29b361fb7b1955300e73a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:12:29 +0200
Subject: [PATCH 308/535] fix import

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 3b381cddf0..e0eb741dae 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -174,7 +174,7 @@ def cast(x: Any, _: type[T], /) -> T:
 
 def torch_op(func: Callable[..., Any]):
     import torch
-    import cpp_extensions
+    from . import cpp_extensions
 
     dec = cast(torch._custom_ops.custom_op, Callable[[str], Decorator])  # type: ignore
     name = f"nvte::{func.__name__}"

From ba229085df2a888127c32c44869461cb79b0361c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:25:24 +0200
Subject: [PATCH 309/535] fix decorator

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 20 ++++++++++++++++++-
 1 file changed, 19 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index e0eb741dae..6719a42a7f 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -11,6 +11,7 @@
 )
 from types import TracebackType, ModuleType
 from typing_extensions import ParamSpec
+import warnings
 
 PS = ParamSpec("PS")
 T = TypeVar("T")
@@ -176,7 +177,24 @@ def torch_op(func: Callable[..., Any]):
     import torch
     from . import cpp_extensions
 
-    dec = cast(torch._custom_ops.custom_op, Callable[[str], Decorator])  # type: ignore
+    dec = None
+    try:
+        dec = torch._custom_ops.custom_op  # type: ignore
+    except AttributeError:
+        pass
+    if dec is None:
+        try:
+            torch._custom_op.impl.custom_op  # type: ignore
+        except AttributeError:
+            pass
+
+    if dec is None:
+        if not torch_op.warned:  # type: ignore
+            torch_op.warned = True  # type: ignore
+            warnings.warn("Unable to find custom_op, torch_op decorator has no effect")
+        return func
+
+    dec = cast(dec, Callable[[str], Decorator])  # type: ignore
     name = f"nvte::{func.__name__}"
 
     def make_wrapper(func: Callable[..., Any]):

From 195a3919ff0ac9d1f1ccf963882a37b1c2fa714b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:26:17 +0200
Subject: [PATCH 310/535] fix warning

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 6719a42a7f..5e6d909049 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -189,7 +189,7 @@ def torch_op(func: Callable[..., Any]):
             pass
 
     if dec is None:
-        if not torch_op.warned:  # type: ignore
+        if not hasattr(torch_op, "warned"):  # type: ignore
             torch_op.warned = True  # type: ignore
             warnings.warn("Unable to find custom_op, torch_op decorator has no effect")
         return func

From 5c735f41ed67c718b5cc333dacea5c81f4e9fa75 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:26:53 +0200
Subject: [PATCH 311/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 5e6d909049..ce720c7631 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -184,7 +184,7 @@ def torch_op(func: Callable[..., Any]):
         pass
     if dec is None:
         try:
-            torch._custom_op.impl.custom_op  # type: ignore
+            dec = torch._custom_op.impl.custom_op  # type: ignore
         except AttributeError:
             pass
 

From f10b0fd85239da316ee669f942ef7e765447fb8c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:27:45 +0200
Subject: [PATCH 312/535] set qualname

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index ce720c7631..de11eb3ecf 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -233,6 +233,8 @@ def wrapper1(*args: Any):
             result = func(*unwrapped)
             return wrap(result)
 
+        wrapper1.__qualname__ = func.__qualname__
+
         def wrapper2(*args: Any):
             wrapped = wrap(args)
             result = wrapper1(*wrapped)

From d59325aa89aa37c58a7c201605ec6e930b11adb5 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:31:55 +0200
Subject: [PATCH 313/535] fix qualname

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 11 +++++++++--
 1 file changed, 9 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index de11eb3ecf..59f230281a 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -173,6 +173,14 @@ def cast(x: Any, _: type[T], /) -> T:
     return x
 
 
+def qual_name_set(qualname: str) -> Callable[..., Any]:
+    def decorator(func: Callable[..., Any]):
+        func.__qualname__ = qualname
+        return func
+
+    return decorator
+
+
 def torch_op(func: Callable[..., Any]):
     import torch
     from . import cpp_extensions
@@ -227,14 +235,13 @@ def unwrap(x: Any) -> Any:
             else:
                 return x
 
+        @qual_name_set(func.__qualname__)
         @dec(name)
         def wrapper1(*args: Any):
             unwrapped = unwrap(args)
             result = func(*unwrapped)
             return wrap(result)
 
-        wrapper1.__qualname__ = func.__qualname__
-
         def wrapper2(*args: Any):
             wrapped = wrap(args)
             result = wrapper1(*wrapped)

From b90fc9858f0a4f8df5dfe8f7f15fd62eac66ba9f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:33:14 +0200
Subject: [PATCH 314/535] fix qualname

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 59f230281a..39902b3a0d 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -235,8 +235,8 @@ def unwrap(x: Any) -> Any:
             else:
                 return x
 
-        @qual_name_set(func.__qualname__)
         @dec(name)
+        @qual_name_set(func.__qualname__)
         def wrapper1(*args: Any):
             unwrapped = unwrap(args)
             result = func(*unwrapped)

From 5427d768a2b8c85cc3821699cabe173b341cf05c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:35:23 +0200
Subject: [PATCH 315/535] fix name

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 39902b3a0d..d4a087d05a 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -236,7 +236,7 @@ def unwrap(x: Any) -> Any:
                 return x
 
         @dec(name)
-        @qual_name_set(func.__qualname__)
+        @qual_name_set(func.__name__)
         def wrapper1(*args: Any):
             unwrapped = unwrap(args)
             result = func(*unwrapped)

From 73da5e3426d220494a2160d5adcab2ad6f70b6c0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 21:42:57 +0200
Subject: [PATCH 316/535] fix name

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index d4a087d05a..159fba44ff 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -173,9 +173,9 @@ def cast(x: Any, _: type[T], /) -> T:
     return x
 
 
-def qual_name_set(qualname: str) -> Callable[..., Any]:
+def set_name(name: str) -> Callable[..., Any]:
     def decorator(func: Callable[..., Any]):
-        func.__qualname__ = qualname
+        func.__name__ = name
         return func
 
     return decorator
@@ -236,7 +236,7 @@ def unwrap(x: Any) -> Any:
                 return x
 
         @dec(name)
-        @qual_name_set(func.__name__)
+        @set_name(func.__name__)
         def wrapper1(*args: Any):
             unwrapped = unwrap(args)
             result = func(*unwrapped)

From d01767d9f335e2d2a8721acd6aa317288b49f550 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:30:50 +0200
Subject: [PATCH 317/535] fix torch op

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 106 +++++++++++++-----
 1 file changed, 77 insertions(+), 29 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 159fba44ff..059b439ecb 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -1,4 +1,5 @@
 from __future__ import annotations
+from enum import Enum
 from typing import (
     Any,
     Callable,
@@ -149,6 +150,14 @@ def get_arg_types(f: Callable[..., Any]) -> list[type]:
     return arg_types
 
 
+def get_arg_names(f: Callable[..., Any]) -> list[str]:
+    import typing
+
+    annotations = typing.get_type_hints(f)
+    annotations.pop("return", None)
+    return list(annotations.keys())
+
+
 def get_return_type(f: Callable[..., T]) -> type[T]:
     import typing
     import ast
@@ -181,6 +190,24 @@ def decorator(func: Callable[..., Any]):
     return decorator
 
 
+def recursive_apply(
+    func: Callable[[Any], Any],
+    x: Any,
+    pred: Callable[[Any], bool],
+    on_false: Callable[[Any], Any] = lambda x: x,
+) -> Any:
+    if pred(x):
+        return func(x)
+    elif isinstance(x, list):
+        return [func(y) for y in x]  # type: ignore
+    elif isinstance(x, tuple):
+        return tuple(func(y) for y in x)  # type: ignore
+    elif isinstance(x, dict):
+        return {k: func(v) for k, v in x.items()}  # type: ignore
+    else:
+        return on_false(x)
+
+
 def torch_op(func: Callable[..., Any]):
     import torch
     from . import cpp_extensions
@@ -206,43 +233,64 @@ def torch_op(func: Callable[..., Any]):
     name = f"nvte::{func.__name__}"
 
     def make_wrapper(func: Callable[..., Any]):
-        storage: dict[int, cpp_extensions.Tensor] = {}
+        storage: dict[int, Any] = {}
 
         def wrap(x: Any) -> Any:
-            if isinstance(x, cpp_extensions.Tensor):
-                result = (x.data, x.amax, x.scale, x.scale_inv)
+            def _(x: cpp_extensions.Tensor | Enum):
+                if isinstance(x, cpp_extensions.Tensor):
+                    result = (x.data, x.amax, x.scale, x.scale_inv)
+                else:
+                    result = x.value
                 storage[id(result)] = x
                 return result
-            elif isinstance(x, list):
-                return [wrap(y) for y in x]  # type: ignore
-            elif isinstance(x, tuple):
-                return tuple(wrap(y) for y in x)  # type: ignore
-            elif isinstance(x, dict):
-                return {k: wrap(v) for k, v in x.items()}  # type: ignore
-            else:
-                return x
+
+            return recursive_apply(
+                _,
+                x,
+                lambda x: isinstance(
+                    x,
+                    cpp_extensions.Tensor
+                    | cpp_extensions.DType
+                    | cpp_extensions.BiasType
+                    | cpp_extensions.FusedAttnBackend
+                    | cpp_extensions.QKVLayout
+                    | cpp_extensions.MaskType,
+                ),
+            )
+
+        def wrap_type(x: Any) -> str:
+            return recursive_apply(
+                lambda _: "tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]",
+                x,
+                lambda x: isinstance(x, cpp_extensions.Tensor),
+                lambda x: x.__name__,
+            )
 
         def unwrap(x: Any) -> Any:
-            if isinstance(x, tuple):
-                if len(x) == 4 and all(isinstance(y, torch.Tensor) for y in x):  # type: ignore
-                    return storage[id(x)]  # type: ignore
-                else:
-                    return tuple(unwrap(y) for y in x)  # type: ignore
-            elif isinstance(x, list):
-                return [unwrap(y) for y in x]  # type: ignore
-            elif isinstance(x, dict):
-                return {k: unwrap(v) for k, v in x.items()}  # type: ignore
-            else:
-                return x
-
-        @dec(name)
-        @set_name(func.__name__)
-        def wrapper1(*args: Any):
-            unwrapped = unwrap(args)
-            result = func(*unwrapped)
-            return wrap(result)
+            return recursive_apply(
+                lambda x: storage[id(x)],
+                x,
+                lambda x: id(x) in storage,  # type: ignore
+            )
+
+        arg_types = get_arg_types(func)
+        return_type = get_return_type(func)
+
+        wrapped_arg_types = [wrap_type(t) for t in arg_types]
+
+        template = f"""\
+def {func.__name__}({",".join(f"{arg_name}: '{arg_type_name}'" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
+    unwrapped = unwrap(({",".join(f"{arg_name}" for arg_name in get_arg_names(func))}))
+    result = func(*unwrapped)
+    return wrap(result)
+"""
+
+        ns = dict(func=func, wrap=wrap, unwrap=unwrap)
+        exec(template, ns)
+        wrapper1 = dec(name)(ns[func.__name__])
 
         def wrapper2(*args: Any):
+            storage.clear()
             wrapped = wrap(args)
             result = wrapper1(*wrapped)
             return unwrap(result)

From 051cfe2a72c48f214e367ee268fd2e9b844b24bd Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:32:10 +0200
Subject: [PATCH 318/535] add retur type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 54adbec70e..25f0c0061f 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -6,7 +6,7 @@
 
 
 @torch_op
-def make_nvte_tensor(t: torch.Tensor):
+def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
     return _nvte.Tensor(
         torch_to_te_dtype(t.dtype),
         t.data,

From 1658de8be552c20a1043d4524e334bed0aeb159a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:34:24 +0200
Subject: [PATCH 319/535] use qualname

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 059b439ecb..063262e92f 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -263,7 +263,7 @@ def wrap_type(x: Any) -> str:
                 lambda _: "tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]",
                 x,
                 lambda x: isinstance(x, cpp_extensions.Tensor),
-                lambda x: x.__name__,
+                lambda x: x.__qualname__,
             )
 
         def unwrap(x: Any) -> Any:

From ac0abf76989c6528b2f1b78d8fccb732018cd0bf Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:35:56 +0200
Subject: [PATCH 320/535] fix name

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 063262e92f..d7d500b3a2 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -263,7 +263,7 @@ def wrap_type(x: Any) -> str:
                 lambda _: "tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]",
                 x,
                 lambda x: isinstance(x, cpp_extensions.Tensor),
-                lambda x: x.__qualname__,
+                lambda x: f"{x.__module__}.{x.__name__}",
             )
 
         def unwrap(x: Any) -> Any:

From 84a32920fc28e3b0eace7ac252f1c78338a8fcff Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:38:08 +0200
Subject: [PATCH 321/535] fix type name

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index d7d500b3a2..d46be52662 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -279,7 +279,7 @@ def unwrap(x: Any) -> Any:
         wrapped_arg_types = [wrap_type(t) for t in arg_types]
 
         template = f"""\
-def {func.__name__}({",".join(f"{arg_name}: '{arg_type_name}'" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
+def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
     unwrapped = unwrap(({",".join(f"{arg_name}" for arg_name in get_arg_names(func))}))
     result = func(*unwrapped)
     return wrap(result)

From 168db18bbdaa656fbc3e996f65781718001141d7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:39:15 +0200
Subject: [PATCH 322/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index d46be52662..8b4060e110 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -285,9 +285,9 @@ def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_t
     return wrap(result)
 """
 
-        ns = dict(func=func, wrap=wrap, unwrap=unwrap)
+        ns = dict(func=func, wrap=wrap, unwrap=unwrap, torch=torch)
         exec(template, ns)
-        wrapper1 = dec(name)(ns[func.__name__])
+        wrapper1 = dec(name)(ns[func.__name__])  # type: ignore
 
         def wrapper2(*args: Any):
             storage.clear()

From 0059cb59e074530cad0e20a9e6b69421a793fed5 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:40:29 +0200
Subject: [PATCH 323/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 8b4060e110..ee08ce4b36 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -279,7 +279,7 @@ def unwrap(x: Any) -> Any:
         wrapped_arg_types = [wrap_type(t) for t in arg_types]
 
         template = f"""\
-def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
+def {func.__name__}({",".join(f"{arg_name}: " + arg_type_name for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
     unwrapped = unwrap(({",".join(f"{arg_name}" for arg_name in get_arg_names(func))}))
     result = func(*unwrapped)
     return wrap(result)

From df82f65a90e37665cd54711b7f77b418d57038ce Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:41:13 +0200
Subject: [PATCH 324/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index ee08ce4b36..3434d57bab 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -279,7 +279,7 @@ def unwrap(x: Any) -> Any:
         wrapped_arg_types = [wrap_type(t) for t in arg_types]
 
         template = f"""\
-def {func.__name__}({",".join(f"{arg_name}: " + arg_type_name for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
+def {func.__name__}({",".join(f"{arg_name}: " + arg_type_name[1:-1] for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
     unwrapped = unwrap(({",".join(f"{arg_name}" for arg_name in get_arg_names(func))}))
     result = func(*unwrapped)
     return wrap(result)

From 0ed9924071f4d95ff24dabc1cd7a7dcfe929a535 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:45:24 +0200
Subject: [PATCH 325/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 3434d57bab..6e8fd22a06 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -262,7 +262,7 @@ def wrap_type(x: Any) -> str:
             return recursive_apply(
                 lambda _: "tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]",
                 x,
-                lambda x: isinstance(x, cpp_extensions.Tensor),
+                lambda x: x is cpp_extensions.Tensor,
                 lambda x: f"{x.__module__}.{x.__name__}",
             )
 
@@ -279,7 +279,7 @@ def unwrap(x: Any) -> Any:
         wrapped_arg_types = [wrap_type(t) for t in arg_types]
 
         template = f"""\
-def {func.__name__}({",".join(f"{arg_name}: " + arg_type_name[1:-1] for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
+def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
     unwrapped = unwrap(({",".join(f"{arg_name}" for arg_name in get_arg_names(func))}))
     result = func(*unwrapped)
     return wrap(result)

From 5b171240c8c04b1fa051d0b348918ca3d71ecd95 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:47:33 +0200
Subject: [PATCH 326/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 6e8fd22a06..6cab0da732 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -279,15 +279,16 @@ def unwrap(x: Any) -> Any:
         wrapped_arg_types = [wrap_type(t) for t in arg_types]
 
         template = f"""\
+import torch
 def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
     unwrapped = unwrap(({",".join(f"{arg_name}" for arg_name in get_arg_names(func))}))
     result = func(*unwrapped)
     return wrap(result)
 """
 
-        ns = dict(func=func, wrap=wrap, unwrap=unwrap, torch=torch)
+        ns = dict(func=func, wrap=wrap, unwrap=unwrap)
         exec(template, ns)
-        wrapper1 = dec(name)(ns[func.__name__])  # type: ignore
+        wrapper1 = dec(name)(ns[func.__name__])
 
         def wrapper2(*args: Any):
             storage.clear()

From f2eafe7d1e2ec49dd45e81ca2ee354392e2c1002 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:53:18 +0200
Subject: [PATCH 327/535] fix decorator

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 6cab0da732..ee88adbd41 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -1,4 +1,3 @@
-from __future__ import annotations
 from enum import Enum
 from typing import (
     Any,
@@ -279,7 +278,6 @@ def unwrap(x: Any) -> Any:
         wrapped_arg_types = [wrap_type(t) for t in arg_types]
 
         template = f"""\
-import torch
 def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
     unwrapped = unwrap(({",".join(f"{arg_name}" for arg_name in get_arg_names(func))}))
     result = func(*unwrapped)

From 4c73df3e5aee9305856f4f4ec44fa6b2e4de348d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:53:56 +0200
Subject: [PATCH 328/535] fix decorator

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index ee88adbd41..f3f351a5c3 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -278,6 +278,7 @@ def unwrap(x: Any) -> Any:
         wrapped_arg_types = [wrap_type(t) for t in arg_types]
 
         template = f"""\
+import torch
 def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
     unwrapped = unwrap(({",".join(f"{arg_name}" for arg_name in get_arg_names(func))}))
     result = func(*unwrapped)

From 33d3cb5a638eaf2f8041cb40f3be344ebdd1a46f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:55:40 +0200
Subject: [PATCH 329/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index f3f351a5c3..25b162ced6 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -235,11 +235,13 @@ def make_wrapper(func: Callable[..., Any]):
         storage: dict[int, Any] = {}
 
         def wrap(x: Any) -> Any:
-            def _(x: cpp_extensions.Tensor | Enum):
+            def _(x: cpp_extensions.Tensor | Enum | Any):
                 if isinstance(x, cpp_extensions.Tensor):
                     result = (x.data, x.amax, x.scale, x.scale_inv)
-                else:
+                elif isinstance(x, Enum):
                     result = x.value
+                else:
+                    result = x
                 storage[id(result)] = x
                 return result
 

From af560d1955e9758b91e54d6661bf7d09e8035dd0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 22:58:16 +0200
Subject: [PATCH 330/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/base.py             | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 142659ff71..8b74bebbc9 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -28,14 +28,15 @@ def forward(
         return self._run(x)
 
     def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None):
-        assert x.is_cuda
-        assert x.is_contiguous()
-        if seq_lens is None:
-            seq_lens = BaseModule._create_seq_lens_tensor(x)
-        assert seq_lens.is_cuda
-        assert seq_lens.is_contiguous()
+        with torch.no_grad():
+            assert x.is_cuda
+            assert x.is_contiguous()
+            if seq_lens is None:
+                seq_lens = BaseModule._create_seq_lens_tensor(x)
+            assert seq_lens.is_cuda
+            assert seq_lens.is_contiguous()
 
-        self._setup_pipeline(x, seq_lens)
+            self._setup_pipeline(x, seq_lens)
 
         return self._run
 

From 7ac79d9f603d8eea929fb867ccffefd3927b8cfa Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 23:02:45 +0200
Subject: [PATCH 331/535] add impl

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 18 +++++++++++-------
 1 file changed, 11 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 25b162ced6..1643527f07 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -211,24 +211,27 @@ def torch_op(func: Callable[..., Any]):
     import torch
     from . import cpp_extensions
 
-    dec = None
+    custom_ops = None
     try:
-        dec = torch._custom_ops.custom_op  # type: ignore
+        custom_ops = torch._custom_ops  # type: ignore
     except AttributeError:
         pass
-    if dec is None:
+    if custom_ops is None:
         try:
-            dec = torch._custom_op.impl.custom_op  # type: ignore
+            custom_ops = torch._custom_op.impl  # type: ignore
         except AttributeError:
             pass
 
-    if dec is None:
+    if custom_ops is None:
         if not hasattr(torch_op, "warned"):  # type: ignore
             torch_op.warned = True  # type: ignore
             warnings.warn("Unable to find custom_op, torch_op decorator has no effect")
         return func
 
-    dec = cast(dec, Callable[[str], Decorator])  # type: ignore
+    decl = custom_ops.custom_op  # type: ignore
+    impl = custom_ops.impl  # type: ignore
+    decl = cast(decl, Callable[[str], Decorator])  # type: ignore
+    impl = cast(impl, Callable[[str], Decorator])  # type: ignore
     name = f"nvte::{func.__name__}"
 
     def make_wrapper(func: Callable[..., Any]):
@@ -289,7 +292,8 @@ def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_t
 
         ns = dict(func=func, wrap=wrap, unwrap=unwrap)
         exec(template, ns)
-        wrapper1 = dec(name)(ns[func.__name__])
+        _ = decl(name)(ns[func.__name__])
+        wrapper1 = impl(name)(ns[func.__name__])
 
         def wrapper2(*args: Any):
             storage.clear()

From 7874d271efa07b63d56fcae342d6346073e69ad2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 23:06:12 +0200
Subject: [PATCH 332/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 1643527f07..acab007375 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -214,11 +214,15 @@ def torch_op(func: Callable[..., Any]):
     custom_ops = None
     try:
         custom_ops = torch._custom_ops  # type: ignore
+        decl = custom_ops.custom_op  # type: ignore
+        impl = custom_ops.impl  # type: ignore
     except AttributeError:
         pass
     if custom_ops is None:
         try:
             custom_ops = torch._custom_op.impl  # type: ignore
+            decl = custom_ops.custom_op  # type: ignore
+            impl = custom_ops.CustomOp.impl  # type: ignore
         except AttributeError:
             pass
 
@@ -228,8 +232,6 @@ def torch_op(func: Callable[..., Any]):
             warnings.warn("Unable to find custom_op, torch_op decorator has no effect")
         return func
 
-    decl = custom_ops.custom_op  # type: ignore
-    impl = custom_ops.impl  # type: ignore
     decl = cast(decl, Callable[[str], Decorator])  # type: ignore
     impl = cast(impl, Callable[[str], Decorator])  # type: ignore
     name = f"nvte::{func.__name__}"

From 9a7312c1cf51298fdbf44967f613e80978626e98 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 23:09:29 +0200
Subject: [PATCH 333/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index acab007375..81c12b7b25 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -211,11 +211,13 @@ def torch_op(func: Callable[..., Any]):
     import torch
     from . import cpp_extensions
 
+    version1: bool
     custom_ops = None
     try:
         custom_ops = torch._custom_ops  # type: ignore
         decl = custom_ops.custom_op  # type: ignore
         impl = custom_ops.impl  # type: ignore
+        version1 = False
     except AttributeError:
         pass
     if custom_ops is None:
@@ -223,6 +225,7 @@ def torch_op(func: Callable[..., Any]):
             custom_ops = torch._custom_op.impl  # type: ignore
             decl = custom_ops.custom_op  # type: ignore
             impl = custom_ops.CustomOp.impl  # type: ignore
+            version1 = True
         except AttributeError:
             pass
 
@@ -294,8 +297,11 @@ def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_t
 
         ns = dict(func=func, wrap=wrap, unwrap=unwrap)
         exec(template, ns)
-        _ = decl(name)(ns[func.__name__])
-        wrapper1 = impl(name)(ns[func.__name__])
+        declared = decl(name)(ns[func.__name__])
+        if version1:
+            impl = declared.impl(device_type="cuda")  # type: ignore
+
+        wrapper1 = impl(name)(ns[func.__name__])  # type: ignore
 
         def wrapper2(*args: Any):
             storage.clear()

From 82bdc863c3ebd9e8af65f55764c6e122414f276e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 23:10:03 +0200
Subject: [PATCH 334/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 81c12b7b25..2f72e4e5d5 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -299,7 +299,7 @@ def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_t
         exec(template, ns)
         declared = decl(name)(ns[func.__name__])
         if version1:
-            impl = declared.impl(device_type="cuda")  # type: ignore
+            impl = declared.impl("cuda")  # type: ignore
 
         wrapper1 = impl(name)(ns[func.__name__])  # type: ignore
 

From f98cb0f53dc9cd397fd36e5eaf6bb02006cc24d9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 23:11:21 +0200
Subject: [PATCH 335/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 2f72e4e5d5..eb3a0c2161 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -300,8 +300,9 @@ def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_t
         declared = decl(name)(ns[func.__name__])
         if version1:
             impl = declared.impl("cuda")  # type: ignore
-
-        wrapper1 = impl(name)(ns[func.__name__])  # type: ignore
+            wrapper1 = impl(ns[func.__name__])  # type: ignore
+        else:
+            wrapper1 = impl(name)(ns[func.__name__])  # type: ignore
 
         def wrapper2(*args: Any):
             storage.clear()

From 95dc86fbc0b5125e1aab90d56a8a1ffd9f770be1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Sun, 27 Aug 2023 23:14:11 +0200
Subject: [PATCH 336/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index eb3a0c2161..57a9dc1294 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -290,7 +290,7 @@ def unwrap(x: Any) -> Any:
         template = f"""\
 import torch
 def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
-    unwrapped = unwrap(({",".join(f"{arg_name}" for arg_name in get_arg_names(func))}))
+    unwrapped = unwrap(({"".join(f"{arg_name}," for arg_name in get_arg_names(func))}))
     result = func(*unwrapped)
     return wrap(result)
 """

From 9c1f372589a9088734f376157f21a8d80869bce7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:00:26 +0200
Subject: [PATCH 337/535] fix wrapping code

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 134 ++++++++++--------
 1 file changed, 74 insertions(+), 60 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 57a9dc1294..45b87dec20 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -228,7 +228,6 @@ def torch_op(func: Callable[..., Any]):
             version1 = True
         except AttributeError:
             pass
-
     if custom_ops is None:
         if not hasattr(torch_op, "warned"):  # type: ignore
             torch_op.warned = True  # type: ignore
@@ -240,76 +239,91 @@ def torch_op(func: Callable[..., Any]):
     name = f"nvte::{func.__name__}"
 
     def make_wrapper(func: Callable[..., Any]):
-        storage: dict[int, Any] = {}
-
-        def wrap(x: Any) -> Any:
-            def _(x: cpp_extensions.Tensor | Enum | Any):
-                if isinstance(x, cpp_extensions.Tensor):
-                    result = (x.data, x.amax, x.scale, x.scale_inv)
-                elif isinstance(x, Enum):
-                    result = x.value
-                else:
-                    result = x
-                storage[id(result)] = x
-                return result
-
-            return recursive_apply(
-                _,
-                x,
-                lambda x: isinstance(
-                    x,
-                    cpp_extensions.Tensor
-                    | cpp_extensions.DType
-                    | cpp_extensions.BiasType
-                    | cpp_extensions.FusedAttnBackend
-                    | cpp_extensions.QKVLayout
-                    | cpp_extensions.MaskType,
-                ),
-            )
-
-        def wrap_type(x: Any) -> str:
-            return recursive_apply(
-                lambda _: "tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]",
-                x,
-                lambda x: x is cpp_extensions.Tensor,
-                lambda x: f"{x.__module__}.{x.__name__}",
-            )
-
-        def unwrap(x: Any) -> Any:
-            return recursive_apply(
-                lambda x: storage[id(x)],
-                x,
-                lambda x: id(x) in storage,  # type: ignore
-            )
+        def type_name(t: type) -> str:
+            return f"{t.__module__}.{t.__name__}"
+
+        def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
+            if arg_type is cpp_extensions.Tensor:
+                w = f"{arg_name}_ = ({arg_name}.dtype, {arg_name}.data, {arg_name}.amax, {arg_name}.scale, {arg_name}.scale_inv)\n"
+                u = f"{arg_name} = {arg_type_name}(*{arg_name}_)\n"
+            elif issubclass(arg_type, Enum):
+                w = f"{arg_name}_ = {arg_name}.value\n"
+                u = f"{arg_name} = {arg_type_name}({arg_name}_)\n"
+            elif arg_type in [int, float, bool, str]:
+                w = f"{arg_name}_ = {arg_name}\n"
+                u = f"{arg_name} = {arg_name}_\n"
+            else:
+                raise NotImplementedError()
+            return (w, u)
+
+        def wrap_type(arg_type: type):
+            if arg_type is cpp_extensions.Tensor:
+                return tuple[int, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
+            elif issubclass(arg_type, Enum):
+                return int
+            elif arg_type in [int, float, bool, str]:
+                return arg_type
+            else:
+                raise NotImplementedError()
 
         arg_types = get_arg_types(func)
+        arg_names = get_arg_names(func)
+        arg_type_names =  list(map(type_name, arg_types))
         return_type = get_return_type(func)
-
+        return_type_name = type_name(return_type)
+        outer_sig = f"({ ','.join(
+            f'{arg_name}: {arg_type_name}'
+            for arg_name, arg_type_name in zip(arg_names, arg_type_names)
+        ) }) -> {return_type_name}"
+        arg_wrapping_code = ""
+        arg_unwrapping_code = ""
+        for arg_name, arg_type, arg_type_name in zip(arg_names, arg_types, arg_type_names):
+            w, u = wrap_unwrap_code(arg_name, arg_type, arg_type_name)
+            arg_wrapping_code += w
+            arg_unwrapping_code += u
+        wrapped_args = ','.join(f'{arg_name}_' for arg_name in arg_names)
+
+        result_wrapping_code, result_unwrapping_code = wrap_unwrap_code("result", return_type, return_type_name)
+
+        wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
         wrapped_arg_types = [wrap_type(t) for t in arg_types]
+        wrapped_arg_type_names = [type_name(t) for t in wrapped_arg_types]
+        wrapped_return_type = wrap_type(return_type)
+        wrapped_return_type_name = type_name(wrapped_return_type)
+        inner_sig = f"({ ','.join(
+            f'{arg_name}_: {arg_type_name}'
+            for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
+        ) }) -> {wrapped_return_type_name}"
+        unwrapped_args = ','.join(f'{arg_name}' for arg_name in arg_names)
+
 
-        template = f"""\
+        source = f"""\
 import torch
-def {func.__name__}({",".join(f"{arg_name}: {arg_type_name}" for arg_name, arg_type_name in zip(get_arg_names(func), wrapped_arg_types))}) -> {wrap_type(return_type)}:
-    unwrapped = unwrap(({"".join(f"{arg_name}," for arg_name in get_arg_names(func))}))
-    result = func(*unwrapped)
-    return wrap(result)
+from . import cpp_extensions
+
+def {func.__name__}{inner_sig}:
+    {arg_unwrapping_code}
+    result = func({unwrapped_args})
+    {result_wrapping_code}
+    return result_
+
+def outer_wrapper{outer_sig}:
+    {arg_wrapping_code}
+    result_ = {func.__name__}({wrapped_args})
+    {result_unwrapping_code}
+    return result
+
 """
+        ns = dict(func=func)
+        exec(source, ns)
 
-        ns = dict(func=func, wrap=wrap, unwrap=unwrap)
-        exec(template, ns)
         declared = decl(name)(ns[func.__name__])
         if version1:
-            impl = declared.impl("cuda")  # type: ignore
-            wrapper1 = impl(ns[func.__name__])  # type: ignore
+            declared.impl("cuda")(ns[func.__name__])  # type: ignore
         else:
-            wrapper1 = impl(name)(ns[func.__name__])  # type: ignore
-
-        def wrapper2(*args: Any):
-            storage.clear()
-            wrapped = wrap(args)
-            result = wrapper1(*wrapped)
-            return unwrap(result)
+            impl(name)(ns[func.__name__])  # type: ignore
 
-        return wrapper2
+        outer_wrapper = ns["outer_wrapper"]
+        return outer_wrapper
 
     return make_wrapper(func)

From 8d3a74a751e0b5993783d776b2bc0041c0ec9bbc Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:01:49 +0200
Subject: [PATCH 338/535] fix strings

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 27 +++++++++++--------
 1 file changed, 16 insertions(+), 11 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 45b87dec20..d19f684922 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -258,7 +258,9 @@ def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
 
         def wrap_type(arg_type: type):
             if arg_type is cpp_extensions.Tensor:
-                return tuple[int, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
+                return tuple[
+                    int, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor
+                ]
             elif issubclass(arg_type, Enum):
                 return int
             elif arg_type in [int, float, bool, str]:
@@ -268,34 +270,37 @@ def wrap_type(arg_type: type):
 
         arg_types = get_arg_types(func)
         arg_names = get_arg_names(func)
-        arg_type_names =  list(map(type_name, arg_types))
+        arg_type_names = list(map(type_name, arg_types))
         return_type = get_return_type(func)
         return_type_name = type_name(return_type)
-        outer_sig = f"({ ','.join(
+        outer_sig = f"""({ ','.join(
             f'{arg_name}: {arg_type_name}'
             for arg_name, arg_type_name in zip(arg_names, arg_type_names)
-        ) }) -> {return_type_name}"
+        ) }) -> {return_type_name}"""
         arg_wrapping_code = ""
         arg_unwrapping_code = ""
-        for arg_name, arg_type, arg_type_name in zip(arg_names, arg_types, arg_type_names):
+        for arg_name, arg_type, arg_type_name in zip(
+            arg_names, arg_types, arg_type_names
+        ):
             w, u = wrap_unwrap_code(arg_name, arg_type, arg_type_name)
             arg_wrapping_code += w
             arg_unwrapping_code += u
-        wrapped_args = ','.join(f'{arg_name}_' for arg_name in arg_names)
+        wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
 
-        result_wrapping_code, result_unwrapping_code = wrap_unwrap_code("result", return_type, return_type_name)
+        result_wrapping_code, result_unwrapping_code = wrap_unwrap_code(
+            "result", return_type, return_type_name
+        )
 
         wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
         wrapped_arg_types = [wrap_type(t) for t in arg_types]
         wrapped_arg_type_names = [type_name(t) for t in wrapped_arg_types]
         wrapped_return_type = wrap_type(return_type)
         wrapped_return_type_name = type_name(wrapped_return_type)
-        inner_sig = f"({ ','.join(
+        inner_sig = f"""({ ','.join(
             f'{arg_name}_: {arg_type_name}'
             for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
-        ) }) -> {wrapped_return_type_name}"
-        unwrapped_args = ','.join(f'{arg_name}' for arg_name in arg_names)
-
+        ) }) -> {wrapped_return_type_name}"""
+        unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
 
         source = f"""\
 import torch

From bb147c3e35ccd3c8d66a6d1f22c611b1016578e4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:02:24 +0200
Subject: [PATCH 339/535] report type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index d19f684922..0bfef87793 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -253,7 +253,7 @@ def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
                 w = f"{arg_name}_ = {arg_name}\n"
                 u = f"{arg_name} = {arg_name}_\n"
             else:
-                raise NotImplementedError()
+                raise NotImplementedError(arg_type_name)
             return (w, u)
 
         def wrap_type(arg_type: type):
@@ -266,7 +266,7 @@ def wrap_type(arg_type: type):
             elif arg_type in [int, float, bool, str]:
                 return arg_type
             else:
-                raise NotImplementedError()
+                raise NotImplementedError(arg_type_name)
 
         arg_types = get_arg_types(func)
         arg_names = get_arg_names(func)

From 433d1135ff2254b1dd1ef576d704b063e44478ae Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:03:03 +0200
Subject: [PATCH 340/535] add missing type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 0bfef87793..48c0bcd50f 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -249,7 +249,7 @@ def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
             elif issubclass(arg_type, Enum):
                 w = f"{arg_name}_ = {arg_name}.value\n"
                 u = f"{arg_name} = {arg_type_name}({arg_name}_)\n"
-            elif arg_type in [int, float, bool, str]:
+            elif arg_type in [int, float, bool, str, torch.Tensor]:
                 w = f"{arg_name}_ = {arg_name}\n"
                 u = f"{arg_name} = {arg_name}_\n"
             else:
@@ -263,7 +263,7 @@ def wrap_type(arg_type: type):
                 ]
             elif issubclass(arg_type, Enum):
                 return int
-            elif arg_type in [int, float, bool, str]:
+            elif arg_type in [int, float, bool, str, torch.Tensor]:
                 return arg_type
             else:
                 raise NotImplementedError(arg_type_name)

From 6a3ef79c682065b8a140489ee87ae8d04ed9bcee Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:04:27 +0200
Subject: [PATCH 341/535] add missing dict entry

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 48c0bcd50f..b4b5c36773 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -319,7 +319,7 @@ def outer_wrapper{outer_sig}:
     return result
 
 """
-        ns = dict(func=func)
+        ns = dict(func=func, __name__=__name__)
         exec(source, ns)
 
         declared = decl(name)(ns[func.__name__])

From de8542fae65a8046e26bb335d92eb51dd3bd47bc Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:05:48 +0200
Subject: [PATCH 342/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index b4b5c36773..3d83373054 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -303,6 +303,7 @@ def wrap_type(arg_type: type):
         unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
 
         source = f"""\
+import builtins
 import torch
 from . import cpp_extensions
 

From c5f21558c67c369aff98c4efb244028550cb1b11 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:06:49 +0200
Subject: [PATCH 343/535] print src

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 3d83373054..44374bd001 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -321,7 +321,11 @@ def outer_wrapper{outer_sig}:
 
 """
         ns = dict(func=func, __name__=__name__)
-        exec(source, ns)
+        try:
+            exec(source, ns)
+        except Exception:
+            print(source)
+            raise
 
         declared = decl(name)(ns[func.__name__])
         if version1:

From 9966be5ae1958a758ed6b74cc711bd2785619520 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:09:01 +0200
Subject: [PATCH 344/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 44374bd001..80eb239efc 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -297,7 +297,7 @@ def wrap_type(arg_type: type):
         wrapped_return_type = wrap_type(return_type)
         wrapped_return_type_name = type_name(wrapped_return_type)
         inner_sig = f"""({ ','.join(
-            f'{arg_name}_: {arg_type_name}'
+            f'{arg_name}: {arg_type_name}'
             for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
         ) }) -> {wrapped_return_type_name}"""
         unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
@@ -305,7 +305,7 @@ def wrap_type(arg_type: type):
         source = f"""\
 import builtins
 import torch
-from . import cpp_extensions
+import transformer_engine.pytorch.sequential.cpp_extensions
 
 def {func.__name__}{inner_sig}:
     {arg_unwrapping_code}

From b5341920ef9b34f39c56a348f629626118a26966 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:18:09 +0200
Subject: [PATCH 345/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 18 +++++++++++-------
 1 file changed, 11 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 80eb239efc..4d250c73cc 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -240,7 +240,12 @@ def torch_op(func: Callable[..., Any]):
 
     def make_wrapper(func: Callable[..., Any]):
         def type_name(t: type) -> str:
-            return f"{t.__module__}.{t.__name__}"
+            if t.__module__ == "builtins":
+                return t.__name__
+            elif t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions":
+                return f"cpp_extensions.{t.__name__}"
+            else:
+                return f"{t.__module__}.{t.__name__}"
 
         def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
             if arg_type is cpp_extensions.Tensor:
@@ -303,9 +308,8 @@ def wrap_type(arg_type: type):
         unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
 
         source = f"""\
-import builtins
 import torch
-import transformer_engine.pytorch.sequential.cpp_extensions
+from . import cpp_extensions
 
 def {func.__name__}{inner_sig}:
     {arg_unwrapping_code}
@@ -318,14 +322,14 @@ def outer_wrapper{outer_sig}:
     result_ = {func.__name__}({wrapped_args})
     {result_unwrapping_code}
     return result
-
 """
         ns = dict(func=func, __name__=__name__)
         try:
             exec(source, ns)
-        except Exception:
-            print(source)
-            raise
+        except Exception as e:
+            raise RuntimeError(
+                f"Failed to compile wrapper for {func.__name__}. Generated code: \n{source}"
+            ) from e
 
         declared = decl(name)(ns[func.__name__])
         if version1:

From 772eea1441886dbabdaed49edea69892c797e006 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:20:31 +0200
Subject: [PATCH 346/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 4d250c73cc..8b41ef3d52 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -9,7 +9,7 @@
     TypeVar,
     overload,
 )
-from types import TracebackType, ModuleType
+from types import GenericAlias, TracebackType, ModuleType
 from typing_extensions import ParamSpec
 import warnings
 
@@ -241,7 +241,10 @@ def torch_op(func: Callable[..., Any]):
     def make_wrapper(func: Callable[..., Any]):
         def type_name(t: type) -> str:
             if t.__module__ == "builtins":
-                return t.__name__
+                if isinstance(t, GenericAlias):
+                    return str(t)
+                else:
+                    return t.__name__
             elif t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions":
                 return f"cpp_extensions.{t.__name__}"
             else:

From a16e68ee96f273be55908c3ac5b378ec3c607120 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:26:51 +0200
Subject: [PATCH 347/535] better error reporting

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 13 ++++++-------
 1 file changed, 6 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 8b41ef3d52..d9e91d3fcc 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -252,7 +252,7 @@ def type_name(t: type) -> str:
 
         def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
             if arg_type is cpp_extensions.Tensor:
-                w = f"{arg_name}_ = ({arg_name}.dtype, {arg_name}.data, {arg_name}.amax, {arg_name}.scale, {arg_name}.scale_inv)\n"
+                w = f"{arg_name}_ = ({arg_name}.data, {arg_name}.amax, {arg_name}.scale, {arg_name}.scale_inv)\n"
                 u = f"{arg_name} = {arg_type_name}(*{arg_name}_)\n"
             elif issubclass(arg_type, Enum):
                 w = f"{arg_name}_ = {arg_name}.value\n"
@@ -329,17 +329,16 @@ def outer_wrapper{outer_sig}:
         ns = dict(func=func, __name__=__name__)
         try:
             exec(source, ns)
+            declared = decl(name)(ns[func.__name__])
+            if version1:
+                declared.impl("cuda")(ns[func.__name__])  # type: ignore
+            else:
+                impl(name)(ns[func.__name__])  # type: ignore
         except Exception as e:
             raise RuntimeError(
                 f"Failed to compile wrapper for {func.__name__}. Generated code: \n{source}"
             ) from e
 
-        declared = decl(name)(ns[func.__name__])
-        if version1:
-            declared.impl("cuda")(ns[func.__name__])  # type: ignore
-        else:
-            impl(name)(ns[func.__name__])  # type: ignore
-
         outer_wrapper = ns["outer_wrapper"]
         return outer_wrapper
 

From 63756eaf83ea64543a5d6f7c6b0cb1101f60db43 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:28:26 +0200
Subject: [PATCH 348/535] better error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index d9e91d3fcc..875ca2927f 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -336,7 +336,7 @@ def outer_wrapper{outer_sig}:
                 impl(name)(ns[func.__name__])  # type: ignore
         except Exception as e:
             raise RuntimeError(
-                f"Failed to compile wrapper for {func.__name__}. Generated code: \n{source}"
+                f"Failed to compile wrapper for {func.__name__}. Generated code: \n```\n{source}```"
             ) from e
 
         outer_wrapper = ns["outer_wrapper"]

From 8a09f936c8dfc61927e773997926e658182b3562 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 00:31:26 +0200
Subject: [PATCH 349/535] better error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 17 +++++++++--------
 1 file changed, 9 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 875ca2927f..d50fcf2ebc 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -251,15 +251,16 @@ def type_name(t: type) -> str:
                 return f"{t.__module__}.{t.__name__}"
 
         def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
+            wrapped_arg_type_name = type_name(wrap_type(arg_type))
             if arg_type is cpp_extensions.Tensor:
-                w = f"{arg_name}_ = ({arg_name}.data, {arg_name}.amax, {arg_name}.scale, {arg_name}.scale_inv)\n"
-                u = f"{arg_name} = {arg_type_name}(*{arg_name}_)\n"
+                w = f"{arg_name}_: {wrapped_arg_type_name} = ({arg_name}.data, {arg_name}.amax, {arg_name}.scale, {arg_name}.scale_inv)\n"
+                u = f"{arg_name}: {arg_type_name} = {arg_type_name}(*{arg_name}_)\n"
             elif issubclass(arg_type, Enum):
-                w = f"{arg_name}_ = {arg_name}.value\n"
-                u = f"{arg_name} = {arg_type_name}({arg_name}_)\n"
+                w = f"{arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
+                u = f"{arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
             elif arg_type in [int, float, bool, str, torch.Tensor]:
-                w = f"{arg_name}_ = {arg_name}\n"
-                u = f"{arg_name} = {arg_name}_\n"
+                w = f"{arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
+                u = f"{arg_name}: {arg_type_name} = {arg_name}_\n"
             else:
                 raise NotImplementedError(arg_type_name)
             return (w, u)
@@ -316,13 +317,13 @@ def wrap_type(arg_type: type):
 
 def {func.__name__}{inner_sig}:
     {arg_unwrapping_code}
-    result = func({unwrapped_args})
+    result: {return_type_name} = func({unwrapped_args})
     {result_wrapping_code}
     return result_
 
 def outer_wrapper{outer_sig}:
     {arg_wrapping_code}
-    result_ = {func.__name__}({wrapped_args})
+    result_: {wrapped_return_type_name} = {func.__name__}({wrapped_args})
     {result_unwrapping_code}
     return result
 """

From 56a0946c481502fb8d38e76cf0efa7a44632c658 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 01:18:39 +0200
Subject: [PATCH 350/535] make te-torch dtype correspondence 1:1

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 93 ++++++++++++++++++-
 .../sequential/cpp_extensions/__init__.pyi    | 31 ++++---
 .../sequential/cpp_extensions/dynamic_load.py | 13 +--
 .../pytorch/sequential/nvte/_common.py        |  2 -
 .../pytorch/sequential/nvte/cast_transpose.py | 30 +++---
 .../pytorch/sequential/nvte/dtype.py          | 83 +----------------
 .../pytorch/sequential/nvte/empty.py          |  4 +-
 .../pytorch/sequential/nvte/mmt.py            |  2 +-
 .../pytorch/sequential/utils.py               | 48 +++-------
 9 files changed, 148 insertions(+), 158 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index dcd0835c89..234babc0c6 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -20,12 +20,17 @@ class Tensor:
 
     def __init__(
         self,
-        dtype: DType,
         data: torch.Tensor,
         amax: torch.Tensor,
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
+        *,
+        dtype_override: DType | None = None,
     ):
+        if dtype_override is not None:
+            dtype = dtype_override
+        else:
+            dtype = torch_to_te_dtype(data.dtype)
         self._raw = RawTensor(
             data.data_ptr(),
             list(data.shape),
@@ -65,8 +70,92 @@ def __repr__(self):
         data_repr = "T" + data_repr[1:]
         return f"""\
 {data_repr},
-    dtype={self.dtype.name},\
+    dtype={dtype_name(self.dtype)},\
 amax={self.amax[0].item() if self.amax.numel() else None},\
 scale={self.scale.item() if self.scale.numel() else None},\
 scale_inv={self.scale_inv.item() if self.scale_inv.numel() else None}\
 )"""
+
+
+def te_to_torch_dtype(dtype: DType):
+    match dtype:
+        case DType.Byte:
+            assert (
+                False
+            ), "Byte is only used internally for cublas workspace, this shouldn't get called"
+        case DType.Int32:
+            return torch.int32
+        case DType.Int64:
+            return torch.int64
+        case DType.Float32:
+            return torch.float32
+        case DType.Float16:
+            return torch.float16
+        case DType.BFloat16:
+            return torch.bfloat16
+        # Using different types for fp8e4m3 and fp8e5m2
+        # allows for a type conversion in the other way
+        case DType.Float8E4M3:
+            return torch.int8
+        case DType.Float8E5M2:
+            return torch.uint8
+
+
+def torch_to_te_dtype(dtype: torch.dtype):
+    match dtype:
+        case torch.int32:
+            return DType.Int32
+        case torch.int64:
+            return DType.Int64
+        case torch.float32:
+            return DType.Float32
+        case torch.float16:
+            return DType.Float16
+        case torch.bfloat16:
+            return DType.BFloat16
+        case torch.int8:
+            return DType.Float8E4M3
+        case torch.uint8:
+            return DType.Float8E5M2
+        case _:
+            raise ValueError(f"Unsupported dtype: {dtype}")
+
+
+def bit_width(dtype: DType):
+    match dtype:
+        case DType.Byte:
+            return 8
+        case DType.Int32:
+            return 32
+        case DType.Int64:
+            return 64
+        case DType.Float32:
+            return 32
+        case DType.Float16:
+            return 16
+        case DType.BFloat16:
+            return 16
+        case DType.Float8E4M3:
+            return 8
+        case DType.Float8E5M2:
+            return 8
+
+
+def dtype_name(dtype: DType):
+    match dtype:
+        case DType.Byte:
+            return "byte"
+        case DType.Int32:
+            return "int32"
+        case DType.Int64:
+            return "int64"
+        case DType.Float32:
+            return "fp32"
+        case DType.Float16:
+            return "fp16"
+        case DType.BFloat16:
+            return "bf16"
+        case DType.Float8E4M3:
+            return "fp8e4m3"
+        case DType.Float8E5M2:
+            return "fp8e5m2"
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 6972db7acf..4553e693de 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -1,7 +1,7 @@
 from __future__ import annotations
 import torch
 from enum import Enum
-from typing import Sequence
+from typing import Sequence, TYPE_CHECKING
 
 class QKVLayout(Enum):
     NOT_INTERLEAVED = 0
@@ -43,15 +43,24 @@ class RawTensor:
     def scale_inv_ptr(self) -> int: ...
     def __init__(self, data_ptr: int, shape: Sequence[int], dtype: DType, amax_ptr: int, scale_ptr: int, scale_inv_ptr: int) -> None: ...
 
-class Tensor:
-    dtype: DType
-    shape: Sequence[int]
-    data: torch.Tensor
-    amax: torch.Tensor
-    scale: torch.Tensor
-    scale_inv: torch.Tensor
-    def data_ptr(self) -> int: ...
-    def __init__(self, dtype: DType, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor) -> None: ...
+# Expose names defined in real __init__.py
+# Which are not to be imported from transformer_engine_cuda
+if TYPE_CHECKING:
+    class Tensor:
+        dtype: DType
+        shape: Sequence[int]
+        data: torch.Tensor
+        amax: torch.Tensor
+        scale: torch.Tensor
+        scale_inv: torch.Tensor
+        def data_ptr(self) -> int: ...
+        def __init__(self, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor, *, dtype_override: DType | None = None,) -> None: ...
+
+
+    def te_to_torch_dtype(dtype: DType) -> torch.dtype: ...
+    def torch_to_te_dtype(dtype: torch.dtype) -> DType: ...
+    def bit_width(dtype: DType) -> int: ...
+    def dtype_name(dtype: DType) -> str: ...
 
 def gelu(input: Tensor, output: Tensor) -> None: ...
 def dgelu(grad: Tensor, input: Tensor, output: Tensor) -> None: ...
@@ -92,4 +101,4 @@ def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tenso
 def multi_cast_transpose(input_list: Sequence[Tensor], cast_output_list: Sequence[Tensor], transposed_output_list: Sequence[Tensor]) -> None: ...
 
 # Don't export these names (this stub file gets loaded as a real python module)
-del annotations, torch, Enum, Sequence # type: ignore
\ No newline at end of file
+del annotations, torch, Enum, Sequence, TYPE_CHECKING # type: ignore
\ No newline at end of file
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index e45b9418b9..a767615aa2 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -42,11 +42,8 @@ def inject_real(namespace: dict[str, Any]):
     real_types = _to_dict(inspect.getmembers(real, inspect.isclass))
 
     for type_name, _ in stub_types.items():
-        if type_name == "Tensor":  # Skip, as the type is a wrapper around RawTensor
-            continue
-        else:
-            if type_name not in real_types:
-                raise RuntimeError(
-                    f"Type {type_name} declared in {stub} not found in {real}"
-                )
-            namespace[type_name] = real_types[type_name]
+        if type_name not in real_types:
+            raise RuntimeError(
+                f"Type {type_name} declared in {stub} not found in {real}"
+            )
+        namespace[type_name] = real_types[type_name]
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 25f0c0061f..d52a697e82 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,14 +1,12 @@
 from __future__ import annotations
 import torch
 from .. import cpp_extensions as _nvte
-from .dtype import torch_to_te_dtype
 from ..utils import torch_op
 
 
 @torch_op
 def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
     return _nvte.Tensor(
-        torch_to_te_dtype(t.dtype),
         t.data,
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index 557b690b66..5b90c814a1 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -5,13 +5,13 @@
 from .empty import empty, multi_empty_share_metadata
 
 
-def cast(t: _nvte.Tensor, dtype: _nvte.DType):
-    assert t.dtype != dtype
+def cast(t: _nvte.Tensor, out_dtype: _nvte.DType):
+    assert t.dtype != out_dtype
     if is_fp8(t):
-        assert not is_fp8(dtype)
+        assert not is_fp8(out_dtype)
 
-    output = empty(t.shape, dtype)
-    if is_fp8(dtype):
+    output = empty(t.shape, out_dtype)
+    if is_fp8(out_dtype):
         _nvte.fp8_quantize(t, output)
     elif is_fp8(t):
         _nvte.fp8_dequantize(t, output)
@@ -21,11 +21,11 @@ def cast(t: _nvte.Tensor, dtype: _nvte.DType):
     return output
 
 
-def cast_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
-    if dtype is None or t.dtype == dtype:
+def cast_checked(t: _nvte.Tensor, out_dtype: _nvte.DType | None):
+    if out_dtype is None or t.dtype == out_dtype:
         return t
     else:
-        return cast(t, dtype)
+        return cast(t, out_dtype)
 
 
 def transpose(t: _nvte.Tensor):
@@ -34,24 +34,24 @@ def transpose(t: _nvte.Tensor):
     return output
 
 
-def cast_transpose(t: _nvte.Tensor, dtype: _nvte.DType):
-    assert t.dtype != dtype
+def cast_transpose(t: _nvte.Tensor, out_dtype: _nvte.DType):
+    assert t.dtype != out_dtype
     if is_fp8(t):
-        assert not is_fp8(dtype)
+        assert not is_fp8(out_dtype)
 
     out_cast, out_transpose = multi_empty_share_metadata(
-        (t.shape, dtype), (t.shape[::-1], dtype)
+        (t.shape, out_dtype), (t.shape[::-1], out_dtype)
     )
 
     _nvte.cast_transpose(t, out_cast, out_transpose)
     return out_cast, out_transpose
 
 
-def cast_transpose_checked(t: _nvte.Tensor, dtype: _nvte.DType | None):
-    if dtype is None or t.dtype == dtype:
+def cast_transpose_checked(t: _nvte.Tensor, out_dtype: _nvte.DType | None):
+    if out_dtype is None or t.dtype == out_dtype:
         return t, transpose(t)
     else:
-        return cast_transpose(t, dtype)
+        return cast_transpose(t, out_dtype)
 
 
 def multi_cast_transpose(*desc: tuple[_nvte.Tensor, _nvte.DType]):
diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index f807a9ef09..73d282a782 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -1,88 +1,7 @@
 from __future__ import annotations
-import torch
 from .. import cpp_extensions as _nvte
 
-
-def te_to_torch_dtype(dtype: _nvte.DType):
-    match dtype:
-        case _nvte.DType.Byte:
-            return torch.uint8
-        case _nvte.DType.Int32:
-            return torch.int32
-        case _nvte.DType.Int64:
-            return torch.int64
-        case _nvte.DType.Float32:
-            return torch.float32
-        case _nvte.DType.Float16:
-            return torch.float16
-        case _nvte.DType.BFloat16:
-            return torch.bfloat16
-        case _nvte.DType.Float8E4M3:
-            return torch.int8
-        case _nvte.DType.Float8E5M2:
-            return torch.int8
-
-
-def torch_to_te_dtype(dtype: torch.dtype):
-    match dtype:
-        case torch.int:
-            return _nvte.DType.Int32
-        case torch.int32:
-            return _nvte.DType.Int32
-        case torch.int64:
-            return _nvte.DType.Int64
-        case torch.float:
-            return _nvte.DType.Float32
-        case torch.float32:
-            return _nvte.DType.Float32
-        case torch.half:
-            return _nvte.DType.Float16
-        case torch.float16:
-            return _nvte.DType.Float16
-        case torch.bfloat16:
-            return _nvte.DType.BFloat16
-        case _:
-            raise ValueError(f"Unsupported dtype: {dtype}")
-
-
-def bit_width(dtype: _nvte.DType):
-    match dtype:
-        case _nvte.DType.Byte:
-            return 8
-        case _nvte.DType.Int32:
-            return 32
-        case _nvte.DType.Int64:
-            return 64
-        case _nvte.DType.Float32:
-            return 32
-        case _nvte.DType.Float16:
-            return 16
-        case _nvte.DType.BFloat16:
-            return 16
-        case _nvte.DType.Float8E4M3:
-            return 8
-        case _nvte.DType.Float8E5M2:
-            return 8
-
-
-def dtype_name(dtype: _nvte.DType):
-    match dtype:
-        case _nvte.DType.Byte:
-            return "byte"
-        case _nvte.DType.Int32:
-            return "int32"
-        case _nvte.DType.Int64:
-            return "int64"
-        case _nvte.DType.Float32:
-            return "fp32"
-        case _nvte.DType.Float16:
-            return "fp16"
-        case _nvte.DType.BFloat16:
-            return "bf16"
-        case _nvte.DType.Float8E4M3:
-            return "fp8e4m3"
-        case _nvte.DType.Float8E5M2:
-            return "fp8e5m2"
+from ..cpp_extensions import te_to_torch_dtype, torch_to_te_dtype, dtype_name, bit_width
 
 
 def is_fp8(t: _nvte.Tensor | _nvte.DType):
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 32348d739e..68484ad32a 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -6,8 +6,8 @@
 from . import execution_state
 
 
-def empty(shape: Sequence[int] = (), dtype: _nvte.DType = _nvte.DType.Float32):
-    return multi_empty_share_metadata((shape, dtype))[0]
+def empty(shape: Sequence[int] = (), out_dtype: _nvte.DType = _nvte.DType.Float32):
+    return multi_empty_share_metadata((shape, out_dtype))[0]
 
 
 def empty_like(t: _nvte.Tensor):
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 8c019db95e..14ddcb08fb 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -24,11 +24,11 @@ def _cublas_workspace():
     workspace_size = 33_554_432 if _is_hopper() else 4_194_304
     data = torch.empty(workspace_size, dtype=torch.int8, device="cuda")
     return _nvte.Tensor(
-        _nvte.DType.Byte,
         data,
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),
+        dtype_override=_nvte.DType.Byte,
     )
 
 
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index d50fcf2ebc..323100a699 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -177,37 +177,15 @@ def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
         ...
 
 
-def cast(x: Any, _: type[T], /) -> T:
-    return x
-
-
-def set_name(name: str) -> Callable[..., Any]:
-    def decorator(func: Callable[..., Any]):
-        func.__name__ = name
-        return func
-
-    return decorator
-
-
-def recursive_apply(
-    func: Callable[[Any], Any],
-    x: Any,
-    pred: Callable[[Any], bool],
-    on_false: Callable[[Any], Any] = lambda x: x,
-) -> Any:
-    if pred(x):
-        return func(x)
-    elif isinstance(x, list):
-        return [func(y) for y in x]  # type: ignore
-    elif isinstance(x, tuple):
-        return tuple(func(y) for y in x)  # type: ignore
-    elif isinstance(x, dict):
-        return {k: func(v) for k, v in x.items()}  # type: ignore
+def cast(x: Any, t: type[T] | GenericAlias, /) -> T:
+    if not isinstance(t, GenericAlias):
+        assert isinstance(x, t)
     else:
-        return on_false(x)
+        assert isinstance(x, t.__origin__)
+    return x
 
 
-def torch_op(func: Callable[..., Any]):
+def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
     import torch
     from . import cpp_extensions
 
@@ -267,9 +245,7 @@ def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
 
         def wrap_type(arg_type: type):
             if arg_type is cpp_extensions.Tensor:
-                return tuple[
-                    int, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor
-                ]
+                return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
             elif issubclass(arg_type, Enum):
                 return int
             elif arg_type in [int, float, bool, str, torch.Tensor]:
@@ -330,17 +306,19 @@ def outer_wrapper{outer_sig}:
         ns = dict(func=func, __name__=__name__)
         try:
             exec(source, ns)
-            declared = decl(name)(ns[func.__name__])
+            extracted = cast(ns[func.__name__], Callable[..., Any])
+
+            declared = decl(name)(extracted)
             if version1:
-                declared.impl("cuda")(ns[func.__name__])  # type: ignore
+                declared.impl("cuda")(extracted)  # type: ignore
             else:
-                impl(name)(ns[func.__name__])  # type: ignore
+                impl(name)(extracted)
         except Exception as e:
             raise RuntimeError(
                 f"Failed to compile wrapper for {func.__name__}. Generated code: \n```\n{source}```"
             ) from e
 
-        outer_wrapper = ns["outer_wrapper"]
+        outer_wrapper = cast(ns["outer_wrapper"], Callable[PS, T])
         return outer_wrapper
 
     return make_wrapper(func)

From 2e8e3a9c7c014556de2d659f12f5e6debf8bce84 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 01:19:45 +0200
Subject: [PATCH 351/535] fix type error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ----
 1 file changed, 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 323100a699..0b9c90bf7f 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -178,10 +178,6 @@ def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
 
 
 def cast(x: Any, t: type[T] | GenericAlias, /) -> T:
-    if not isinstance(t, GenericAlias):
-        assert isinstance(x, t)
-    else:
-        assert isinstance(x, t.__origin__)
     return x
 
 

From eddc5047aedd4174cb1f2f19949ec060db166c7d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 01:20:30 +0200
Subject: [PATCH 352/535] fix empty

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/empty.py | 1 -
 1 file changed, 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 68484ad32a..272499bd01 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -19,7 +19,6 @@ def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]
         amax, scale, scale_inv = execution_state.meta_tensor_provider()
     return tuple(
         _nvte.Tensor(
-            dtype,
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda")
             if shape != ()
             else torch.Tensor().cuda(),

From c3881c31ba88a7310040d7c0abb2209dabc602f1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 01:23:48 +0200
Subject: [PATCH 353/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py          | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 234babc0c6..0e8d1370e6 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -80,9 +80,7 @@ def __repr__(self):
 def te_to_torch_dtype(dtype: DType):
     match dtype:
         case DType.Byte:
-            assert (
-                False
-            ), "Byte is only used internally for cublas workspace, this shouldn't get called"
+            return torch.int8
         case DType.Int32:
             return torch.int32
         case DType.Int64:
@@ -114,6 +112,9 @@ def torch_to_te_dtype(dtype: torch.dtype):
         case torch.bfloat16:
             return DType.BFloat16
         case torch.int8:
+            # We assume that this is not a workspace (Byte)
+            # tensor, as these shouldn't be exposed outside
+            # of basic operations.
             return DType.Float8E4M3
         case torch.uint8:
             return DType.Float8E5M2

From 231a6623618845a5ab1196b80a6c0550475e9d44 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 11:35:52 +0200
Subject: [PATCH 354/535] code cleanup

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/sequential.py   |  7 +-
 .../pytorch/sequential/nvte/cast_transpose.py |  5 +-
 .../pytorch/sequential/recipe.py              |  2 +-
 .../pytorch/sequential/utils.py               | 67 ++++++++-----------
 4 files changed, 37 insertions(+), 44 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/sequential.py b/transformer_engine/pytorch/sequential/module/sequential.py
index c9fa0e45db..0eed26c0ca 100644
--- a/transformer_engine/pytorch/sequential/module/sequential.py
+++ b/transformer_engine/pytorch/sequential/module/sequential.py
@@ -1,6 +1,7 @@
 from __future__ import annotations
 from typing import OrderedDict, overload
-from torch import nn
+
+from ..utils import reinterpret_cast
 from .base import BaseModule
 
 
@@ -36,8 +37,8 @@ def _modules_from_args(
         if len(args) == 1 and isinstance(args[0], OrderedDict):
             modules = list(args[0].items())
         else:
-            args1: tuple[BaseModule, ...] = args  # type: ignore
-            modules = list(map(lambda p: (f"{p[0]}", p[1]), enumerate(args1)))
+            args = reinterpret_cast(args, tuple[BaseModule, ...])
+            modules = list(map(lambda p: (f"{p[0]}", p[1]), enumerate(args)))
 
         for name, module in modules:
             submodules: list[tuple[str, BaseModule]]
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index 5b90c814a1..cea74161e2 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -1,4 +1,6 @@
 from __future__ import annotations
+
+from ..utils import reinterpret_cast
 from .. import cpp_extensions as _nvte
 
 from .dtype import is_fp8
@@ -61,7 +63,8 @@ def multi_cast_transpose(*desc: tuple[_nvte.Tensor, _nvte.DType]):
     ]
     out_cast_list, out_transpose_list = zip(*outs)
     input_list, _ = zip(*desc)
-    _nvte.multi_cast_transpose(input_list, out_cast_list, out_transpose_list)  # type: ignore
+    input_list = reinterpret_cast(input_list, tuple[_nvte.Tensor, ...])
+    _nvte.multi_cast_transpose(input_list, out_cast_list, out_transpose_list)
     return outs
 
 
diff --git a/transformer_engine/pytorch/sequential/recipe.py b/transformer_engine/pytorch/sequential/recipe.py
index 38ef43b0f5..7cbe70049b 100644
--- a/transformer_engine/pytorch/sequential/recipe.py
+++ b/transformer_engine/pytorch/sequential/recipe.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-from typing import Callable, TypeVar, ClassVar, NamedTuple
+from typing import Callable, TypeVar, NamedTuple
 from types import TracebackType
 from .cpp_extensions import DType
 import torch
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 0b9c90bf7f..82501faa2c 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -177,7 +177,7 @@ def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
         ...
 
 
-def cast(x: Any, t: type[T] | GenericAlias, /) -> T:
+def reinterpret_cast(x: Any, _: type[T], /) -> T:
     return x
 
 
@@ -185,33 +185,6 @@ def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
     import torch
     from . import cpp_extensions
 
-    version1: bool
-    custom_ops = None
-    try:
-        custom_ops = torch._custom_ops  # type: ignore
-        decl = custom_ops.custom_op  # type: ignore
-        impl = custom_ops.impl  # type: ignore
-        version1 = False
-    except AttributeError:
-        pass
-    if custom_ops is None:
-        try:
-            custom_ops = torch._custom_op.impl  # type: ignore
-            decl = custom_ops.custom_op  # type: ignore
-            impl = custom_ops.CustomOp.impl  # type: ignore
-            version1 = True
-        except AttributeError:
-            pass
-    if custom_ops is None:
-        if not hasattr(torch_op, "warned"):  # type: ignore
-            torch_op.warned = True  # type: ignore
-            warnings.warn("Unable to find custom_op, torch_op decorator has no effect")
-        return func
-
-    decl = cast(decl, Callable[[str], Decorator])  # type: ignore
-    impl = cast(impl, Callable[[str], Decorator])  # type: ignore
-    name = f"nvte::{func.__name__}"
-
     def make_wrapper(func: Callable[..., Any]):
         def type_name(t: type) -> str:
             if t.__module__ == "builtins":
@@ -249,6 +222,28 @@ def wrap_type(arg_type: type):
             else:
                 raise NotImplementedError(arg_type_name)
 
+        def register_op(func: Callable[..., Any]):
+            name = f"nvte::{func.__name__}"
+            # Different versions of PyTorch have different ways of registering custom ops
+            try:
+                decl, impl = (torch._custom_ops.custom_op, torch._custom_ops.impl)  # type: ignore
+                decl(name)(func)
+                impl(name)(func)
+                return
+            except AttributeError:
+                pass
+            try:
+                decl, impl = (torch._custom_op.impl.custom_op, torch._custom_op.impl.CustomOp.impl)  # type: ignore
+                declared = decl(name)(func)  # type: ignore
+                declared.impl("cuda")(func)  # type: ignore
+                return
+            except AttributeError:
+                pass
+            if not hasattr(register_op, "warned"):  # type: ignore
+                register_op.warned = True  # type: ignore
+                warnings.warn("Unable to find custom_op, decorator has no effect")
+
+        # Dynamically generate code of the wrappers
         arg_types = get_arg_types(func)
         arg_names = get_arg_names(func)
         arg_type_names = list(map(type_name, arg_types))
@@ -299,22 +294,16 @@ def outer_wrapper{outer_sig}:
     {result_unwrapping_code}
     return result
 """
-        ns = dict(func=func, __name__=__name__)
         try:
+            ns = dict(func=func, __name__=__name__)
             exec(source, ns)
-            extracted = cast(ns[func.__name__], Callable[..., Any])
-
-            declared = decl(name)(extracted)
-            if version1:
-                declared.impl("cuda")(extracted)  # type: ignore
-            else:
-                impl(name)(extracted)
+            extracted = reinterpret_cast(ns[func.__name__], Callable[..., Any])
+            register_op(extracted)
+            outer_wrapper = reinterpret_cast(ns["outer_wrapper"], Callable[PS, T])
+            return outer_wrapper
         except Exception as e:
             raise RuntimeError(
                 f"Failed to compile wrapper for {func.__name__}. Generated code: \n```\n{source}```"
             ) from e
 
-        outer_wrapper = cast(ns["outer_wrapper"], Callable[PS, T])
-        return outer_wrapper
-
     return make_wrapper(func)

From 11b16fe3ccf2fc9ea679dd811db1d0944661081d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 11:37:42 +0200
Subject: [PATCH 355/535] code cleanup

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 82501faa2c..a6f6c843d8 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -177,7 +177,7 @@ def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
         ...
 
 
-def reinterpret_cast(x: Any, _: type[T], /) -> T:
+def reinterpret_cast(x: Any, t: type[T], /) -> T:
     return x
 
 

From bb5fe892b9ec11f5539a6004c74ae5971164a54d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 12:38:33 +0200
Subject: [PATCH 356/535] register abstract implementation for torch

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 39 ++++++++++++++++---
 1 file changed, 34 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index a6f6c843d8..f8a7b2723f 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -183,6 +183,7 @@ def reinterpret_cast(x: Any, t: type[T], /) -> T:
 
 def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
     import torch
+    from copy import deepcopy
     from . import cpp_extensions
 
     def make_wrapper(func: Callable[..., Any]):
@@ -222,20 +223,26 @@ def wrap_type(arg_type: type):
             else:
                 raise NotImplementedError(arg_type_name)
 
-        def register_op(func: Callable[..., Any]):
+        def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
             name = f"nvte::{func.__name__}"
             # Different versions of PyTorch have different ways of registering custom ops
             try:
-                decl, impl = (torch._custom_ops.custom_op, torch._custom_ops.impl)  # type: ignore
+                decl, impl, aimp = (  # type: ignore
+                    torch._custom_ops.custom_op,  # type: ignore
+                    torch._custom_ops.impl,  # type: ignore
+                    torch._custom_ops.impl_abstract,  # type: ignore
+                )
                 decl(name)(func)
                 impl(name)(func)
+                aimp(name)(abstract_impl)
                 return
             except AttributeError:
                 pass
             try:
-                decl, impl = (torch._custom_op.impl.custom_op, torch._custom_op.impl.CustomOp.impl)  # type: ignore
+                decl = torch._custom_op.impl.custom_op  # type: ignore
                 declared = decl(name)(func)  # type: ignore
                 declared.impl("cuda")(func)  # type: ignore
+                declared.impl_abstract(abstract_impl)  # type: ignore
                 return
             except AttributeError:
                 pass
@@ -295,11 +302,33 @@ def outer_wrapper{outer_sig}:
     return result
 """
         try:
+            # Create abstract implementation
+            abstract_impl = deepcopy(func)
+
+            # Swap real cpp_extensions (_nvte) for impostor that does nothing
+            # This is needed so the abstract implementation is traceable by PyTorch Dynamo
+            class NVTEImpostor:
+                def __getattr__(self, attr_name: str) -> Any:
+                    attr = getattr(cpp_extensions, attr_name)
+                    if callable(attr):
+                        return lambda *args, **kwargs: None  # type: ignore
+                    else:
+                        return attr
+
+            abstract_impl.__globals__["_nvte"] = NVTEImpostor()
+
+            # Create op implementation
             ns = dict(func=func, __name__=__name__)
             exec(source, ns)
-            extracted = reinterpret_cast(ns[func.__name__], Callable[..., Any])
-            register_op(extracted)
+            op_impl = reinterpret_cast(ns[func.__name__], Callable[..., Any])
             outer_wrapper = reinterpret_cast(ns["outer_wrapper"], Callable[PS, T])
+            # Create op abstract implementation
+            ns = dict(func=abstract_impl, __name__=__name__)
+            exec(source, ns)
+            op_aimp = reinterpret_cast(ns[func.__name__], Callable[..., Any])
+            # Register inner wrapper as torch op
+            register_op(op_impl, op_aimp)
+
             return outer_wrapper
         except Exception as e:
             raise RuntimeError(

From 87a81231e84d6f6d7d0de1da7a969a59a8a15f5c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 12:41:00 +0200
Subject: [PATCH 357/535] fix abstract impl registration

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index f8a7b2723f..ed527635b9 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -242,7 +242,7 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
                 decl = torch._custom_op.impl.custom_op  # type: ignore
                 declared = decl(name)(func)  # type: ignore
                 declared.impl("cuda")(func)  # type: ignore
-                declared.impl_abstract(abstract_impl)  # type: ignore
+                declared.impl_abstract()(abstract_impl)  # type: ignore
                 return
             except AttributeError:
                 pass

From cef6a20571af2626c5b8aec27771257b84276df6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 12:49:43 +0200
Subject: [PATCH 358/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index ed527635b9..2260cb3a3c 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -322,6 +322,7 @@ def __getattr__(self, attr_name: str) -> Any:
             exec(source, ns)
             op_impl = reinterpret_cast(ns[func.__name__], Callable[..., Any])
             outer_wrapper = reinterpret_cast(ns["outer_wrapper"], Callable[PS, T])
+            del ns
             # Create op abstract implementation
             ns = dict(func=abstract_impl, __name__=__name__)
             exec(source, ns)

From 4c3adca6e17d4ab38e79f8a06af4eeab98b96f19 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 13:08:07 +0200
Subject: [PATCH 359/535] save source for debug

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 10 ++++++++--
 1 file changed, 8 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 2260cb3a3c..4a6719c132 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -172,6 +172,12 @@ def get_return_type(f: Callable[..., T]) -> type[T]:
     return return_type  # type: ignore
 
 
+def exec_saving_source(source: str, globals: dict[str, Any]):
+    import ast
+
+    exec(compile(ast.parse(source), filename="<exec>", mode="exec"), globals)
+
+
 class Decorator(Protocol):
     def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
         ...
@@ -319,13 +325,13 @@ def __getattr__(self, attr_name: str) -> Any:
 
             # Create op implementation
             ns = dict(func=func, __name__=__name__)
-            exec(source, ns)
+            exec_saving_source(source, ns)
             op_impl = reinterpret_cast(ns[func.__name__], Callable[..., Any])
             outer_wrapper = reinterpret_cast(ns["outer_wrapper"], Callable[PS, T])
             del ns
             # Create op abstract implementation
             ns = dict(func=abstract_impl, __name__=__name__)
-            exec(source, ns)
+            exec_saving_source(source, ns)
             op_aimp = reinterpret_cast(ns[func.__name__], Callable[..., Any])
             # Register inner wrapper as torch op
             register_op(op_impl, op_aimp)

From 957115f9bd70e66ba49da52c4526e75f0609ccf7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 13:37:00 +0200
Subject: [PATCH 360/535] save sources

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 22 ++++++++++++++++++-
 1 file changed, 21 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 4a6719c132..7405d2caa7 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -2,6 +2,7 @@
 from typing import (
     Any,
     Callable,
+    ClassVar,
     Generic,
     Generator,
     Literal,
@@ -174,8 +175,27 @@ def get_return_type(f: Callable[..., T]) -> type[T]:
 
 def exec_saving_source(source: str, globals: dict[str, Any]):
     import ast
+    import linecache
 
-    exec(compile(ast.parse(source), filename="<exec>", mode="exec"), globals)
+    if not hasattr(exec_saving_source, "sources"):
+        old_getlines = linecache.getlines
+        sources = list[str]()
+
+        def patched_getlines(filename: str):
+            if filename.startswith("<exec#") and filename.endswith(">"):
+                index = int(filename[len("<exec#") : -1])
+                return sources[index].splitlines(True)
+            else:
+                return old_getlines(filename)
+
+        linecache.getlines = patched_getlines
+        setattr(exec_saving_source, "sources", sources)
+    sources = getattr(exec_saving_source, "sources")
+    exec(
+        compile(ast.parse(source), filename=f"<exec#{len(sources)}>", mode="exec"),
+        globals,
+    )
+    sources.append(source)
 
 
 class Decorator(Protocol):

From 9ce8fb4794bfa26d501bca9dfad213e082d8eba9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 13:40:38 +0200
Subject: [PATCH 361/535] fix getlines

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 7405d2caa7..6249cda5ad 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -181,16 +181,16 @@ def exec_saving_source(source: str, globals: dict[str, Any]):
         old_getlines = linecache.getlines
         sources = list[str]()
 
-        def patched_getlines(filename: str):
+        def patched_getlines(filename: str, module_globals: Any = None):
             if filename.startswith("<exec#") and filename.endswith(">"):
                 index = int(filename[len("<exec#") : -1])
                 return sources[index].splitlines(True)
             else:
-                return old_getlines(filename)
+                return old_getlines(filename, module_globals)
 
         linecache.getlines = patched_getlines
         setattr(exec_saving_source, "sources", sources)
-    sources = getattr(exec_saving_source, "sources")
+    sources = reinterpret_cast(getattr(exec_saving_source, "sources"), list[str])
     exec(
         compile(ast.parse(source), filename=f"<exec#{len(sources)}>", mode="exec"),
         globals,

From 5037b8c2bd833335af53134a531ace3bf802758c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 13:51:32 +0200
Subject: [PATCH 362/535] fix getlines

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 6249cda5ad..ace237157d 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -182,8 +182,8 @@ def exec_saving_source(source: str, globals: dict[str, Any]):
         sources = list[str]()
 
         def patched_getlines(filename: str, module_globals: Any = None):
-            if filename.startswith("<exec#") and filename.endswith(">"):
-                index = int(filename[len("<exec#") : -1])
+            if "<exec#" in filename:
+                index = int(filename.split("#")[1].split(">")[0])
                 return sources[index].splitlines(True)
             else:
                 return old_getlines(filename, module_globals)

From 331b6c453692122a7dd8749bed906d4b36b2978b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 14:03:45 +0200
Subject: [PATCH 363/535] fix abstract impl

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 28 +++++++++----------
 1 file changed, 13 insertions(+), 15 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index ace237157d..57feb33c19 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -315,6 +315,14 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
 import torch
 from . import cpp_extensions
 
+def abstract_impl{inner_sig}:
+    {arg_unwrapping_code}
+    func.__globals__["_nvte"] = impostor
+    result: {return_type_name} = func({unwrapped_args})
+    func.__globals__["_nvte"] = cpp_extensions
+    {result_wrapping_code}
+    return result_
+
 def {func.__name__}{inner_sig}:
     {arg_unwrapping_code}
     result: {return_type_name} = func({unwrapped_args})
@@ -328,9 +336,6 @@ def outer_wrapper{outer_sig}:
     return result
 """
         try:
-            # Create abstract implementation
-            abstract_impl = deepcopy(func)
-
             # Swap real cpp_extensions (_nvte) for impostor that does nothing
             # This is needed so the abstract implementation is traceable by PyTorch Dynamo
             class NVTEImpostor:
@@ -341,22 +346,15 @@ def __getattr__(self, attr_name: str) -> Any:
                     else:
                         return attr
 
-            abstract_impl.__globals__["_nvte"] = NVTEImpostor()
-
-            # Create op implementation
-            ns = dict(func=func, __name__=__name__)
+            # Create op
+            ns = dict(func=func, __name__=__name__, impostor=NVTEImpostor())
             exec_saving_source(source, ns)
             op_impl = reinterpret_cast(ns[func.__name__], Callable[..., Any])
-            outer_wrapper = reinterpret_cast(ns["outer_wrapper"], Callable[PS, T])
-            del ns
-            # Create op abstract implementation
-            ns = dict(func=abstract_impl, __name__=__name__)
-            exec_saving_source(source, ns)
-            op_aimp = reinterpret_cast(ns[func.__name__], Callable[..., Any])
-            # Register inner wrapper as torch op
+            op_wrap = reinterpret_cast(ns["outer_wrapper"], Callable[PS, T])
+            op_aimp = reinterpret_cast(ns["abstract_impl"], Callable[..., Any])
             register_op(op_impl, op_aimp)
 
-            return outer_wrapper
+            return op_wrap
         except Exception as e:
             raise RuntimeError(
                 f"Failed to compile wrapper for {func.__name__}. Generated code: \n```\n{source}```"

From 1cb4283f8a0956ceee594074881513fa543189d7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 14:17:09 +0200
Subject: [PATCH 364/535] move tensor op

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 170 +++++++++++++++++-
 .../pytorch/sequential/utils.py               | 156 ----------------
 2 files changed, 169 insertions(+), 157 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index d52a697e82..95c632287e 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,7 +1,175 @@
 from __future__ import annotations
+from collections import namedtuple
+from typing import Any, Callable
+import warnings
+from enum import Enum
+from types import GenericAlias
 import torch
 from .. import cpp_extensions as _nvte
-from ..utils import torch_op
+from ..utils import (
+    PS,
+    T,
+    get_arg_names,
+    get_arg_types,
+    get_return_type,
+    exec_saving_source,
+    reinterpret_cast,
+)
+
+
+def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
+    def make_wrapper(func: Callable[..., Any]):
+        def type_name(t: type) -> str:
+            if t.__module__ == "builtins":
+                if isinstance(t, GenericAlias):
+                    return str(t)
+                else:
+                    return t.__name__
+            elif t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions":
+                return f"cpp_extensions.{t.__name__}"
+            else:
+                return f"{t.__module__}.{t.__name__}"
+
+        def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
+            wrapped_arg_type_name = type_name(wrap_type(arg_type))
+            if arg_type is _nvte.Tensor:
+                w = f"{arg_name}_: {wrapped_arg_type_name} = ({arg_name}.data, {arg_name}.amax, {arg_name}.scale, {arg_name}.scale_inv)\n"
+                u = f"{arg_name}: {arg_type_name} = {arg_type_name}(*{arg_name}_)\n"
+            elif issubclass(arg_type, Enum):
+                w = f"{arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
+                u = f"{arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
+            elif arg_type in [int, float, bool, str, torch.Tensor]:
+                w = f"{arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
+                u = f"{arg_name}: {arg_type_name} = {arg_name}_\n"
+            else:
+                raise NotImplementedError(arg_type_name)
+            return (w, u)
+
+        def wrap_type(arg_type: type):
+            if arg_type is _nvte.Tensor:
+                return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
+            elif issubclass(arg_type, Enum):
+                return int
+            elif arg_type in [int, float, bool, str, torch.Tensor]:
+                return arg_type
+            else:
+                raise NotImplementedError(arg_type_name)
+
+        def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
+            name = f"nvte::{func.__name__}"
+            # Different versions of PyTorch have different ways of registering custom ops
+            try:
+                decl, impl, aimp = (  # type: ignore
+                    torch._custom_ops.custom_op,  # type: ignore
+                    torch._custom_ops.impl,  # type: ignore
+                    torch._custom_ops.impl_abstract,  # type: ignore
+                )
+                decl(name)(func)
+                impl(name)(func)
+                aimp(name)(abstract_impl)
+                return
+            except AttributeError:
+                pass
+            try:
+                decl = torch._custom_op.impl.custom_op  # type: ignore
+                declared = decl(name)(func)  # type: ignore
+                declared.impl("cuda")(func)  # type: ignore
+                declared.impl_abstract()(abstract_impl)  # type: ignore
+                return
+            except AttributeError:
+                pass
+            if not hasattr(register_op, "warned"):  # type: ignore
+                register_op.warned = True  # type: ignore
+                warnings.warn("Unable to find custom_op, decorator has no effect")
+
+        # Dynamically generate code of the wrappers
+        arg_types = get_arg_types(func)
+        arg_names = get_arg_names(func)
+        arg_type_names = list(map(type_name, arg_types))
+        return_type = get_return_type(func)
+        return_type_name = type_name(return_type)
+        outer_sig = f"""({ ','.join(
+            f'{arg_name}: {arg_type_name}'
+            for arg_name, arg_type_name in zip(arg_names, arg_type_names)
+        ) }) -> {return_type_name}"""
+        arg_wrapping_code = ""
+        arg_unwrapping_code = ""
+        for arg_name, arg_type, arg_type_name in zip(
+            arg_names, arg_types, arg_type_names
+        ):
+            w, u = wrap_unwrap_code(arg_name, arg_type, arg_type_name)
+            arg_wrapping_code += w
+            arg_unwrapping_code += u
+        wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
+
+        result_wrapping_code, result_unwrapping_code = wrap_unwrap_code(
+            "result", return_type, return_type_name
+        )
+
+        wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
+        wrapped_arg_types = [wrap_type(t) for t in arg_types]
+        wrapped_arg_type_names = [type_name(t) for t in wrapped_arg_types]
+        wrapped_return_type = wrap_type(return_type)
+        wrapped_return_type_name = type_name(wrapped_return_type)
+        inner_sig = f"""({ ','.join(
+            f'{arg_name}: {arg_type_name}'
+            for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
+        ) }) -> {wrapped_return_type_name}"""
+        unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
+
+        source = f"""\
+import torch
+from . import cpp_extensions
+
+def abstract_impl{inner_sig}:
+    {arg_unwrapping_code}
+    func.__globals__["_nvte"] = impostor
+    result: {return_type_name} = func({unwrapped_args})
+    func.__globals__["_nvte"] = cpp_extensions
+    {result_wrapping_code}
+    return result_
+
+def {func.__name__}{inner_sig}:
+    {arg_unwrapping_code}
+    result: {return_type_name} = func({unwrapped_args})
+    {result_wrapping_code}
+    return result_
+
+def outer_wrapper{outer_sig}:
+    {arg_wrapping_code}
+    result_: {wrapped_return_type_name} = {func.__name__}({wrapped_args})
+    {result_unwrapping_code}
+    return result
+"""
+        try:
+            # Swap real cpp_extensions (_nvte) for impostor that does nothing
+            # This is needed so the abstract implementation is traceable by PyTorch Dynamo
+            class NVTEImpostor:
+                def __getattr__(self, attr_name: str) -> Any:
+                    if attr_name == "Tensor":
+                        return namedtuple("Tensor", ["data", "amax", "scale", "scale_inv"])  # type: ignore
+                    else:
+                        attr = getattr(_nvte, attr_name)
+                        if callable(attr):
+                            return lambda *args, **kwargs: None  # type: ignore
+                        else:
+                            return attr
+
+            # Create op
+            ns = dict(func=func, __name__=__name__, impostor=NVTEImpostor())
+            exec_saving_source(source, ns)
+            op_impl = reinterpret_cast(ns[func.__name__], Callable[..., Any])
+            op_wrap = reinterpret_cast(ns["outer_wrapper"], Callable[PS, T])
+            op_aimp = reinterpret_cast(ns["abstract_impl"], Callable[..., Any])
+            register_op(op_impl, op_aimp)
+
+            return op_wrap
+        except Exception as e:
+            raise RuntimeError(
+                f"Failed to compile wrapper for {func.__name__}. Generated code: \n```\n{source}```"
+            ) from e
+
+    return make_wrapper(func)
 
 
 @torch_op
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 57feb33c19..4f90e8153a 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -205,159 +205,3 @@ def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
 
 def reinterpret_cast(x: Any, t: type[T], /) -> T:
     return x
-
-
-def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
-    import torch
-    from copy import deepcopy
-    from . import cpp_extensions
-
-    def make_wrapper(func: Callable[..., Any]):
-        def type_name(t: type) -> str:
-            if t.__module__ == "builtins":
-                if isinstance(t, GenericAlias):
-                    return str(t)
-                else:
-                    return t.__name__
-            elif t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions":
-                return f"cpp_extensions.{t.__name__}"
-            else:
-                return f"{t.__module__}.{t.__name__}"
-
-        def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
-            wrapped_arg_type_name = type_name(wrap_type(arg_type))
-            if arg_type is cpp_extensions.Tensor:
-                w = f"{arg_name}_: {wrapped_arg_type_name} = ({arg_name}.data, {arg_name}.amax, {arg_name}.scale, {arg_name}.scale_inv)\n"
-                u = f"{arg_name}: {arg_type_name} = {arg_type_name}(*{arg_name}_)\n"
-            elif issubclass(arg_type, Enum):
-                w = f"{arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
-                u = f"{arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
-            elif arg_type in [int, float, bool, str, torch.Tensor]:
-                w = f"{arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
-                u = f"{arg_name}: {arg_type_name} = {arg_name}_\n"
-            else:
-                raise NotImplementedError(arg_type_name)
-            return (w, u)
-
-        def wrap_type(arg_type: type):
-            if arg_type is cpp_extensions.Tensor:
-                return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
-            elif issubclass(arg_type, Enum):
-                return int
-            elif arg_type in [int, float, bool, str, torch.Tensor]:
-                return arg_type
-            else:
-                raise NotImplementedError(arg_type_name)
-
-        def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
-            name = f"nvte::{func.__name__}"
-            # Different versions of PyTorch have different ways of registering custom ops
-            try:
-                decl, impl, aimp = (  # type: ignore
-                    torch._custom_ops.custom_op,  # type: ignore
-                    torch._custom_ops.impl,  # type: ignore
-                    torch._custom_ops.impl_abstract,  # type: ignore
-                )
-                decl(name)(func)
-                impl(name)(func)
-                aimp(name)(abstract_impl)
-                return
-            except AttributeError:
-                pass
-            try:
-                decl = torch._custom_op.impl.custom_op  # type: ignore
-                declared = decl(name)(func)  # type: ignore
-                declared.impl("cuda")(func)  # type: ignore
-                declared.impl_abstract()(abstract_impl)  # type: ignore
-                return
-            except AttributeError:
-                pass
-            if not hasattr(register_op, "warned"):  # type: ignore
-                register_op.warned = True  # type: ignore
-                warnings.warn("Unable to find custom_op, decorator has no effect")
-
-        # Dynamically generate code of the wrappers
-        arg_types = get_arg_types(func)
-        arg_names = get_arg_names(func)
-        arg_type_names = list(map(type_name, arg_types))
-        return_type = get_return_type(func)
-        return_type_name = type_name(return_type)
-        outer_sig = f"""({ ','.join(
-            f'{arg_name}: {arg_type_name}'
-            for arg_name, arg_type_name in zip(arg_names, arg_type_names)
-        ) }) -> {return_type_name}"""
-        arg_wrapping_code = ""
-        arg_unwrapping_code = ""
-        for arg_name, arg_type, arg_type_name in zip(
-            arg_names, arg_types, arg_type_names
-        ):
-            w, u = wrap_unwrap_code(arg_name, arg_type, arg_type_name)
-            arg_wrapping_code += w
-            arg_unwrapping_code += u
-        wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
-
-        result_wrapping_code, result_unwrapping_code = wrap_unwrap_code(
-            "result", return_type, return_type_name
-        )
-
-        wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
-        wrapped_arg_types = [wrap_type(t) for t in arg_types]
-        wrapped_arg_type_names = [type_name(t) for t in wrapped_arg_types]
-        wrapped_return_type = wrap_type(return_type)
-        wrapped_return_type_name = type_name(wrapped_return_type)
-        inner_sig = f"""({ ','.join(
-            f'{arg_name}: {arg_type_name}'
-            for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
-        ) }) -> {wrapped_return_type_name}"""
-        unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
-
-        source = f"""\
-import torch
-from . import cpp_extensions
-
-def abstract_impl{inner_sig}:
-    {arg_unwrapping_code}
-    func.__globals__["_nvte"] = impostor
-    result: {return_type_name} = func({unwrapped_args})
-    func.__globals__["_nvte"] = cpp_extensions
-    {result_wrapping_code}
-    return result_
-
-def {func.__name__}{inner_sig}:
-    {arg_unwrapping_code}
-    result: {return_type_name} = func({unwrapped_args})
-    {result_wrapping_code}
-    return result_
-
-def outer_wrapper{outer_sig}:
-    {arg_wrapping_code}
-    result_: {wrapped_return_type_name} = {func.__name__}({wrapped_args})
-    {result_unwrapping_code}
-    return result
-"""
-        try:
-            # Swap real cpp_extensions (_nvte) for impostor that does nothing
-            # This is needed so the abstract implementation is traceable by PyTorch Dynamo
-            class NVTEImpostor:
-                def __getattr__(self, attr_name: str) -> Any:
-                    attr = getattr(cpp_extensions, attr_name)
-                    if callable(attr):
-                        return lambda *args, **kwargs: None  # type: ignore
-                    else:
-                        return attr
-
-            # Create op
-            ns = dict(func=func, __name__=__name__, impostor=NVTEImpostor())
-            exec_saving_source(source, ns)
-            op_impl = reinterpret_cast(ns[func.__name__], Callable[..., Any])
-            op_wrap = reinterpret_cast(ns["outer_wrapper"], Callable[PS, T])
-            op_aimp = reinterpret_cast(ns["abstract_impl"], Callable[..., Any])
-            register_op(op_impl, op_aimp)
-
-            return op_wrap
-        except Exception as e:
-            raise RuntimeError(
-                f"Failed to compile wrapper for {func.__name__}. Generated code: \n```\n{source}```"
-            ) from e
-
-    return make_wrapper(func)

From b2a39a6cb31fb2bcecbe99de51222a6930df9793 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 14:18:02 +0200
Subject: [PATCH 365/535] fix import

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 95c632287e..a147116783 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -119,7 +119,7 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
 
         source = f"""\
 import torch
-from . import cpp_extensions
+from .. import cpp_extensions
 
 def abstract_impl{inner_sig}:
     {arg_unwrapping_code}

From b90ec7b67d88173c436dade9b0f9fbbbee1ba080 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 14:48:18 +0200
Subject: [PATCH 366/535] call torch op

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index a147116783..48aeab602e 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -137,7 +137,7 @@ def {func.__name__}{inner_sig}:
 
 def outer_wrapper{outer_sig}:
     {arg_wrapping_code}
-    result_: {wrapped_return_type_name} = {func.__name__}({wrapped_args})
+    result_: {wrapped_return_type_name} = torch.ops.nvte.{func.__name__}({wrapped_args})
     {result_unwrapping_code}
     return result
 """

From b59ce481eb35f5ed85ca48262dbd89366ed35ca1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:01:29 +0200
Subject: [PATCH 367/535] add autograd function for make_nvte_tensor

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 30 ++++++++++++++++++-
 1 file changed, 29 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 48aeab602e..f507a1e013 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -5,6 +5,8 @@
 from enum import Enum
 from types import GenericAlias
 import torch
+from torch import autograd
+from torch.autograd.function import FunctionCtx
 from .. import cpp_extensions as _nvte
 from ..utils import (
     PS,
@@ -172,11 +174,37 @@ def __getattr__(self, attr_name: str) -> Any:
     return make_wrapper(func)
 
 
+# _make_nvte_tensor is special
+# as it is called outside of the
+# main autograd ComputePipelineFunction
+# so it needs its own (identity) autograd function
+
+
 @torch_op
-def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
+def _make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
     return _nvte.Tensor(
         t.data,
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),
     )
+
+
+class MakeNVTETensor(torch.autograd.Function):
+    @staticmethod
+    def forward(  # type: ignore[arg-type]
+        ctx: FunctionCtx,
+        t: torch.Tensor,
+    ):
+        return _make_nvte_tensor(t)
+
+    @staticmethod
+    def backward(  # type: ignore[arg-type]
+        ctx: FunctionCtx,
+        grad: torch.Tensor,
+    ):
+        return grad
+
+
+def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
+    return MakeNVTETensor.apply(t)  # type: ignore

From 6b3955209a30bd06a3b920ad9397fbe8555ee430 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:17:55 +0200
Subject: [PATCH 368/535] Revert "add autograd function for make_nvte_tensor"

This reverts commit 338738dfe442bee24ec5d08a0a8bcb7d66a210ea.

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 30 +------------------
 1 file changed, 1 insertion(+), 29 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index f507a1e013..48aeab602e 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -5,8 +5,6 @@
 from enum import Enum
 from types import GenericAlias
 import torch
-from torch import autograd
-from torch.autograd.function import FunctionCtx
 from .. import cpp_extensions as _nvte
 from ..utils import (
     PS,
@@ -174,37 +172,11 @@ def __getattr__(self, attr_name: str) -> Any:
     return make_wrapper(func)
 
 
-# _make_nvte_tensor is special
-# as it is called outside of the
-# main autograd ComputePipelineFunction
-# so it needs its own (identity) autograd function
-
-
 @torch_op
-def _make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
+def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
     return _nvte.Tensor(
         t.data,
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),
     )
-
-
-class MakeNVTETensor(torch.autograd.Function):
-    @staticmethod
-    def forward(  # type: ignore[arg-type]
-        ctx: FunctionCtx,
-        t: torch.Tensor,
-    ):
-        return _make_nvte_tensor(t)
-
-    @staticmethod
-    def backward(  # type: ignore[arg-type]
-        ctx: FunctionCtx,
-        grad: torch.Tensor,
-    ):
-        return grad
-
-
-def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
-    return MakeNVTETensor.apply(t)  # type: ignore

From fe54685c6e6636dc643fcd3c5baa0d0ccf4d19c2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:18:54 +0200
Subject: [PATCH 369/535] fix autograd issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py            | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 2db0920027..2dbbec00c0 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -207,7 +207,8 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return y.data
     else:
         pipeline.next_iteration()
-        nvte_x = nvte.make_nvte_tensor(x)
+        with torch.no_grad():
+            nvte_x = nvte.make_nvte_tensor(x)
         is_exposed_x_squished_now = False
         upcoming_backward = None
         for contained_op in pipeline.functions:

From 296bed4d58576ad06a14f9a84216da37af591d21 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:22:34 +0200
Subject: [PATCH 370/535] make wrappers distinguishable

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 48aeab602e..28cfcda898 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -121,7 +121,7 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
 import torch
 from .. import cpp_extensions
 
-def abstract_impl{inner_sig}:
+def {func.__name__}_aimp{inner_sig}:
     {arg_unwrapping_code}
     func.__globals__["_nvte"] = impostor
     result: {return_type_name} = func({unwrapped_args})
@@ -135,7 +135,7 @@ def {func.__name__}{inner_sig}:
     {result_wrapping_code}
     return result_
 
-def outer_wrapper{outer_sig}:
+def {func.__name__}_wrap{outer_sig}:
     {arg_wrapping_code}
     result_: {wrapped_return_type_name} = torch.ops.nvte.{func.__name__}({wrapped_args})
     {result_unwrapping_code}
@@ -159,8 +159,8 @@ def __getattr__(self, attr_name: str) -> Any:
             ns = dict(func=func, __name__=__name__, impostor=NVTEImpostor())
             exec_saving_source(source, ns)
             op_impl = reinterpret_cast(ns[func.__name__], Callable[..., Any])
-            op_wrap = reinterpret_cast(ns["outer_wrapper"], Callable[PS, T])
-            op_aimp = reinterpret_cast(ns["abstract_impl"], Callable[..., Any])
+            op_wrap = reinterpret_cast(ns[f"{func.__name__}_wrap"], Callable[PS, T])
+            op_aimp = reinterpret_cast(ns[f"{func.__name__}_aimp"], Callable[..., Any])
             register_op(op_impl, op_aimp)
 
             return op_wrap

From d26cb0b2b23860fce1967b5e3d0f2326fed21d85 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:44:33 +0200
Subject: [PATCH 371/535] sidestep autograd issue

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py  | 12 +++++++-----
 .../pytorch/sequential/nvte/_common.py               |  1 -
 2 files changed, 7 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 2dbbec00c0..0742e55b3e 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -2,7 +2,7 @@
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-from typing import Final, NamedTuple
+from typing import Final
 from .persistent import Persistent
 from . import nvte
 from .ops import Context, Op
@@ -12,7 +12,7 @@
 
 
 class ForwardArgs:
-    nvte_x: nvte.Tensor
+    nvte_x: nvte.Tensor | None
     is_exposed_x_squished_now: bool
     upcoming_backward: BackwardComm | None
     op: Final[Op]
@@ -21,7 +21,7 @@ class ForwardArgs:
 
     def __init__(
         self,
-        nvte_x: nvte.Tensor,
+        nvte_x: nvte.Tensor | None,
         is_exposed_x_squished_now: bool,
         upcoming_backward: BackwardComm | None,
         op: Op,
@@ -57,6 +57,9 @@ def forward(  # type: ignore[arg-type]
         assert isinstance(args, ForwardArgs)
 
         nvte_x = args.nvte_x
+        if nvte_x is None:
+            # First forward in the compute pipeline
+            nvte_x = nvte.make_nvte_tensor(exposed_x)
 
         nvte.set_execution_state("forward", args.meta_tensor_provider_fwd)
         y, to_save = args.op.forward(nvte_x)
@@ -207,10 +210,9 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return y.data
     else:
         pipeline.next_iteration()
-        with torch.no_grad():
-            nvte_x = nvte.make_nvte_tensor(x)
         is_exposed_x_squished_now = False
         upcoming_backward = None
+        nvte_x = None
         for contained_op in pipeline.functions:
             nvte_tensors = contained_op.require_grad()
             exposed_tensors = list[torch.Tensor]()
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 28cfcda898..a734a25a5d 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -172,7 +172,6 @@ def __getattr__(self, attr_name: str) -> Any:
     return make_wrapper(func)
 
 
-@torch_op
 def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
     return _nvte.Tensor(
         t.data,

From aaa535c16d46ff368cda6966032215f0e33855d8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:47:36 +0200
Subject: [PATCH 372/535] fix torch dynamo

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index cb07505d12..cc21dab726 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -48,7 +48,8 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         return dy, full_grads
 
     def require_grad(self):
-        return list(sum((op.require_grad() for op in self.fwds), list[nvte.Tensor]()))
+        start: list[nvte.Tensor] = []  # needed to be separate because of torch dynamo
+        return list(sum((op.require_grad() for op in self.fwds), start))
 
 
 def force_use_precision(ops: list[Op], allowed: nvte.DType):

From 10fe00cce6aaf6a49f58a5a64daf2e96d81df698 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:49:41 +0200
Subject: [PATCH 373/535] fix for torch dynamo

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index cc21dab726..4c7281ca17 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -48,8 +48,10 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         return dy, full_grads
 
     def require_grad(self):
-        start: list[nvte.Tensor] = []  # needed to be separate because of torch dynamo
-        return list(sum((op.require_grad() for op in self.fwds), start))
+        list_: list[nvte.Tensor] = []
+        for op in self.fwds:
+            list_.extend(op.require_grad())
+        return list_
 
 
 def force_use_precision(ops: list[Op], allowed: nvte.DType):

From 8f1329193b7ac4bb2fd05ceb7a598d881abed249 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:50:37 +0200
Subject: [PATCH 374/535] fix for torch dynamo

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 0742e55b3e..4590c5241a 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -215,7 +215,7 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         nvte_x = None
         for contained_op in pipeline.functions:
             nvte_tensors = contained_op.require_grad()
-            exposed_tensors = list[torch.Tensor]()
+            exposed_tensors: list[torch.Tensor] = []
             for nvte_tensor in nvte_tensors:
                 assert not nvte.is_fp8(
                     nvte_tensor

From 06df8ca2be052b0a202af3ac2f7294e46b1c7039 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:56:53 +0200
Subject: [PATCH 375/535] fix for dynamo

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 24 +++++++++----------
 .../sequential/cpp_extensions/__init__.pyi    |  7 +++---
 .../pytorch/sequential/nvte/misc_fusions.py   |  6 ++---
 .../pytorch/sequential/nvte/normalization.py  | 22 ++++++++---------
 4 files changed, 30 insertions(+), 29 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 0e8d1370e6..c44a5fe718 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -13,6 +13,8 @@
 
 class Tensor:
     _raw: RawTensor
+    dtype: DType
+    shape: list[int]
     data: torch.Tensor
     amax: torch.Tensor
     scale: torch.Tensor
@@ -28,13 +30,14 @@ def __init__(
         dtype_override: DType | None = None,
     ):
         if dtype_override is not None:
-            dtype = dtype_override
+            self.dtype = dtype_override
         else:
-            dtype = torch_to_te_dtype(data.dtype)
+            self.dtype = torch_to_te_dtype(data.dtype)
+        self.shape = list(data.shape)
         self._raw = RawTensor(
             data.data_ptr(),
-            list(data.shape),
-            dtype,
+            self.shape,
+            self.dtype,
             amax.data_ptr(),
             scale.data_ptr(),
             scale_inv.data_ptr(),
@@ -44,17 +47,14 @@ def __init__(
         self.scale = scale
         self.scale_inv = scale_inv
 
+    def query_shape_dtype(self):
+        self.dtype = self._raw.dtype
+        self.shape = list(self._raw.shape)
+        return self
+
     def data_ptr(self):
         return self.data.data_ptr()
 
-    @property
-    def dtype(self):
-        return self._raw.dtype
-
-    @property
-    def shape(self):
-        return self._raw.shape
-
     def __repr__(self):
         if self.dtype == DType.Float8E4M3 or DType.Float8E5M2:
             conv_table = (
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 4553e693de..7dd5b49c3d 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -1,7 +1,7 @@
 from __future__ import annotations
 import torch
 from enum import Enum
-from typing import Sequence, TYPE_CHECKING
+from typing import Self, Sequence, TYPE_CHECKING
 
 class QKVLayout(Enum):
     NOT_INTERLEAVED = 0
@@ -53,8 +53,9 @@ if TYPE_CHECKING:
         amax: torch.Tensor
         scale: torch.Tensor
         scale_inv: torch.Tensor
-        def data_ptr(self) -> int: ...
         def __init__(self, data: torch.Tensor, amax: torch.Tensor, scale: torch.Tensor, scale_inv: torch.Tensor, *, dtype_override: DType | None = None,) -> None: ...
+        def data_ptr(self) -> int: ...
+        def query_shape_dtype(self) -> Self: ...
 
 
     def te_to_torch_dtype(dtype: DType) -> torch.dtype: ...
@@ -101,4 +102,4 @@ def dgeglu_cast_transpose(input: Tensor, geglu_input: Tensor, cast_output: Tenso
 def multi_cast_transpose(input_list: Sequence[Tensor], cast_output_list: Sequence[Tensor], transposed_output_list: Sequence[Tensor]) -> None: ...
 
 # Don't export these names (this stub file gets loaded as a real python module)
-del annotations, torch, Enum, Sequence, TYPE_CHECKING # type: ignore
\ No newline at end of file
+del annotations, torch, Enum, Sequence, TYPE_CHECKING, Self # type: ignore
\ No newline at end of file
diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index 8cee28b8d1..f879077a9f 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -23,7 +23,7 @@ def cast_transpose_dbias_checked(
             _nvte.cast_transpose_dbias(
                 grad, grad_cast, grad_transpose, out_dbias, workspace
             )
-            workspace = empty_like(workspace)
+            workspace = empty_like(workspace.query_shape_dtype())
         return grad_cast, grad_transpose, out_dbias
     elif is_fp8(grad) and (cast_dtype is None or cast_dtype == grad.dtype):
         grad_transpose = empty(grad.shape[::-1], grad.dtype)
@@ -31,7 +31,7 @@ def cast_transpose_dbias_checked(
         workspace = empty()
         for _ in range(2):
             _nvte.fp8_transpose_dbias(grad, grad_transpose, out_dbias, workspace)
-            workspace = empty_like(workspace)
+            workspace = empty_like(workspace.query_shape_dtype())
         return grad, grad_transpose, out_dbias
     else:
         grad_cast, grad_transpose = cast_transpose_checked(grad, cast_dtype)
@@ -60,7 +60,7 @@ def cast_transpose_dbias_dgelu_checked(
             _nvte.cast_transpose_dbias_dgelu(
                 grad, pre_gelu, dgelu_cast, dgelu_transpose, out_dbias, workspace
             )
-            workspace = empty_like(workspace)
+            workspace = empty_like(workspace.query_shape_dtype())
         return dgelu_cast, dgelu_transpose, out_dbias
     else:
         dgelu = empty(grad.shape, cast_dtype or grad.dtype)
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index 7815e4a2ea..57cfa7593b 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -113,8 +113,8 @@ def layernorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
+            workspace = empty_like(workspace.query_shape_dtype())
+            barrier = empty_like(barrier.query_shape_dtype())
 
     return out, mu, rsigma
 
@@ -162,10 +162,10 @@ def dlayernorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
-            dgamma_part = empty_like(dgamma_part)
-            dbeta_part = empty_like(dbeta_part)
+            workspace = empty_like(workspace.query_shape_dtype())
+            barrier = empty_like(barrier.query_shape_dtype())
+            dgamma_part = empty_like(dgamma_part.query_shape_dtype())
+            dbeta_part = empty_like(dbeta_part.query_shape_dtype())
 
     return dx, dgamma, dbeta
 
@@ -204,8 +204,8 @@ def rmsnorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
+            workspace = empty_like(workspace.query_shape_dtype())
+            barrier = empty_like(barrier.query_shape_dtype())
 
     return out, rsigma
 
@@ -246,8 +246,8 @@ def drmsnorm(
                 workspace,
                 barrier,
             )
-            workspace = empty_like(workspace)
-            barrier = empty_like(barrier)
-            dgamma_part = empty_like(dgamma_part)
+            workspace = empty_like(workspace.query_shape_dtype())
+            barrier = empty_like(barrier.query_shape_dtype())
+            dgamma_part = empty_like(dgamma_part.query_shape_dtype())
 
     return dx, dgamma

From a0562317acd9e2af212f60ab03ffd8907b25955e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 15:58:05 +0200
Subject: [PATCH 376/535] fix import

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.pyi             | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
index 7dd5b49c3d..9bc1a7a1db 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
@@ -1,7 +1,8 @@
 from __future__ import annotations
 import torch
 from enum import Enum
-from typing import Self, Sequence, TYPE_CHECKING
+from typing import Sequence, TYPE_CHECKING
+from typing_extensions import Self
 
 class QKVLayout(Enum):
     NOT_INTERLEAVED = 0

From 387199d1cf9fe39db2f93b1bf3d8a4033976a2a0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 16:00:09 +0200
Subject: [PATCH 377/535] fix for dynamo

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/dtype.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index 73d282a782..607515f44f 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 from .. import cpp_extensions as _nvte
 
-from ..cpp_extensions import te_to_torch_dtype, torch_to_te_dtype, dtype_name, bit_width
+from ..cpp_extensions import
 
 
 def is_fp8(t: _nvte.Tensor | _nvte.DType):
@@ -9,4 +9,4 @@ def is_fp8(t: _nvte.Tensor | _nvte.DType):
         dtype = t
     else:
         dtype = t.dtype
-    return dtype == _nvte.DType.Float8E4M3 or dtype == _nvte.DType.Float8E5M2
+    return dtype is _nvte.DType.Float8E4M3 or dtype is _nvte.DType.Float8E5M2

From 716c593f8e0bc81386c7c3cb8a401e1cbe85ae11 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 16:07:36 +0200
Subject: [PATCH 378/535] fixes

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/dynamic_load.py  | 18 +++++++++++++-----
 .../pytorch/sequential/nvte/dtype.py           | 12 ++++++++++--
 2 files changed, 23 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index a767615aa2..0fb51245da 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -1,3 +1,4 @@
+from enum import Enum
 import functools
 import inspect
 from typing import Any, Callable, TypeVar
@@ -16,9 +17,12 @@ def _to_dict(l: list[tuple[_T1, _T2]], /) -> dict[_T1, _T2]:
 def _wrap_function(real_func: Callable[..., Any]):
     @functools.wraps(real_func)
     def wrapper(*args: Any):
-        real_args = [
-            arg if not arg.__class__.__name__ == "Tensor" else arg._raw for arg in args
-        ]
+        real_args: list[Any] = []
+        for arg in args:
+            if arg.__class__.__name__ == "Tensor":
+                real_args.append(arg._raw)
+            elif isinstance(arg, Enum):
+                real_args.append(getattr(type(arg), "__orig_type__")(arg.value))
         return real_func(*real_args, torch.cuda.current_stream().cuda_stream)
 
     return wrapper
@@ -41,9 +45,13 @@ def inject_real(namespace: dict[str, Any]):
     stub_types = _to_dict(inspect.getmembers(stub, inspect.isclass))
     real_types = _to_dict(inspect.getmembers(real, inspect.isclass))
 
-    for type_name, _ in stub_types.items():
+    for type_name, type_obj in stub_types.items():
         if type_name not in real_types:
             raise RuntimeError(
                 f"Type {type_name} declared in {stub} not found in {real}"
             )
-        namespace[type_name] = real_types[type_name]
+        if issubclass(type_obj, Enum):
+            setattr(type_obj, "__orig_type__", real_types[type_name])
+            namespace[type_name] = type_obj
+        else:
+            namespace[type_name] = real_types[type_name]
diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index 607515f44f..687ef17380 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -1,7 +1,6 @@
 from __future__ import annotations
 from .. import cpp_extensions as _nvte
-
-from ..cpp_extensions import
+from ..cpp_extensions import te_to_torch_dtype, torch_to_te_dtype, dtype_name, bit_width
 
 
 def is_fp8(t: _nvte.Tensor | _nvte.DType):
@@ -10,3 +9,12 @@ def is_fp8(t: _nvte.Tensor | _nvte.DType):
     else:
         dtype = t.dtype
     return dtype is _nvte.DType.Float8E4M3 or dtype is _nvte.DType.Float8E5M2
+
+
+__all__ = [
+    "is_fp8",
+    "te_to_torch_dtype",
+    "torch_to_te_dtype",
+    "dtype_name",
+    "bit_width",
+]

From 9ede14a34e81b608c71fcb627d3a07029997f11a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 16:09:53 +0200
Subject: [PATCH 379/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py               | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index c44a5fe718..1fb9118677 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -37,7 +37,7 @@ def __init__(
         self._raw = RawTensor(
             data.data_ptr(),
             self.shape,
-            self.dtype,
+            getattr(DType, "__orig_type__")(self.dtype.value),
             amax.data_ptr(),
             scale.data_ptr(),
             scale_inv.data_ptr(),

From cb49b4084454c250c7223ba02ca1ca5fb3fb9ad2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 16:14:38 +0200
Subject: [PATCH 380/535] fix for dynamo

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py      | 9 ++++++---
 1 file changed, 6 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 4590c5241a..60c6708d1f 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -41,19 +41,21 @@ class BackwardComm:
 
 
 class ComputePipelineFunction(autograd.Function):
+    args: ForwardArgs
+
     @staticmethod
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *exposed_args: torch.Tensor | ForwardArgs,
+        *exposed_tensors: torch.Tensor,
     ):
         """
         exposed_x is used only to let autograd construct the computation graph
         real input and output is in list, as nvte.Tensor is immutable
         exposed_tensors are exposed for the optimizer to later apply gradients
         """
-        exposed_tensors, args = exposed_args[:-1], exposed_args[-1]
         del exposed_tensors
+        args = ComputePipelineFunction.args
         assert isinstance(args, ForwardArgs)
 
         nvte_x = args.nvte_x
@@ -229,7 +231,8 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 pipeline.meta_fwd,
                 pipeline.meta_bwd,
             )
-            x = ComputePipelineFunction.apply(x, *exposed_tensors, args)  # type: ignore
+            ComputePipelineFunction.args = args
+            x = ComputePipelineFunction.apply(x, *exposed_tensors)  # type: ignore
             nvte_x, is_exposed_x_squished_now, upcoming_backward = (
                 args.nvte_x,
                 args.is_exposed_x_squished_now,

From 8bda5590fbd1ef3dc218342b33535baeaa273436 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 16:16:42 +0200
Subject: [PATCH 381/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py       | 8 ++++++--
 1 file changed, 6 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 60c6708d1f..b519f1194b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -36,6 +36,9 @@ def __init__(
         self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
 
 
+_args: ForwardArgs
+
+
 class BackwardComm:
     nvte_grad_output: nvte.Tensor | None = None
 
@@ -55,7 +58,7 @@ def forward(  # type: ignore[arg-type]
         exposed_tensors are exposed for the optimizer to later apply gradients
         """
         del exposed_tensors
-        args = ComputePipelineFunction.args
+        args = _args
         assert isinstance(args, ForwardArgs)
 
         nvte_x = args.nvte_x
@@ -231,7 +234,8 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 pipeline.meta_fwd,
                 pipeline.meta_bwd,
             )
-            ComputePipelineFunction.args = args
+            global _args
+            _args = args
             x = ComputePipelineFunction.apply(x, *exposed_tensors)  # type: ignore
             nvte_x, is_exposed_x_squished_now, upcoming_backward = (
                 args.nvte_x,

From b26a842a2383e7bd849361c4ec183b56dcbf2b07 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 16:21:51 +0200
Subject: [PATCH 382/535] create nvte_x before compile

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py  | 12 +++++-------
 transformer_engine/pytorch/sequential/module/base.py | 10 ++++++----
 2 files changed, 11 insertions(+), 11 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index b519f1194b..4bde13821e 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -12,7 +12,7 @@
 
 
 class ForwardArgs:
-    nvte_x: nvte.Tensor | None
+    nvte_x: nvte.Tensor
     is_exposed_x_squished_now: bool
     upcoming_backward: BackwardComm | None
     op: Final[Op]
@@ -21,7 +21,7 @@ class ForwardArgs:
 
     def __init__(
         self,
-        nvte_x: nvte.Tensor | None,
+        nvte_x: nvte.Tensor,
         is_exposed_x_squished_now: bool,
         upcoming_backward: BackwardComm | None,
         op: Op,
@@ -62,9 +62,6 @@ def forward(  # type: ignore[arg-type]
         assert isinstance(args, ForwardArgs)
 
         nvte_x = args.nvte_x
-        if nvte_x is None:
-            # First forward in the compute pipeline
-            nvte_x = nvte.make_nvte_tensor(exposed_x)
 
         nvte.set_execution_state("forward", args.meta_tensor_provider_fwd)
         y, to_save = args.op.forward(nvte_x)
@@ -207,7 +204,9 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         return (*torch_grads, None, None, None)
 
 
-def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
+def apply(
+    x: torch.Tensor, nvte_x: nvte.Tensor, pipeline: ComputePipeline, training: bool
+) -> torch.Tensor:
     if not training:
         raise NotImplementedError()  # TODO
         y = pipeline.run_inference(nvte.make_nvte_tensor(x))
@@ -217,7 +216,6 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         pipeline.next_iteration()
         is_exposed_x_squished_now = False
         upcoming_backward = None
-        nvte_x = None
         for contained_op in pipeline.functions:
             nvte_tensors = contained_op.require_grad()
             exposed_tensors: list[torch.Tensor] = []
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 8b74bebbc9..40169fb76b 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -1,11 +1,13 @@
 from __future__ import annotations
 from abc import ABC, abstractmethod
+from functools import partial
 import torch
 from torch import nn
 from ..ops import Op
 from ..recipe import Recipe
 from ..compute_pipeline import ComputePipeline
 from ..compute_pipeline_function import apply
+from .. import nvte
 
 
 class BaseModule(nn.Module, ABC):
@@ -25,7 +27,7 @@ def forward(
         self, x: torch.Tensor, seq_lens: torch.Tensor | None = None
     ) -> torch.Tensor:
         self.precompiled_for(x, seq_lens)
-        return self._run(x)
+        return self._run(nvte.make_nvte_tensor(x), x)
 
     def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None):
         with torch.no_grad():
@@ -38,11 +40,11 @@ def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None)
 
             self._setup_pipeline(x, seq_lens)
 
-        return self._run
+        return partial(self._run, nvte.make_nvte_tensor(x))
 
-    def _run(self, x: torch.Tensor):
+    def _run(self, nvte_x: nvte.Tensor, x: torch.Tensor):
         assert self.pipeline is not None
-        return apply(x, self.pipeline, self.training)
+        return apply(x, nvte_x, self.pipeline, self.training)
 
     @staticmethod
     def _create_seq_lens_tensor(x: torch.Tensor):

From 4daf00a1b2aa057b4623401ff585135bb4e49b21 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 16:23:56 +0200
Subject: [PATCH 383/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/module/base.py | 7 +++++--
 1 file changed, 5 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 40169fb76b..7a4160ba76 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 from abc import ABC, abstractmethod
-from functools import partial
+from typing import Callable
 import torch
 from torch import nn
 from ..ops import Op
@@ -40,7 +40,10 @@ def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None)
 
             self._setup_pipeline(x, seq_lens)
 
-        return partial(self._run, nvte.make_nvte_tensor(x))
+        f: Callable[[torch.Tensor], torch.Tensor] = lambda x: self._run(
+            nvte.make_nvte_tensor(x), x
+        )
+        return f
 
     def _run(self, nvte_x: nvte.Tensor, x: torch.Tensor):
         assert self.pipeline is not None

From bd53d98d98dd75abd0fc169033a61507a4f37ecc Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 16:25:18 +0200
Subject: [PATCH 384/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/module/base.py | 5 ++---
 1 file changed, 2 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 7a4160ba76..0dd28982db 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -40,9 +40,8 @@ def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None)
 
             self._setup_pipeline(x, seq_lens)
 
-        f: Callable[[torch.Tensor], torch.Tensor] = lambda x: self._run(
-            nvte.make_nvte_tensor(x), x
-        )
+        nvte_x = nvte.make_nvte_tensor(x)
+        f: Callable[[torch.Tensor], torch.Tensor] = lambda _: self._run(nvte_x, x)
         return f
 
     def _run(self, nvte_x: nvte.Tensor, x: torch.Tensor):

From fed762401c58a0cc54d7ca7f7ff109539cdb67f4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 16:26:40 +0200
Subject: [PATCH 385/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 4c7281ca17..686d44a4d5 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -17,7 +17,7 @@ def inference(self, x: nvte.Tensor) -> nvte.Tensor:
         raise AssertionError("Not used for inference")
 
     def forward(self, x: nvte.Tensor):
-        full_ctx = Context()
+        full_ctx: Context = {}
         for op in self.fwds:
             x, ctx = op.forward(x)
             if not isinstance(op, FusedOp):
@@ -27,7 +27,7 @@ def forward(self, x: nvte.Tensor):
         return x, full_ctx
 
     def backward(self, ctx: Context, dy: nvte.Tensor):
-        ctxs = list[Context]()
+        ctxs: list[Context] = []
         for op in self.bwds:
             if isinstance(op, FusedOp):
                 ctxs.append(ctx)

From 869ac9bad77cb16754206fba23e3d3c5e3d983ae Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:13:13 +0200
Subject: [PATCH 386/535] introduce torch ops

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        |  14 ++-
 .../pytorch/sequential/nvte/activation.py     |  33 +++--
 .../pytorch/sequential/nvte/cast_transpose.py |  37 ++++--
 .../pytorch/sequential/nvte/misc_fusions.py   | 113 +++++++++++-------
 .../pytorch/sequential/nvte/mmt.py            |  15 ++-
 .../pytorch/sequential/nvte/normalization.py  |  15 ++-
 6 files changed, 156 insertions(+), 71 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index a734a25a5d..9aa27782b7 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -33,8 +33,8 @@ def type_name(t: type) -> str:
         def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
             wrapped_arg_type_name = type_name(wrap_type(arg_type))
             if arg_type is _nvte.Tensor:
-                w = f"{arg_name}_: {wrapped_arg_type_name} = ({arg_name}.data, {arg_name}.amax, {arg_name}.scale, {arg_name}.scale_inv)\n"
-                u = f"{arg_name}: {arg_type_name} = {arg_type_name}(*{arg_name}_)\n"
+                w = f"{arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
+                u = f"{arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
             elif issubclass(arg_type, Enum):
                 w = f"{arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
                 u = f"{arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
@@ -121,6 +121,16 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
 import torch
 from .. import cpp_extensions
 
+raw_handles: list[cpp_extensions.RawTensor] = []
+
+def te_to_torch_tensor(t: cpp_extensions.Tensor):
+    raw_handles.append(t._raw)
+    return (t.data, t.amax, t.scale, t.scale_inv)
+
+def torch_to_te_tensor(t: tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]):
+    _raw = raw_handles.pop(0)
+    return cpp_extensions.Tensor(_raw, *t)
+
 def {func.__name__}_aimp{inner_sig}:
     {arg_unwrapping_code}
     func.__globals__["_nvte"] = impostor
diff --git a/transformer_engine/pytorch/sequential/nvte/activation.py b/transformer_engine/pytorch/sequential/nvte/activation.py
index 7f5a94311f..ed0b8e254a 100644
--- a/transformer_engine/pytorch/sequential/nvte/activation.py
+++ b/transformer_engine/pytorch/sequential/nvte/activation.py
@@ -1,63 +1,76 @@
 from __future__ import annotations
 from .. import cpp_extensions as _nvte
 from .empty import empty
+from ._common import torch_op
 
 
-def relu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def relu(x: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
     output = empty(x.shape, out_dtype)
     _nvte.relu(x, output)
     return output
 
 
-def drelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def drelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
     output = empty(x.shape, out_dtype)
     _nvte.drelu(grad, x, output)
     return output
 
 
-def gelu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def gelu(x: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
     output = empty(x.shape, out_dtype)
     _nvte.gelu(x, output)
     return output
 
 
-def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def dgelu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
     output = empty(x.shape, out_dtype)
     _nvte.dgelu(grad, x, output)
     return output
 
 
-def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def reglu(x: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
     output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.reglu(x, output)
     return output
 
 
-def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def dreglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
     output = empty(x.shape, out_dtype)
     _nvte.dreglu(grad, x, output)
     return output
 
 
-def geglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def geglu(x: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
     output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.geglu(x, output)
     return output
 
 
-def dgeglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def dgeglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
     output = empty(x.shape, out_dtype)
     _nvte.dgeglu(grad, x, output)
     return output
 
 
-def swiglu(x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def swiglu(x: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
     output = empty((x.shape[0], x.shape[1] // 2), out_dtype)
     _nvte.swiglu(x, output)
     return output
 
 
-def dswiglu(grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def dswiglu(
+    grad: _nvte.Tensor, x: _nvte.Tensor, out_dtype: _nvte.DType
+) -> _nvte.Tensor:
     output = empty(x.shape, out_dtype)
     _nvte.dswiglu(grad, x, output)
     return output
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index cea74161e2..a3b447df30 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -2,25 +2,39 @@
 
 from ..utils import reinterpret_cast
 from .. import cpp_extensions as _nvte
+from ._common import torch_op
 
 from .dtype import is_fp8
 from .empty import empty, multi_empty_share_metadata
 
 
+@torch_op
+def _fp8_quantize(t: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
+    output = empty(t.shape, out_dtype)
+    _nvte.fp8_quantize(t, output)
+    return output
+
+
+@torch_op
+def _fp8_dequantize(t: _nvte.Tensor, out_dtype: _nvte.DType) -> _nvte.Tensor:
+    output = empty(t.shape, out_dtype)
+    _nvte.fp8_dequantize(t, output)
+    return output
+
+
 def cast(t: _nvte.Tensor, out_dtype: _nvte.DType):
     assert t.dtype != out_dtype
     if is_fp8(t):
         assert not is_fp8(out_dtype)
 
-    output = empty(t.shape, out_dtype)
     if is_fp8(out_dtype):
-        _nvte.fp8_quantize(t, output)
+        return _fp8_quantize(t, out_dtype)
     elif is_fp8(t):
-        _nvte.fp8_dequantize(t, output)
+        return _fp8_dequantize(t, out_dtype)
     else:
+        output = empty(t.shape, out_dtype)
         output.data.copy_(t.data)
-
-    return output
+        return output
 
 
 def cast_checked(t: _nvte.Tensor, out_dtype: _nvte.DType | None):
@@ -30,13 +44,17 @@ def cast_checked(t: _nvte.Tensor, out_dtype: _nvte.DType | None):
         return cast(t, out_dtype)
 
 
-def transpose(t: _nvte.Tensor):
+@torch_op
+def transpose(t: _nvte.Tensor) -> _nvte.Tensor:
     output = empty(t.shape[::-1], t.dtype)
     _nvte.transpose(t, output)
     return output
 
 
-def cast_transpose(t: _nvte.Tensor, out_dtype: _nvte.DType):
+@torch_op
+def cast_transpose(
+    t: _nvte.Tensor, out_dtype: _nvte.DType
+) -> tuple[_nvte.Tensor, _nvte.Tensor]:
     assert t.dtype != out_dtype
     if is_fp8(t):
         assert not is_fp8(out_dtype)
@@ -56,7 +74,10 @@ def cast_transpose_checked(t: _nvte.Tensor, out_dtype: _nvte.DType | None):
         return cast_transpose(t, out_dtype)
 
 
-def multi_cast_transpose(*desc: tuple[_nvte.Tensor, _nvte.DType]):
+@torch_op
+def multi_cast_transpose(
+    *desc: tuple[_nvte.Tensor, _nvte.DType]
+) -> list[tuple[_nvte.Tensor, ...]]:
     outs = [
         multi_empty_share_metadata((t.shape, dtype), (t.shape[::-1], dtype))
         for t, dtype in desc
diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index f879077a9f..578e352406 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -1,9 +1,41 @@
 from __future__ import annotations
-from .dtype import is_fp8
 from .. import cpp_extensions as _nvte
+from ._common import torch_op
+from .dtype import is_fp8
 from .cast_transpose import cast_transpose_checked
 from .empty import multi_empty_share_metadata, empty, empty_like
 from .add import dbias
+from .activation import dgeglu, dgelu
+
+
+@torch_op
+def _cast_transpose_dbias(
+    grad: _nvte.Tensor, cast_dtype: _nvte.DType, dbias_dtype: _nvte.DType
+) -> tuple[_nvte.Tensor, _nvte.Tensor, _nvte.Tensor]:
+    grad_cast, grad_transpose = multi_empty_share_metadata(
+        (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
+    )
+    out_dbias = empty((grad.shape[1],), dbias_dtype)
+    workspace = empty()
+    for _ in range(2):
+        _nvte.cast_transpose_dbias(
+            grad, grad_cast, grad_transpose, out_dbias, workspace
+        )
+        workspace = empty_like(workspace.query_shape_dtype())
+    return grad_cast, grad_transpose, out_dbias
+
+
+@torch_op
+def _fp8_transpose_dbias(
+    grad: _nvte.Tensor, dbias_dtype: _nvte.DType
+) -> tuple[_nvte.Tensor, _nvte.Tensor, _nvte.Tensor]:
+    grad_transpose = empty(grad.shape[::-1], grad.dtype)
+    out_dbias = empty((grad.shape[1],), dbias_dtype)
+    workspace = empty()
+    for _ in range(2):
+        _nvte.fp8_transpose_dbias(grad, grad_transpose, out_dbias, workspace)
+        workspace = empty_like(workspace.query_shape_dtype())
+    return grad, grad_transpose, out_dbias
 
 
 def cast_transpose_dbias_checked(
@@ -14,31 +46,35 @@ def cast_transpose_dbias_checked(
         and cast_dtype is not None
         and cast_dtype != grad.dtype
     ):
-        grad_cast, grad_transpose = multi_empty_share_metadata(
-            (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
-        )
-        out_dbias = empty((grad.shape[1],), dbias_dtype)
-        workspace = empty()
-        for _ in range(2):
-            _nvte.cast_transpose_dbias(
-                grad, grad_cast, grad_transpose, out_dbias, workspace
-            )
-            workspace = empty_like(workspace.query_shape_dtype())
-        return grad_cast, grad_transpose, out_dbias
+        return _cast_transpose_dbias(grad, cast_dtype, dbias_dtype)
     elif is_fp8(grad) and (cast_dtype is None or cast_dtype == grad.dtype):
-        grad_transpose = empty(grad.shape[::-1], grad.dtype)
-        out_dbias = empty((grad.shape[1],), dbias_dtype)
-        workspace = empty()
-        for _ in range(2):
-            _nvte.fp8_transpose_dbias(grad, grad_transpose, out_dbias, workspace)
-            workspace = empty_like(workspace.query_shape_dtype())
-        return grad, grad_transpose, out_dbias
+        return _fp8_transpose_dbias(grad, dbias_dtype)
     else:
         grad_cast, grad_transpose = cast_transpose_checked(grad, cast_dtype)
         out_dbias = dbias(grad, dbias_dtype)
         return grad_cast, grad_transpose, out_dbias
 
 
+@torch_op
+def _cast_transpose_dbias_dgelu(
+    grad: _nvte.Tensor,
+    pre_gelu: _nvte.Tensor,
+    cast_dtype: _nvte.DType,
+    dbias_dtype: _nvte.DType,
+) -> tuple[_nvte.Tensor, _nvte.Tensor, _nvte.Tensor]:
+    dgelu_cast, dgelu_transpose = multi_empty_share_metadata(
+        (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
+    )
+    out_dbias = empty((grad.shape[1],), dbias_dtype)
+    workspace = empty()
+    for _ in range(2):
+        _nvte.cast_transpose_dbias_dgelu(
+            grad, pre_gelu, dgelu_cast, dgelu_transpose, out_dbias, workspace
+        )
+        workspace = empty_like(workspace.query_shape_dtype())
+    return dgelu_cast, dgelu_transpose, out_dbias
+
+
 def cast_transpose_dbias_dgelu_checked(
     grad: _nvte.Tensor,
     pre_gelu: _nvte.Tensor,
@@ -51,21 +87,21 @@ def cast_transpose_dbias_dgelu_checked(
         and cast_dtype != grad.dtype
         and grad.dtype == pre_gelu.dtype
     ):
-        dgelu_cast, dgelu_transpose = multi_empty_share_metadata(
-            (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
-        )
-        out_dbias = empty((grad.shape[1],), dbias_dtype)
-        workspace = empty()
-        for _ in range(2):
-            _nvte.cast_transpose_dbias_dgelu(
-                grad, pre_gelu, dgelu_cast, dgelu_transpose, out_dbias, workspace
-            )
-            workspace = empty_like(workspace.query_shape_dtype())
-        return dgelu_cast, dgelu_transpose, out_dbias
+        return _cast_transpose_dbias_dgelu(grad, pre_gelu, cast_dtype, dbias_dtype)
     else:
-        dgelu = empty(grad.shape, cast_dtype or grad.dtype)
-        _nvte.dgelu(grad, pre_gelu, dgelu)
-        return cast_transpose_dbias_checked(dgelu, cast_dtype, dbias_dtype)
+        dgelu_ = dgelu(grad, pre_gelu, cast_dtype or grad.dtype)
+        return cast_transpose_dbias_checked(dgelu_, cast_dtype, dbias_dtype)
+
+
+@torch_op
+def _cast_transpose_dgeglu(
+    grad: _nvte.Tensor, pre_geglu: _nvte.Tensor, cast_dtype: _nvte.DType
+) -> tuple[_nvte.Tensor, _nvte.Tensor]:
+    dgeglu_cast, dgeglu_transpose = multi_empty_share_metadata(
+        (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
+    )
+    _nvte.dgeglu_cast_transpose(grad, pre_geglu, dgeglu_cast, dgeglu_transpose)
+    return dgeglu_cast, dgeglu_transpose
 
 
 def cast_transpose_dgeglu_checked(
@@ -76,12 +112,7 @@ def cast_transpose_dgeglu_checked(
         and cast_dtype is not None
         and cast_dtype != grad.dtype
     ):
-        dgeglu_cast, dgeglu_transpose = multi_empty_share_metadata(
-            (grad.shape, cast_dtype), (grad.shape[::-1], cast_dtype)
-        )
-        _nvte.dgeglu_cast_transpose(grad, pre_geglu, dgeglu_cast, dgeglu_transpose)
-        return dgeglu_cast, dgeglu_transpose
+        return _cast_transpose_dgeglu(grad, pre_geglu, cast_dtype)
     else:
-        dgeglu = empty(grad.shape, cast_dtype or grad.dtype)
-        _nvte.dgeglu(grad, pre_geglu, dgeglu)
-        return cast_transpose_checked(dgeglu, cast_dtype)
+        dgeglu_ = dgeglu(grad, pre_geglu, cast_dtype or grad.dtype)
+        return cast_transpose_checked(dgeglu_, cast_dtype)
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 14ddcb08fb..5bedcd2e29 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -1,8 +1,9 @@
 from __future__ import annotations
 import subprocess
+from .. import cpp_extensions as _nvte
 from ..utils import cache
+from ._common import torch_op
 import torch
-from .. import cpp_extensions as _nvte
 from .empty import empty
 from . import execution_state
 
@@ -51,9 +52,10 @@ def matmul_transpose_gelu_add(mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.T
     return matmul_transpose_add_gelu_add(mat, mul, empty(), add)
 
 
+@torch_op
 def matmul_transpose_add(
     mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
-):
+) -> _nvte.Tensor:
     "returns mat @ mul^T + add"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
@@ -74,9 +76,10 @@ def matmul_transpose_add(
     return out
 
 
+@torch_op
 def matmul_transpose_add_gelu(
     mat: _nvte.Tensor, mul: _nvte.Tensor, add: _nvte.Tensor, out_dtype: _nvte.DType
-):
+) -> tuple[_nvte.Tensor, _nvte.Tensor]:
     "returns mat @ mul^T + add, GELU(mat @ mul^T + add)"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     out = empty((b.shape[0], a.shape[0]), out_dtype)
@@ -98,9 +101,10 @@ def matmul_transpose_add_gelu(
     return pre_gelu, out
 
 
+@torch_op
 def matmul_transpose_add_add(
     mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
-):
+) -> _nvte.Tensor:
     "returns mat @ mul^T + add1 + add2"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     _nvte.cublas_gemm(
@@ -120,9 +124,10 @@ def matmul_transpose_add_add(
     return add2
 
 
+@torch_op
 def matmul_transpose_add_gelu_add(
     mat: _nvte.Tensor, mul: _nvte.Tensor, add1: _nvte.Tensor, add2: _nvte.Tensor
-):
+) -> tuple[_nvte.Tensor, _nvte.Tensor]:
     "returns mat @ mul^T + add1, GELU(mat @ mul^T + add1) + add2"
     a, b, trans_a, trans_b = _to_cublas_args(mat, mul, False, True)
     pre_gelu = empty(add2.shape, add1.dtype)
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index 57cfa7593b..23aee64792 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -1,8 +1,9 @@
 from __future__ import annotations
 import os
 import torch
-from ..utils import contextmanager, cache
 from .. import cpp_extensions as _nvte
+from ..utils import contextmanager, cache
+from ._common import torch_op
 from . import execution_state
 from .dtype import dtype_name
 from .empty import empty, empty_like
@@ -76,6 +77,7 @@ def _handle_unsupported_config(
             raise
 
 
+@torch_op
 def layernorm(
     x: _nvte.Tensor,
     eps: float,
@@ -83,7 +85,7 @@ def layernorm(
     gamma: _nvte.Tensor,
     beta: _nvte.Tensor,
     out_dtype: _nvte.DType,
-):
+) -> tuple[_nvte.Tensor, _nvte.Tensor, _nvte.Tensor]:
     "returns (x - mean(x)) / sqrt(var(x) + eps) * gamma + beta, mu (for bwd), rsigma (for bwd)"
 
     assert len(x.shape) == 2
@@ -119,6 +121,7 @@ def layernorm(
     return out, mu, rsigma
 
 
+@torch_op
 def dlayernorm(
     grad: _nvte.Tensor,
     zero_centered_gamma: bool,
@@ -129,7 +132,7 @@ def dlayernorm(
     dx_dtype: _nvte.DType,
     dgamma_dtype: _nvte.DType,
     dbeta_dtype: _nvte.DType,
-):
+) -> tuple[_nvte.Tensor, _nvte.Tensor, _nvte.Tensor]:
     "returns dx, dgamma, dbeta"
 
     dx = empty(x.shape, dx_dtype)
@@ -170,13 +173,14 @@ def dlayernorm(
     return dx, dgamma, dbeta
 
 
+@torch_op
 def rmsnorm(
     x: _nvte.Tensor,
     eps: float,
     zero_centered_gamma: bool,
     gamma: _nvte.Tensor,
     out_dtype: _nvte.DType,
-):
+) -> tuple[_nvte.Tensor, _nvte.Tensor]:
     "returns x / sqrt(var(x) + eps) * gamma, rsigma (for bwd)"
 
     assert len(x.shape) == 2
@@ -210,6 +214,7 @@ def rmsnorm(
     return out, rsigma
 
 
+@torch_op
 def drmsnorm(
     grad: _nvte.Tensor,
     zero_centered_gamma: bool,
@@ -218,7 +223,7 @@ def drmsnorm(
     rsigma: _nvte.Tensor,
     dx_dtype: _nvte.DType,
     dgamma_dtype: _nvte.DType,
-):
+) -> tuple[_nvte.Tensor, _nvte.Tensor]:
     "returns dx, dgamma"
 
     dx = empty(x.shape, dx_dtype)

From aaee54b53eda12cdc86f832113c4dedff225fae8 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:16:13 +0200
Subject: [PATCH 387/535] fix indent error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py            | 15 +++++++++------
 1 file changed, 9 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 9aa27782b7..434fbcf1d1 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -33,14 +33,14 @@ def type_name(t: type) -> str:
         def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
             wrapped_arg_type_name = type_name(wrap_type(arg_type))
             if arg_type is _nvte.Tensor:
-                w = f"{arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
-                u = f"{arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
+                w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
+                u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
             elif issubclass(arg_type, Enum):
-                w = f"{arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
-                u = f"{arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
+                w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
+                u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
             elif arg_type in [int, float, bool, str, torch.Tensor]:
-                w = f"{arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
-                u = f"{arg_name}: {arg_type_name} = {arg_name}_\n"
+                w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
+                u = f"    {arg_name}: {arg_type_name} = {arg_name}_\n"
             else:
                 raise NotImplementedError(arg_type_name)
             return (w, u)
@@ -117,6 +117,9 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
         ) }) -> {wrapped_return_type_name}"""
         unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
 
+        arg_unwrapping_code.lstrip()
+        arg_wrapping_code.lstrip()
+
         source = f"""\
 import torch
 from .. import cpp_extensions

From b50439eff6eb3fdc928a3fd142e8d47e7e1da614 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:18:41 +0200
Subject: [PATCH 388/535] fix indent error

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 434fbcf1d1..d2b35ef9e6 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -119,6 +119,8 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
 
         arg_unwrapping_code.lstrip()
         arg_wrapping_code.lstrip()
+        result_wrapping_code.lstrip()
+        result_unwrapping_code.lstrip()
 
         source = f"""\
 import torch

From 645c899f6834cc5fffb8c1f7a43382087f63de32 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:20:00 +0200
Subject: [PATCH 389/535] FIX INDENT

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index d2b35ef9e6..56d5295bb7 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -117,10 +117,10 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
         ) }) -> {wrapped_return_type_name}"""
         unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
 
-        arg_unwrapping_code.lstrip()
-        arg_wrapping_code.lstrip()
-        result_wrapping_code.lstrip()
-        result_unwrapping_code.lstrip()
+        arg_unwrapping_code = arg_unwrapping_code.lstrip()
+        arg_wrapping_code = arg_wrapping_code.lstrip()
+        result_wrapping_code = result_wrapping_code.lstrip()
+        result_unwrapping_code = result_unwrapping_code.lstrip()
 
         source = f"""\
 import torch

From 74184da2ff3056598e214a70fd8d3a67c55adf8f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:21:36 +0200
Subject: [PATCH 390/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 56d5295bb7..ec2381b6e0 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -25,7 +25,10 @@ def type_name(t: type) -> str:
                     return str(t)
                 else:
                     return t.__name__
-            elif t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions":
+            elif (
+                t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions"
+                or t.__module__ == "__init__.pyi"
+            ):
                 return f"cpp_extensions.{t.__name__}"
             else:
                 return f"{t.__module__}.{t.__name__}"

From 587a4ccb2a7bd3ee90191ee1a59f29c55f0e67a1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:24:04 +0200
Subject: [PATCH 391/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index ec2381b6e0..cb0fb3f73b 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 from collections import namedtuple
-from typing import Any, Callable
+from typing import Any, Callable, Sequence
 import warnings
 from enum import Enum
 from types import GenericAlias
@@ -50,7 +50,7 @@ def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
 
         def wrap_type(arg_type: type):
             if arg_type is _nvte.Tensor:
-                return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
+                return Sequence[torch.Tensor]
             elif issubclass(arg_type, Enum):
                 return int
             elif arg_type in [int, float, bool, str, torch.Tensor]:
@@ -128,6 +128,7 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
         source = f"""\
 import torch
 from .. import cpp_extensions
+from typing import Sequence
 
 raw_handles: list[cpp_extensions.RawTensor] = []
 
@@ -135,7 +136,7 @@ def te_to_torch_tensor(t: cpp_extensions.Tensor):
     raw_handles.append(t._raw)
     return (t.data, t.amax, t.scale, t.scale_inv)
 
-def torch_to_te_tensor(t: tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]):
+def torch_to_te_tensor(t: Sequence[torch.Tensor]):
     _raw = raw_handles.pop(0)
     return cpp_extensions.Tensor(_raw, *t)
 

From 018a248989d8a512502b221c63d13c865b1fde9b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:25:43 +0200
Subject: [PATCH 392/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index cb0fb3f73b..906ba2b8c6 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -20,11 +20,10 @@
 def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
     def make_wrapper(func: Callable[..., Any]):
         def type_name(t: type) -> str:
+            if isinstance(t, GenericAlias):
+                return str(t)
             if t.__module__ == "builtins":
-                if isinstance(t, GenericAlias):
-                    return str(t)
-                else:
-                    return t.__name__
+                return t.__name__
             elif (
                 t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions"
                 or t.__module__ == "__init__.pyi"
@@ -128,7 +127,7 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
         source = f"""\
 import torch
 from .. import cpp_extensions
-from typing import Sequence
+import typing
 
 raw_handles: list[cpp_extensions.RawTensor] = []
 

From bf64587344942a6bbc1e8abee0c5a1bef533dcfb Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:28:30 +0200
Subject: [PATCH 393/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 906ba2b8c6..bf2ff70343 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -4,6 +4,7 @@
 import warnings
 from enum import Enum
 from types import GenericAlias
+from typing import _SpecialGenericAlias  # type: ignore
 import torch
 from .. import cpp_extensions as _nvte
 from ..utils import (
@@ -20,7 +21,7 @@
 def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
     def make_wrapper(func: Callable[..., Any]):
         def type_name(t: type) -> str:
-            if isinstance(t, GenericAlias):
+            if isinstance(t, GenericAlias | _SpecialGenericAlias):
                 return str(t)
             if t.__module__ == "builtins":
                 return t.__name__
@@ -135,7 +136,7 @@ def te_to_torch_tensor(t: cpp_extensions.Tensor):
     raw_handles.append(t._raw)
     return (t.data, t.amax, t.scale, t.scale_inv)
 
-def torch_to_te_tensor(t: Sequence[torch.Tensor]):
+def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]):
     _raw = raw_handles.pop(0)
     return cpp_extensions.Tensor(_raw, *t)
 

From 95eb75e035f0a07c89f0c00711f9727f8654f93a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:30:31 +0200
Subject: [PATCH 394/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index bf2ff70343..7ba27aa863 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -4,7 +4,7 @@
 import warnings
 from enum import Enum
 from types import GenericAlias
-from typing import _SpecialGenericAlias  # type: ignore
+from typing import _SpecialGenericAlias, _GenericAlias  # type: ignore
 import torch
 from .. import cpp_extensions as _nvte
 from ..utils import (
@@ -21,7 +21,7 @@
 def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
     def make_wrapper(func: Callable[..., Any]):
         def type_name(t: type) -> str:
-            if isinstance(t, GenericAlias | _SpecialGenericAlias):
+            if isinstance(t, GenericAlias | _SpecialGenericAlias | _GenericAlias):
                 return str(t)
             if t.__module__ == "builtins":
                 return t.__name__

From 6f657184306815f5989c64dd543e170369ae2eb4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:39:15 +0200
Subject: [PATCH 395/535] fix result type

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 54 +++++++++++++------
 1 file changed, 38 insertions(+), 16 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 7ba27aa863..42334a4b22 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -33,8 +33,28 @@ def type_name(t: type) -> str:
             else:
                 return f"{t.__module__}.{t.__name__}"
 
-        def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
-            wrapped_arg_type_name = type_name(wrap_type(arg_type))
+        def wrap_arg_type(arg_type: type):
+            if arg_type is _nvte.Tensor:
+                return Sequence[torch.Tensor]
+            elif issubclass(arg_type, Enum):
+                return int
+            elif arg_type in [int, float, bool, str, torch.Tensor]:
+                return arg_type
+            else:
+                raise NotImplementedError(arg_type_name)
+
+        def wrap_result_type(result_type: type):
+            if result_type is _nvte.Tensor:
+                return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
+            else:
+                return wrap_arg_type(result_type)
+
+        def wrap_unwrap_code(
+            arg_name: str,
+            arg_type: type,
+            arg_type_name: str,
+            wrapped_arg_type_name: str,
+        ):
             if arg_type is _nvte.Tensor:
                 w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
                 u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
@@ -48,15 +68,17 @@ def wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
                 raise NotImplementedError(arg_type_name)
             return (w, u)
 
-        def wrap_type(arg_type: type):
-            if arg_type is _nvte.Tensor:
-                return Sequence[torch.Tensor]
-            elif issubclass(arg_type, Enum):
-                return int
-            elif arg_type in [int, float, bool, str, torch.Tensor]:
-                return arg_type
-            else:
-                raise NotImplementedError(arg_type_name)
+        def arg_wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
+            wrapped_arg_type_name = type_name(wrap_arg_type(arg_type))
+            return wrap_unwrap_code(
+                arg_name, arg_type, arg_type_name, wrapped_arg_type_name
+            )
+
+        def result_wrap_unwrap_code(result_type: type, result_type_name: str):
+            wrapped_result_type_name = type_name(wrap_result_type(result_type))
+            return wrap_unwrap_code(
+                "result", result_type, result_type_name, wrapped_result_type_name
+            )
 
         def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
             name = f"nvte::{func.__name__}"
@@ -100,19 +122,19 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
         for arg_name, arg_type, arg_type_name in zip(
             arg_names, arg_types, arg_type_names
         ):
-            w, u = wrap_unwrap_code(arg_name, arg_type, arg_type_name)
+            w, u = arg_wrap_unwrap_code(arg_name, arg_type, arg_type_name)
             arg_wrapping_code += w
             arg_unwrapping_code += u
         wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
 
-        result_wrapping_code, result_unwrapping_code = wrap_unwrap_code(
-            "result", return_type, return_type_name
+        result_wrapping_code, result_unwrapping_code = result_wrap_unwrap_code(
+            return_type, return_type_name
         )
 
         wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
-        wrapped_arg_types = [wrap_type(t) for t in arg_types]
+        wrapped_arg_types = [wrap_arg_type(t) for t in arg_types]
         wrapped_arg_type_names = [type_name(t) for t in wrapped_arg_types]
-        wrapped_return_type = wrap_type(return_type)
+        wrapped_return_type = wrap_result_type(return_type)
         wrapped_return_type_name = type_name(wrapped_return_type)
         inner_sig = f"""({ ','.join(
             f'{arg_name}: {arg_type_name}'

From ac207ca1ff2849b6d1fb3cd11621fd6e3a68dd38 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:47:51 +0200
Subject: [PATCH 396/535] fix error repotr

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 42334a4b22..58a32e90af 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -41,7 +41,7 @@ def wrap_arg_type(arg_type: type):
             elif arg_type in [int, float, bool, str, torch.Tensor]:
                 return arg_type
             else:
-                raise NotImplementedError(arg_type_name)
+                raise NotImplementedError(arg_type)
 
         def wrap_result_type(result_type: type):
             if result_type is _nvte.Tensor:

From 0161d024df42f259c82a23e902b9a3c84017a0c7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:53:23 +0200
Subject: [PATCH 397/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 20 +++++++++-------
 .../pytorch/sequential/utils.py               | 23 +++++++++++++++----
 2 files changed, 31 insertions(+), 12 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 58a32e90af..2548c49b3a 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -15,6 +15,7 @@
     get_return_type,
     exec_saving_source,
     reinterpret_cast,
+    recursive_apply,
 )
 
 
@@ -34,14 +35,17 @@ def type_name(t: type) -> str:
                 return f"{t.__module__}.{t.__name__}"
 
         def wrap_arg_type(arg_type: type):
-            if arg_type is _nvte.Tensor:
-                return Sequence[torch.Tensor]
-            elif issubclass(arg_type, Enum):
-                return int
-            elif arg_type in [int, float, bool, str, torch.Tensor]:
-                return arg_type
-            else:
-                raise NotImplementedError(arg_type)
+            def wrap_single(arg_type: type):
+                if arg_type is _nvte.Tensor:
+                    return Sequence[torch.Tensor]
+                elif issubclass(arg_type, Enum):
+                    return int
+                elif arg_type in [int, float, bool, str, torch.Tensor]:
+                    return arg_type
+                else:
+                    raise NotImplementedError(arg_type)
+
+            return recursive_apply(wrap_single, arg_type)
 
         def wrap_result_type(result_type: type):
             if result_type is _nvte.Tensor:
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 4f90e8153a..4bdd39dcd0 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -1,8 +1,6 @@
-from enum import Enum
 from typing import (
     Any,
     Callable,
-    ClassVar,
     Generic,
     Generator,
     Literal,
@@ -10,9 +8,8 @@
     TypeVar,
     overload,
 )
-from types import GenericAlias, TracebackType, ModuleType
+from types import TracebackType, ModuleType
 from typing_extensions import ParamSpec
-import warnings
 
 PS = ParamSpec("PS")
 T = TypeVar("T")
@@ -205,3 +202,21 @@ def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
 
 def reinterpret_cast(x: Any, t: type[T], /) -> T:
     return x
+
+
+def recursive_apply(
+    func: Callable[[Any], Any],
+    x: Any,
+    pred: Callable[[Any], bool] = lambda _: True,
+    on_false: Callable[[Any], Any] = lambda x: x,
+) -> Any:
+    if pred(x):
+        return func(x)
+    elif isinstance(x, list):
+        return [func(y) for y in x]  # type: ignore
+    elif isinstance(x, tuple):
+        return tuple(func(y) for y in x)  # type: ignore
+    elif isinstance(x, dict):
+        return {k: func(v) for k, v in x.items()}  # type: ignore
+    else:
+        return on_false(x)

From 3a3b1937fb7505f126461a102b285d73fa36bd1c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 17:55:17 +0200
Subject: [PATCH 398/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 4bdd39dcd0..2eb69c7896 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -207,7 +207,9 @@ def reinterpret_cast(x: Any, t: type[T], /) -> T:
 def recursive_apply(
     func: Callable[[Any], Any],
     x: Any,
-    pred: Callable[[Any], bool] = lambda _: True,
+    pred: Callable[[Any], bool] = lambda x: not (
+        isinstance(x, list) or isinstance(x, tuple) or isinstance(x, dict)
+    ),
     on_false: Callable[[Any], Any] = lambda x: x,
 ) -> Any:
     if pred(x):

From 846be1829acac5e7e40f4fd2a3e603d27bc8359a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 18:18:13 +0200
Subject: [PATCH 399/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 52 +++++++++++++------
 .../pytorch/sequential/utils.py               | 35 ++++++-------
 2 files changed, 51 insertions(+), 36 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 2548c49b3a..7d577b1bfb 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,10 +1,11 @@
 from __future__ import annotations
 from collections import namedtuple
 from typing import Any, Callable, Sequence
+from types import GenericAlias
+import typing
 import warnings
 from enum import Enum
-from types import GenericAlias
-from typing import _SpecialGenericAlias, _GenericAlias  # type: ignore
+
 import torch
 from .. import cpp_extensions as _nvte
 from ..utils import (
@@ -15,14 +16,14 @@
     get_return_type,
     exec_saving_source,
     reinterpret_cast,
-    recursive_apply,
+    is_generic,
 )
 
 
 def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
     def make_wrapper(func: Callable[..., Any]):
         def type_name(t: type) -> str:
-            if isinstance(t, GenericAlias | _SpecialGenericAlias | _GenericAlias):
+            if is_generic(t):
                 return str(t)
             if t.__module__ == "builtins":
                 return t.__name__
@@ -34,24 +35,41 @@ def type_name(t: type) -> str:
             else:
                 return f"{t.__module__}.{t.__name__}"
 
-        def wrap_arg_type(arg_type: type):
-            def wrap_single(arg_type: type):
-                if arg_type is _nvte.Tensor:
-                    return Sequence[torch.Tensor]
-                elif issubclass(arg_type, Enum):
-                    return int
-                elif arg_type in [int, float, bool, str, torch.Tensor]:
-                    return arg_type
-                else:
-                    raise NotImplementedError(arg_type)
+        def wrap_type(
+            type_wrap_func: Callable[[type], type],
+            arg_type_: type | GenericAlias,
+        ) -> Any:
+            if is_generic(arg_type_):
+                arg_type_ = reinterpret_cast(arg_type_, GenericAlias)
+                origin = arg_type_.__origin__
+                args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
+                new_args = [wrap_type(type_wrap_func, arg) for arg in args]
+                return origin[*new_args]  # type: ignore
+            else:
+                arg_type_ = reinterpret_cast(arg_type_, type)
+                return type_wrap_func(arg_type)
 
-            return recursive_apply(wrap_single, arg_type)
+        def arg_type_wrap_func(arg_type: type):
+            if arg_type is _nvte.Tensor:
+                return Sequence[torch.Tensor]
+            elif issubclass(arg_type, Enum):
+                return int
+            elif arg_type in [int, float, bool, str, torch.Tensor]:
+                return arg_type
+            else:
+                raise NotImplementedError(arg_type)
 
-        def wrap_result_type(result_type: type):
+        def wrap_arg_type(arg_type: type | GenericAlias) -> Any:
+            return wrap_type(arg_type_wrap_func, arg_type)
+
+        def result_type_wrap_func(result_type: type):
             if result_type is _nvte.Tensor:
                 return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
             else:
-                return wrap_arg_type(result_type)
+                return arg_type_wrap_func(result_type)
+
+        def wrap_result_type(result_type: type | GenericAlias) -> Any:
+            return wrap_type(result_type_wrap_func, result_type)
 
         def wrap_unwrap_code(
             arg_name: str,
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 2eb69c7896..b55e93e431 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -8,7 +8,7 @@
     TypeVar,
     overload,
 )
-from types import TracebackType, ModuleType
+from types import TracebackType, ModuleType, GenericAlias
 from typing_extensions import ParamSpec
 
 PS = ParamSpec("PS")
@@ -204,21 +204,18 @@ def reinterpret_cast(x: Any, t: type[T], /) -> T:
     return x
 
 
-def recursive_apply(
-    func: Callable[[Any], Any],
-    x: Any,
-    pred: Callable[[Any], bool] = lambda x: not (
-        isinstance(x, list) or isinstance(x, tuple) or isinstance(x, dict)
-    ),
-    on_false: Callable[[Any], Any] = lambda x: x,
-) -> Any:
-    if pred(x):
-        return func(x)
-    elif isinstance(x, list):
-        return [func(y) for y in x]  # type: ignore
-    elif isinstance(x, tuple):
-        return tuple(func(y) for y in x)  # type: ignore
-    elif isinstance(x, dict):
-        return {k: func(v) for k, v in x.items()}  # type: ignore
-    else:
-        return on_false(x)
+@overload
+def is_generic(t: type) -> Literal[False]:
+    ...
+
+
+@overload
+def is_generic(t: GenericAlias) -> Literal[True]:
+    ...
+
+
+def is_generic(t: type | GenericAlias):
+    from types import GenericAlias
+    from typing import _SpecialGenericAlias, _GenericAlias  # type: ignore
+
+    return isinstance(t, GenericAlias | _SpecialGenericAlias | _GenericAlias)

From 1c47e20f42dddb814991d8d2ef223636bb8f2d2c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 18:20:37 +0200
Subject: [PATCH 400/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 7d577b1bfb..11549c327f 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -44,7 +44,7 @@ def wrap_type(
                 origin = arg_type_.__origin__
                 args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
                 new_args = [wrap_type(type_wrap_func, arg) for arg in args]
-                return origin[*new_args]  # type: ignore
+                return origin.__class_getitem__(new_args)  # type: ignore
             else:
                 arg_type_ = reinterpret_cast(arg_type_, type)
                 return type_wrap_func(arg_type)

From 4206f1c976055edb279c4e252246b9fd3acb7e38 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 18:30:43 +0200
Subject: [PATCH 401/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 11549c327f..7eb66d6372 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -24,7 +24,7 @@ def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
     def make_wrapper(func: Callable[..., Any]):
         def type_name(t: type) -> str:
             if is_generic(t):
-                return str(t)
+                return str(t).replace("collections.abc", "typing")
             if t.__module__ == "builtins":
                 return t.__name__
             elif (
@@ -42,6 +42,8 @@ def wrap_type(
             if is_generic(arg_type_):
                 arg_type_ = reinterpret_cast(arg_type_, GenericAlias)
                 origin = arg_type_.__origin__
+                while hasattr(origin, "__origin__"):
+                    origin = getattr(origin, "__origin__")
                 args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
                 new_args = [wrap_type(type_wrap_func, arg) for arg in args]
                 return origin.__class_getitem__(new_args)  # type: ignore

From aec8cf1546a0d58f2d157e6591124e4bbf818018 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 18:35:38 +0200
Subject: [PATCH 402/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 7eb66d6372..b3cd543483 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -25,7 +25,7 @@ def make_wrapper(func: Callable[..., Any]):
         def type_name(t: type) -> str:
             if is_generic(t):
                 return str(t).replace("collections.abc", "typing")
-            if t.__module__ == "builtins":
+            elif t.__module__ == "builtins":
                 return t.__name__
             elif (
                 t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions"

From 48899f515ca9d8d89953008386224930596a15ee Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 18:55:35 +0200
Subject: [PATCH 403/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index b3cd543483..e3876a49cc 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -178,11 +178,11 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
 
 raw_handles: list[cpp_extensions.RawTensor] = []
 
-def te_to_torch_tensor(t: cpp_extensions.Tensor):
+def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
     raw_handles.append(t._raw)
     return (t.data, t.amax, t.scale, t.scale_inv)
 
-def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]):
+def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
     _raw = raw_handles.pop(0)
     return cpp_extensions.Tensor(_raw, *t)
 

From bd6685f0fd07ac2f190721174c9a8b5d5377d504 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 19:17:43 +0200
Subject: [PATCH 404/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 244 +++++++++---------
 1 file changed, 126 insertions(+), 118 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index e3876a49cc..49dc262973 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -20,123 +20,131 @@
 )
 
 
+def _type_name(t: type) -> str:
+    if is_generic(t):
+        return str(t).replace("collections.abc", "typing")
+    elif t.__module__ == "builtins":
+        return t.__name__
+    elif (
+        t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions"
+        or t.__module__ == "__init__.pyi"
+    ):
+        return f"cpp_extensions.{t.__name__}"
+    else:
+        return f"{t.__module__}.{t.__name__}"
+
+
+def _wrap_type(
+    type_wrap_func: Callable[[type], type],
+    arg_type_: type | GenericAlias,
+) -> Any:
+    if is_generic(arg_type_):
+        arg_type_ = reinterpret_cast(arg_type_, GenericAlias)
+        origin = arg_type_.__origin__
+        while hasattr(origin, "__origin__"):
+            origin = getattr(origin, "__origin__")
+        args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
+        new_args = [_wrap_type(type_wrap_func, arg) for arg in args]
+        return origin.__class_getitem__(new_args)  # type: ignore
+    else:
+        arg_type_ = reinterpret_cast(arg_type_, type)
+        return type_wrap_func(arg_type_)
+
+
+def _arg_type_wrap_func(arg_type: type):
+    if arg_type is _nvte.Tensor:
+        return Sequence[torch.Tensor]
+    elif issubclass(arg_type, Enum):
+        return int
+    elif arg_type in [int, float, bool, str, torch.Tensor]:
+        return arg_type
+    else:
+        raise NotImplementedError(arg_type)
+
+
+def _wrap_arg_type(arg_type: type | GenericAlias) -> Any:
+    return _wrap_type(_arg_type_wrap_func, arg_type)
+
+
+def _result_type_wrap_func(result_type: type):
+    if result_type is _nvte.Tensor:
+        return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
+    else:
+        return _arg_type_wrap_func(result_type)
+
+
+def _wrap_result_type(result_type: type | GenericAlias) -> Any:
+    return _wrap_type(_result_type_wrap_func, result_type)
+
+
+def _wrap_unwrap_code(
+    arg_name: str,
+    arg_type: type,
+    arg_type_name: str,
+    wrapped_arg_type_name: str,
+):
+    if arg_type is _nvte.Tensor:
+        w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
+        u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
+    elif issubclass(arg_type, Enum):
+        w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
+        u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
+    elif arg_type in [int, float, bool, str, torch.Tensor]:
+        w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
+        u = f"    {arg_name}: {arg_type_name} = {arg_name}_\n"
+    else:
+        raise NotImplementedError(arg_type_name)
+    return (w, u)
+
+
+def _arg_wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
+    wrapped_arg_type_name = _type_name(_wrap_arg_type(arg_type))
+    return _wrap_unwrap_code(arg_name, arg_type, arg_type_name, wrapped_arg_type_name)
+
+
+def _result_wrap_unwrap_code(result_type: type, result_type_name: str):
+    wrapped_result_type_name = _type_name(_wrap_result_type(result_type))
+    return _wrap_unwrap_code(
+        "result", result_type, result_type_name, wrapped_result_type_name
+    )
+
+
+def _register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
+    name = f"nvte::{func.__name__}"
+    # Different versions of PyTorch have different ways of registering custom ops
+    try:
+        decl, impl, aimp = (  # type: ignore
+            torch._custom_ops.custom_op,  # type: ignore
+            torch._custom_ops.impl,  # type: ignore
+            torch._custom_ops.impl_abstract,  # type: ignore
+        )
+        decl(name)(func)
+        impl(name)(func)
+        aimp(name)(abstract_impl)
+        return
+    except AttributeError:
+        pass
+    try:
+        decl = torch._custom_op.impl.custom_op  # type: ignore
+        declared = decl(name)(func)  # type: ignore
+        declared.impl("cuda")(func)  # type: ignore
+        declared.impl_abstract()(abstract_impl)  # type: ignore
+        return
+    except AttributeError:
+        pass
+    if not hasattr(_register_op, "warned"):  # type: ignore
+        _register_op.warned = True  # type: ignore
+        warnings.warn("Unable to find custom_op, decorator has no effect")
+
+
 def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
     def make_wrapper(func: Callable[..., Any]):
-        def type_name(t: type) -> str:
-            if is_generic(t):
-                return str(t).replace("collections.abc", "typing")
-            elif t.__module__ == "builtins":
-                return t.__name__
-            elif (
-                t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions"
-                or t.__module__ == "__init__.pyi"
-            ):
-                return f"cpp_extensions.{t.__name__}"
-            else:
-                return f"{t.__module__}.{t.__name__}"
-
-        def wrap_type(
-            type_wrap_func: Callable[[type], type],
-            arg_type_: type | GenericAlias,
-        ) -> Any:
-            if is_generic(arg_type_):
-                arg_type_ = reinterpret_cast(arg_type_, GenericAlias)
-                origin = arg_type_.__origin__
-                while hasattr(origin, "__origin__"):
-                    origin = getattr(origin, "__origin__")
-                args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
-                new_args = [wrap_type(type_wrap_func, arg) for arg in args]
-                return origin.__class_getitem__(new_args)  # type: ignore
-            else:
-                arg_type_ = reinterpret_cast(arg_type_, type)
-                return type_wrap_func(arg_type)
-
-        def arg_type_wrap_func(arg_type: type):
-            if arg_type is _nvte.Tensor:
-                return Sequence[torch.Tensor]
-            elif issubclass(arg_type, Enum):
-                return int
-            elif arg_type in [int, float, bool, str, torch.Tensor]:
-                return arg_type
-            else:
-                raise NotImplementedError(arg_type)
-
-        def wrap_arg_type(arg_type: type | GenericAlias) -> Any:
-            return wrap_type(arg_type_wrap_func, arg_type)
-
-        def result_type_wrap_func(result_type: type):
-            if result_type is _nvte.Tensor:
-                return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
-            else:
-                return arg_type_wrap_func(result_type)
-
-        def wrap_result_type(result_type: type | GenericAlias) -> Any:
-            return wrap_type(result_type_wrap_func, result_type)
-
-        def wrap_unwrap_code(
-            arg_name: str,
-            arg_type: type,
-            arg_type_name: str,
-            wrapped_arg_type_name: str,
-        ):
-            if arg_type is _nvte.Tensor:
-                w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
-                u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
-            elif issubclass(arg_type, Enum):
-                w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
-                u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
-            elif arg_type in [int, float, bool, str, torch.Tensor]:
-                w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
-                u = f"    {arg_name}: {arg_type_name} = {arg_name}_\n"
-            else:
-                raise NotImplementedError(arg_type_name)
-            return (w, u)
-
-        def arg_wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
-            wrapped_arg_type_name = type_name(wrap_arg_type(arg_type))
-            return wrap_unwrap_code(
-                arg_name, arg_type, arg_type_name, wrapped_arg_type_name
-            )
-
-        def result_wrap_unwrap_code(result_type: type, result_type_name: str):
-            wrapped_result_type_name = type_name(wrap_result_type(result_type))
-            return wrap_unwrap_code(
-                "result", result_type, result_type_name, wrapped_result_type_name
-            )
-
-        def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
-            name = f"nvte::{func.__name__}"
-            # Different versions of PyTorch have different ways of registering custom ops
-            try:
-                decl, impl, aimp = (  # type: ignore
-                    torch._custom_ops.custom_op,  # type: ignore
-                    torch._custom_ops.impl,  # type: ignore
-                    torch._custom_ops.impl_abstract,  # type: ignore
-                )
-                decl(name)(func)
-                impl(name)(func)
-                aimp(name)(abstract_impl)
-                return
-            except AttributeError:
-                pass
-            try:
-                decl = torch._custom_op.impl.custom_op  # type: ignore
-                declared = decl(name)(func)  # type: ignore
-                declared.impl("cuda")(func)  # type: ignore
-                declared.impl_abstract()(abstract_impl)  # type: ignore
-                return
-            except AttributeError:
-                pass
-            if not hasattr(register_op, "warned"):  # type: ignore
-                register_op.warned = True  # type: ignore
-                warnings.warn("Unable to find custom_op, decorator has no effect")
-
         # Dynamically generate code of the wrappers
         arg_types = get_arg_types(func)
         arg_names = get_arg_names(func)
-        arg_type_names = list(map(type_name, arg_types))
+        arg_type_names = list(map(_type_name, arg_types))
         return_type = get_return_type(func)
-        return_type_name = type_name(return_type)
+        return_type_name = _type_name(return_type)
         outer_sig = f"""({ ','.join(
             f'{arg_name}: {arg_type_name}'
             for arg_name, arg_type_name in zip(arg_names, arg_type_names)
@@ -146,20 +154,20 @@ def register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
         for arg_name, arg_type, arg_type_name in zip(
             arg_names, arg_types, arg_type_names
         ):
-            w, u = arg_wrap_unwrap_code(arg_name, arg_type, arg_type_name)
+            w, u = _arg_wrap_unwrap_code(arg_name, arg_type, arg_type_name)
             arg_wrapping_code += w
             arg_unwrapping_code += u
         wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
 
-        result_wrapping_code, result_unwrapping_code = result_wrap_unwrap_code(
+        result_wrapping_code, result_unwrapping_code = _result_wrap_unwrap_code(
             return_type, return_type_name
         )
 
         wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
-        wrapped_arg_types = [wrap_arg_type(t) for t in arg_types]
-        wrapped_arg_type_names = [type_name(t) for t in wrapped_arg_types]
-        wrapped_return_type = wrap_result_type(return_type)
-        wrapped_return_type_name = type_name(wrapped_return_type)
+        wrapped_arg_types = [_wrap_arg_type(t) for t in arg_types]
+        wrapped_arg_type_names = [_type_name(t) for t in wrapped_arg_types]
+        wrapped_return_type = _wrap_result_type(return_type)
+        wrapped_return_type_name = _type_name(wrapped_return_type)
         inner_sig = f"""({ ','.join(
             f'{arg_name}: {arg_type_name}'
             for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
@@ -226,7 +234,7 @@ def __getattr__(self, attr_name: str) -> Any:
             op_impl = reinterpret_cast(ns[func.__name__], Callable[..., Any])
             op_wrap = reinterpret_cast(ns[f"{func.__name__}_wrap"], Callable[PS, T])
             op_aimp = reinterpret_cast(ns[f"{func.__name__}_aimp"], Callable[..., Any])
-            register_op(op_impl, op_aimp)
+            _register_op(op_impl, op_aimp)
 
             return op_wrap
         except Exception as e:

From 4d06e1c7c461f9fe7da578bdd9f44164df215154 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 19:19:24 +0200
Subject: [PATCH 405/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 4 +---
 1 file changed, 1 insertion(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 49dc262973..2315f55203 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -89,11 +89,9 @@ def _wrap_unwrap_code(
     elif issubclass(arg_type, Enum):
         w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
         u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
-    elif arg_type in [int, float, bool, str, torch.Tensor]:
+    else:
         w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
         u = f"    {arg_name}: {arg_type_name} = {arg_name}_\n"
-    else:
-        raise NotImplementedError(arg_type_name)
     return (w, u)
 
 

From f9399ce9d092e74c5ff1dd2806b19daecdcf3957 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 19:23:03 +0200
Subject: [PATCH 406/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py         | 18 +++++++++---------
 1 file changed, 9 insertions(+), 9 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 2315f55203..28c0d55b99 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -22,16 +22,16 @@
 
 def _type_name(t: type) -> str:
     if is_generic(t):
-        return str(t).replace("collections.abc", "typing")
-    elif t.__module__ == "builtins":
-        return t.__name__
-    elif (
-        t.__module__ == "transformer_engine.pytorch.sequential.cpp_extensions"
-        or t.__module__ == "__init__.pyi"
-    ):
-        return f"cpp_extensions.{t.__name__}"
+        result = str(t)
     else:
-        return f"{t.__module__}.{t.__name__}"
+        result = f"{t.__module__}.{t.__name__}"
+
+    return (
+        result.replace("builtins.", "")
+        .replace("transformer_engine.pytorch.sequential.", "")
+        .replace("collections.abc", "typing")
+        .replace("__init__.pyi", "cpp_extensions.")
+    )
 
 
 def _wrap_type(

From b932ae3c4fbf55888f77698001c5cfdab0cabf3b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 19:24:17 +0200
Subject: [PATCH 407/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 28c0d55b99..81be186b44 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -30,7 +30,7 @@ def _type_name(t: type) -> str:
         result.replace("builtins.", "")
         .replace("transformer_engine.pytorch.sequential.", "")
         .replace("collections.abc", "typing")
-        .replace("__init__.pyi", "cpp_extensions.")
+        .replace("__init__.pyi", "cpp_extensions")
     )
 
 

From abc0d8827f122d8da8fd11b6669d0aefb0003813 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:00:29 +0200
Subject: [PATCH 408/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 22 +++++++++++++++++--
 1 file changed, 20 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 81be186b44..d26aab973d 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -56,7 +56,7 @@ def _arg_type_wrap_func(arg_type: type):
         return Sequence[torch.Tensor]
     elif issubclass(arg_type, Enum):
         return int
-    elif arg_type in [int, float, bool, str, torch.Tensor]:
+    elif issubclass(arg_type, (int, float, bool, str, torch.Tensor)):
         return arg_type
     else:
         raise NotImplementedError(arg_type)
@@ -74,7 +74,20 @@ def _result_type_wrap_func(result_type: type):
 
 
 def _wrap_result_type(result_type: type | GenericAlias) -> Any:
-    return _wrap_type(_result_type_wrap_func, result_type)
+    wrapped_type = _wrap_type(_result_type_wrap_func, result_type)
+    # Flatten tuple of tuples of tensors
+    if issubclass(wrapped_type, tuple):
+        arg_types = typing.get_args(wrapped_type)
+        if any(arg_type is tuple for arg_type in arg_types):
+            assert all(
+                issubclass(arg_type, tuple)
+                and typing.get_args(arg_type)
+                == (torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor)
+                for arg_type in arg_types
+            )
+            tensors = len(arg_types)
+            types = (torch.Tensor,) * 4 * tensors
+            return tuple.__class_getitem__(types)
 
 
 def _wrap_unwrap_code(
@@ -86,6 +99,11 @@ def _wrap_unwrap_code(
     if arg_type is _nvte.Tensor:
         w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
         u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
+    elif issubclass(arg_type, tuple) and all(
+        sub_type is _nvte.Tensor for sub_type in typing.get_args(arg_type)
+    ):
+        w = f"    {arg_name}_: {wrapped_arg_type_name} = tuple(t for tensor in {arg_name} for t in te_to_torch_tensor(tensor))\n"
+        u = f"    {arg_name}: {arg_type_name} = tuple(torch_to_te_tensor(*({arg_name}_[j] for j in range(i, i + 4, 1))) for i in range(0, len({arg_name}_), 4))\n"
     elif issubclass(arg_type, Enum):
         w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
         u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"

From c6a6ed1642fcfd9c1d4228120f3d6fa82d1f26cb Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:04:06 +0200
Subject: [PATCH 409/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index d26aab973d..a3cb5547ce 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -88,6 +88,7 @@ def _wrap_result_type(result_type: type | GenericAlias) -> Any:
             tensors = len(arg_types)
             types = (torch.Tensor,) * 4 * tensors
             return tuple.__class_getitem__(types)
+    return wrapped_type  # type: ignore
 
 
 def _wrap_unwrap_code(

From f07dd18f001e657d1c924c7c0abaff444a70334a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:07:06 +0200
Subject: [PATCH 410/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index a3cb5547ce..f979ba63cd 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -78,7 +78,7 @@ def _wrap_result_type(result_type: type | GenericAlias) -> Any:
     # Flatten tuple of tuples of tensors
     if issubclass(wrapped_type, tuple):
         arg_types = typing.get_args(wrapped_type)
-        if any(arg_type is tuple for arg_type in arg_types):
+        if any(issubclass(arg_type, tuple) for arg_type in arg_types):
             assert all(
                 issubclass(arg_type, tuple)
                 and typing.get_args(arg_type)

From 2318b5e193ec42d631a72f6d2c49f6f4973cc8b0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:20:41 +0200
Subject: [PATCH 411/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 10 +++++++---
 1 file changed, 7 insertions(+), 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index f979ba63cd..a5f1600bfa 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -75,12 +75,16 @@ def _result_type_wrap_func(result_type: type):
 
 def _wrap_result_type(result_type: type | GenericAlias) -> Any:
     wrapped_type = _wrap_type(_result_type_wrap_func, result_type)
+
+    def is_generic_tuple(t: type) -> bool:
+        return is_generic(t) and (reinterpret_cast(t, GenericAlias).__origin__ is tuple)
+
     # Flatten tuple of tuples of tensors
-    if issubclass(wrapped_type, tuple):
+    if is_generic_tuple(wrapped_type):
         arg_types = typing.get_args(wrapped_type)
-        if any(issubclass(arg_type, tuple) for arg_type in arg_types):
+        if any(is_generic_tuple(arg_type) for arg_type in arg_types):
             assert all(
-                issubclass(arg_type, tuple)
+                is_generic_tuple(arg_type)
                 and typing.get_args(arg_type)
                 == (torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor)
                 for arg_type in arg_types

From ed365c83eb7be68065ddba8f7b7d27889abe380a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:24:41 +0200
Subject: [PATCH 412/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index a5f1600bfa..12bca38014 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -81,6 +81,7 @@ def is_generic_tuple(t: type) -> bool:
 
     # Flatten tuple of tuples of tensors
     if is_generic_tuple(wrapped_type):
+        breakpoint()
         arg_types = typing.get_args(wrapped_type)
         if any(is_generic_tuple(arg_type) for arg_type in arg_types):
             assert all(
@@ -90,7 +91,7 @@ def is_generic_tuple(t: type) -> bool:
                 for arg_type in arg_types
             )
             tensors = len(arg_types)
-            types = (torch.Tensor,) * 4 * tensors
+            types = (torch.Tensor,) * (4 * tensors)
             return tuple.__class_getitem__(types)
     return wrapped_type  # type: ignore
 

From 51e426ec38639903734e90e22239d7fae9ea36bd Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:27:31 +0200
Subject: [PATCH 413/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 12bca38014..24f8287ab8 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -44,7 +44,7 @@ def _wrap_type(
         while hasattr(origin, "__origin__"):
             origin = getattr(origin, "__origin__")
         args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
-        new_args = [_wrap_type(type_wrap_func, arg) for arg in args]
+        new_args = tuple(_wrap_type(type_wrap_func, arg) for arg in args)
         return origin.__class_getitem__(new_args)  # type: ignore
     else:
         arg_type_ = reinterpret_cast(arg_type_, type)
@@ -81,7 +81,6 @@ def is_generic_tuple(t: type) -> bool:
 
     # Flatten tuple of tuples of tensors
     if is_generic_tuple(wrapped_type):
-        breakpoint()
         arg_types = typing.get_args(wrapped_type)
         if any(is_generic_tuple(arg_type) for arg_type in arg_types):
             assert all(

From d61fe97dd76882cd6c65f137ab3bf59ef691cbbe Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:29:59 +0200
Subject: [PATCH 414/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/attention.py       | 18 ++++++++++++++++++
 1 file changed, 18 insertions(+)
 create mode 100644 transformer_engine/pytorch/sequential/nvte/attention.py

diff --git a/transformer_engine/pytorch/sequential/nvte/attention.py b/transformer_engine/pytorch/sequential/nvte/attention.py
new file mode 100644
index 0000000000..a71d177a4d
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/nvte/attention.py
@@ -0,0 +1,18 @@
+from __future__ import annotations
+from .. import cpp_extensions as _nvte
+from .empty import empty
+
+
+def dot_product_attention(
+    QKV: _nvte.Tensor, cu_seqlens: _nvte.Tensor, attn_scale: float, dropout: float
+):
+    S = empty((), _nvte.DType.Float8E4M3)
+    token_count = QKV.shape[0]
+    assert QKV.shape[1] % 3 == 0
+    token_dim = QKV.shape[1] // 3
+
+    _nvte.fused_attn_fwd_qkvpacked(
+        QKV,
+        empty(),
+        S,
+    )

From d1b766ed3abb3ab377d80ee036bea441e2601b79 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:31:53 +0200
Subject: [PATCH 415/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/simple_prec_compare.py                   | 8 +++++---
 .../pytorch/sequential/nvte/cast_transpose.py             | 3 +--
 2 files changed, 6 insertions(+), 5 deletions(-)

diff --git a/tests/sequential/simple_prec_compare.py b/tests/sequential/simple_prec_compare.py
index a7632bd7a3..49119323fb 100644
--- a/tests/sequential/simple_prec_compare.py
+++ b/tests/sequential/simple_prec_compare.py
@@ -1,4 +1,5 @@
 import torch
+from torch import nn
 import transformer_engine.pytorch.sequential as seq
 
 N = 2048
@@ -11,14 +12,15 @@
     seq.SwiGLU(),
     seq.Linear(2 * HIDDEN_DIM, HIDDEN_DIM),
 )
+torch.set_printoptions(precision=4, sci_mode=False)
 
-torch.compile(m)(x)
 
-torch.set_printoptions(precision=4, sci_mode=False)
+torch.compile(m.precompiled_for(x), fullgraph=True)(x)
 
 with seq.Recipe(lowp=seq.nvte.DType.Float8E4M3):
+    opt: nn.Module = torch.compile(m.precompiled_for(x), fullgraph=True, dynamic=True)
     for _ in range(100):
-        y = m(x)
+        y: torch.Tensor = opt(x)
         y.sum().backward()
         print(x.grad)
         x.grad = None
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index a3b447df30..17740135d5 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -74,10 +74,9 @@ def cast_transpose_checked(t: _nvte.Tensor, out_dtype: _nvte.DType | None):
         return cast_transpose(t, out_dtype)
 
 
-@torch_op
 def multi_cast_transpose(
     *desc: tuple[_nvte.Tensor, _nvte.DType]
-) -> list[tuple[_nvte.Tensor, ...]]:
+) -> list[tuple[_nvte.Tensor, _nvte.Tensor]]:
     outs = [
         multi_empty_share_metadata((t.shape, dtype), (t.shape[::-1], dtype))
         for t, dtype in desc

From 08864914231c9d800f650a9b99121118cdb39c5b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:41:07 +0200
Subject: [PATCH 416/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 39 ++++++++++++++++++-
 1 file changed, 38 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 1fb9118677..5f222c24ce 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-from typing import TYPE_CHECKING
+from typing import TYPE_CHECKING, overload
 import torch
 from .dynamic_load import inject_real
 
@@ -20,15 +20,52 @@ class Tensor:
     scale: torch.Tensor
     scale_inv: torch.Tensor
 
+    @overload
     def __init__(
         self,
+        _raw: RawTensor,
         data: torch.Tensor,
         amax: torch.Tensor,
         scale: torch.Tensor,
         scale_inv: torch.Tensor,
+        /,
+    ) -> None:
+        ...
+
+    @overload
+    def __init__(
+        self,
+        data: torch.Tensor,
+        amax: torch.Tensor,
+        scale: torch.Tensor,
+        scale_inv: torch.Tensor,
+        /,
+        *,
+        dtype_override: DType | None = None,
+    ) -> None:
+        ...
+
+    def __init__(
+        self,
+        arg0: torch.Tensor | RawTensor,
+        arg1: torch.Tensor,
+        arg2: torch.Tensor,
+        arg3: torch.Tensor,
+        arg4: torch.Tensor = torch.Tensor(),
         *,
         dtype_override: DType | None = None,
     ):
+        if isinstance(arg0, RawTensor):
+            self._raw = arg0
+            self.dtype = self._raw.dtype
+            self.shape = list(self._raw.shape)
+            self.data = arg1
+            self.amax = arg2
+            self.scale = arg3
+            self.scale_inv = arg4
+            return
+        data, amax, scale, scale_inv = arg0, arg1, arg2, arg3
+
         if dtype_override is not None:
             self.dtype = dtype_override
         else:

From 3dda1659c0af8a3087942b39527e54be65cf76e1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:42:38 +0200
Subject: [PATCH 417/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/dynamic_load.py           | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
index 0fb51245da..218a0ea74c 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
@@ -23,6 +23,8 @@ def wrapper(*args: Any):
                 real_args.append(arg._raw)
             elif isinstance(arg, Enum):
                 real_args.append(getattr(type(arg), "__orig_type__")(arg.value))
+            else:
+                real_args.append(arg)
         return real_func(*real_args, torch.cuda.current_stream().cuda_stream)
 
     return wrapper

From 9b37955f769fbd7c78f149a2b50d1b29839881e1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:46:42 +0200
Subject: [PATCH 418/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py               | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index 5f222c24ce..dedd70e6b8 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -85,7 +85,7 @@ def __init__(
         self.scale_inv = scale_inv
 
     def query_shape_dtype(self):
-        self.dtype = self._raw.dtype
+        self.dtype = getattr(DType, "__orig_type__")(self._raw.dtype.value)
         self.shape = list(self._raw.shape)
         return self
 

From 4d2f72d8d54598b215022783ec40f1c6d973ae12 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 20:48:56 +0200
Subject: [PATCH 419/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/cpp_extensions/__init__.py             | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index dedd70e6b8..b8f7db96b2 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -57,9 +57,9 @@ def __init__(
     ):
         if isinstance(arg0, RawTensor):
             self._raw = arg0
-            self.dtype = self._raw.dtype
             self.shape = list(self._raw.shape)
             self.data = arg1
+            self.dtype = torch_to_te_dtype(self.data.dtype)
             self.amax = arg2
             self.scale = arg3
             self.scale_inv = arg4
@@ -85,7 +85,7 @@ def __init__(
         self.scale_inv = scale_inv
 
     def query_shape_dtype(self):
-        self.dtype = getattr(DType, "__orig_type__")(self._raw.dtype.value)
+        self.dtype = DType(self._raw.dtype.value)
         self.shape = list(self._raw.shape)
         return self
 

From efb0f55e684283360eff9e53bb2483d102c473a9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 21:22:06 +0200
Subject: [PATCH 420/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py            | 15 ++++++++-------
 1 file changed, 8 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 24f8287ab8..9ea2e934d2 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -73,18 +73,19 @@ def _result_type_wrap_func(result_type: type):
         return _arg_type_wrap_func(result_type)
 
 
+def _is_generic_tuple(t: type) -> bool:
+    return is_generic(t) and (reinterpret_cast(t, GenericAlias).__origin__ is tuple)
+
+
 def _wrap_result_type(result_type: type | GenericAlias) -> Any:
     wrapped_type = _wrap_type(_result_type_wrap_func, result_type)
 
-    def is_generic_tuple(t: type) -> bool:
-        return is_generic(t) and (reinterpret_cast(t, GenericAlias).__origin__ is tuple)
-
     # Flatten tuple of tuples of tensors
-    if is_generic_tuple(wrapped_type):
+    if _is_generic_tuple(wrapped_type):
         arg_types = typing.get_args(wrapped_type)
-        if any(is_generic_tuple(arg_type) for arg_type in arg_types):
+        if any(_is_generic_tuple(arg_type) for arg_type in arg_types):
             assert all(
-                is_generic_tuple(arg_type)
+                _is_generic_tuple(arg_type)
                 and typing.get_args(arg_type)
                 == (torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor)
                 for arg_type in arg_types
@@ -104,7 +105,7 @@ def _wrap_unwrap_code(
     if arg_type is _nvte.Tensor:
         w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
         u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
-    elif issubclass(arg_type, tuple) and all(
+    elif _is_generic_tuple(arg_type) and all(
         sub_type is _nvte.Tensor for sub_type in typing.get_args(arg_type)
     ):
         w = f"    {arg_name}_: {wrapped_arg_type_name} = tuple(t for tensor in {arg_name} for t in te_to_torch_tensor(tensor))\n"

From 62525ac7926bc40ddbd46a424cc82488c977f243 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 21:23:04 +0200
Subject: [PATCH 421/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 9ea2e934d2..7e64a80e01 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -109,7 +109,7 @@ def _wrap_unwrap_code(
         sub_type is _nvte.Tensor for sub_type in typing.get_args(arg_type)
     ):
         w = f"    {arg_name}_: {wrapped_arg_type_name} = tuple(t for tensor in {arg_name} for t in te_to_torch_tensor(tensor))\n"
-        u = f"    {arg_name}: {arg_type_name} = tuple(torch_to_te_tensor(*({arg_name}_[j] for j in range(i, i + 4, 1))) for i in range(0, len({arg_name}_), 4))\n"
+        u = f"    {arg_name}: {arg_type_name} = tuple(torch_to_te_tensor(tuple({arg_name}_[j] for j in range(i, i + 4, 1))) for i in range(0, len({arg_name}_), 4))\n"
     elif issubclass(arg_type, Enum):
         w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
         u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"

From 5e03193174beefec5af5190d88c272cb705f4767 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 21:28:04 +0200
Subject: [PATCH 422/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py           | 3 +--
 transformer_engine/pytorch/sequential/nvte/_common.py         | 4 ++--
 2 files changed, 3 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 4bde13821e..23f7dc5be4 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -232,8 +232,7 @@ def apply(
                 pipeline.meta_fwd,
                 pipeline.meta_bwd,
             )
-            global _args
-            _args = args
+            globals()["_args"] = args
             x = ComputePipelineFunction.apply(x, *exposed_tensors)  # type: ignore
             nvte_x, is_exposed_x_squished_now, upcoming_backward = (
                 args.nvte_x,
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 7e64a80e01..2f3ad98b4b 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -209,11 +209,11 @@ def make_wrapper(func: Callable[..., Any]):
 raw_handles: list[cpp_extensions.RawTensor] = []
 
 def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-    raw_handles.append(t._raw)
+    globals()["raw_handles"].append(t._raw)
     return (t.data, t.amax, t.scale, t.scale_inv)
 
 def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
-    _raw = raw_handles.pop(0)
+    _raw = globals()["raw_handles"].pop(0)
     return cpp_extensions.Tensor(_raw, *t)
 
 def {func.__name__}_aimp{inner_sig}:

From 184c70c4838962339223ceb8c2874b0c4c71cb61 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 21:31:02 +0200
Subject: [PATCH 423/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 2f3ad98b4b..11affa46dc 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -243,9 +243,12 @@ class NVTEImpostor:
                 def __getattr__(self, attr_name: str) -> Any:
                     if attr_name == "Tensor":
                         return namedtuple("Tensor", ["data", "amax", "scale", "scale_inv"])  # type: ignore
+
                     else:
                         attr = getattr(_nvte, attr_name)
-                        if callable(attr):
+                        if isinstance(attr, type) and issubclass(attr, Enum):
+                            return attr
+                        elif callable(attr):
                             return lambda *args, **kwargs: None  # type: ignore
                         else:
                             return attr

From db860009fd16a03bb6ecbe1bd2be52c86722990d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 21:46:05 +0200
Subject: [PATCH 424/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/cpp_extensions/__init__.py     | 60 +++++--------------
 .../pytorch/sequential/nvte/_common.py        |  6 +-
 2 files changed, 16 insertions(+), 50 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index b8f7db96b2..be3e0a85e8 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -12,7 +12,7 @@
 
 
 class Tensor:
-    _raw: RawTensor
+    __raw: RawTensor | None
     dtype: DType
     shape: list[int]
     data: torch.Tensor
@@ -20,19 +20,6 @@ class Tensor:
     scale: torch.Tensor
     scale_inv: torch.Tensor
 
-    @overload
-    def __init__(
-        self,
-        _raw: RawTensor,
-        data: torch.Tensor,
-        amax: torch.Tensor,
-        scale: torch.Tensor,
-        scale_inv: torch.Tensor,
-        /,
-    ) -> None:
-        ...
-
-    @overload
     def __init__(
         self,
         data: torch.Tensor,
@@ -43,47 +30,30 @@ def __init__(
         *,
         dtype_override: DType | None = None,
     ) -> None:
-        ...
-
-    def __init__(
-        self,
-        arg0: torch.Tensor | RawTensor,
-        arg1: torch.Tensor,
-        arg2: torch.Tensor,
-        arg3: torch.Tensor,
-        arg4: torch.Tensor = torch.Tensor(),
-        *,
-        dtype_override: DType | None = None,
-    ):
-        if isinstance(arg0, RawTensor):
-            self._raw = arg0
-            self.shape = list(self._raw.shape)
-            self.data = arg1
-            self.dtype = torch_to_te_dtype(self.data.dtype)
-            self.amax = arg2
-            self.scale = arg3
-            self.scale_inv = arg4
-            return
-        data, amax, scale, scale_inv = arg0, arg1, arg2, arg3
-
         if dtype_override is not None:
             self.dtype = dtype_override
         else:
             self.dtype = torch_to_te_dtype(data.dtype)
         self.shape = list(data.shape)
-        self._raw = RawTensor(
-            data.data_ptr(),
-            self.shape,
-            getattr(DType, "__orig_type__")(self.dtype.value),
-            amax.data_ptr(),
-            scale.data_ptr(),
-            scale_inv.data_ptr(),
-        )
+        self.__raw = None
         self.data = data
         self.amax = amax
         self.scale = scale
         self.scale_inv = scale_inv
 
+    @property
+    def _raw(self) -> RawTensor:
+        if self.__raw is None:
+            self.__raw = RawTensor(
+                self.data.data_ptr(),
+                self.shape,
+                getattr(DType, "__orig_type__")(self.dtype.value),
+                self.amax.data_ptr(),
+                self.scale.data_ptr(),
+                self.scale_inv.data_ptr(),
+            )
+        return self.__raw
+
     def query_shape_dtype(self):
         self.dtype = DType(self._raw.dtype.value)
         self.shape = list(self._raw.shape)
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 11affa46dc..f53a96efed 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -206,15 +206,11 @@ def make_wrapper(func: Callable[..., Any]):
 from .. import cpp_extensions
 import typing
 
-raw_handles: list[cpp_extensions.RawTensor] = []
-
 def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-    globals()["raw_handles"].append(t._raw)
     return (t.data, t.amax, t.scale, t.scale_inv)
 
 def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
-    _raw = globals()["raw_handles"].pop(0)
-    return cpp_extensions.Tensor(_raw, *t)
+    return cpp_extensions.Tensor(*t)
 
 def {func.__name__}_aimp{inner_sig}:
     {arg_unwrapping_code}

From 05ebdd73e3fc578ebe283ef87279a42570cd43d7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 21:56:42 +0200
Subject: [PATCH 425/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py            | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 23f7dc5be4..4bde13821e 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -232,7 +232,8 @@ def apply(
                 pipeline.meta_fwd,
                 pipeline.meta_bwd,
             )
-            globals()["_args"] = args
+            global _args
+            _args = args
             x = ComputePipelineFunction.apply(x, *exposed_tensors)  # type: ignore
             nvte_x, is_exposed_x_squished_now, upcoming_backward = (
                 args.nvte_x,

From b26bae21bfadc39c693d0d0f298e4882912e23ed Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 22:00:05 +0200
Subject: [PATCH 426/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/compute_pipeline.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index 686d44a4d5..f8b7933574 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -23,7 +23,7 @@ def forward(self, x: nvte.Tensor):
             if not isinstance(op, FusedOp):
                 op_name = getattr(op, "name")
                 ctx = {op_name + name: tensor for name, tensor in ctx.items()}
-            full_ctx |= ctx
+            full_ctx.update(ctx)
         return x, full_ctx
 
     def backward(self, ctx: Context, dy: nvte.Tensor):

From de41226240974c401424731978683b78c2177a1a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 22:04:19 +0200
Subject: [PATCH 427/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py               | 4 ++--
 .../pytorch/sequential/fusions/interface.py              | 9 ++++++---
 transformer_engine/pytorch/sequential/meta.py            | 2 +-
 .../pytorch/sequential/nvte/cast_transpose.py            | 6 +++---
 transformer_engine/pytorch/sequential/ops/activation.py  | 4 ++--
 transformer_engine/pytorch/sequential/persistent.py      | 2 +-
 transformer_engine/pytorch/sequential/utils.py           | 2 +-
 7 files changed, 16 insertions(+), 13 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index f8b7933574..f1c2e1e4cb 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -86,14 +86,14 @@ def name_ops(ops: list[Op]):
 
 
 def split_into_self_contained(fwds: list[Op], bwds: list[Op]):
-    functions = list[SelfContainedOp]()
+    functions: list[SelfContainedOp] = []
     while fwds or bwds:
         fwd = fwds.pop(0)
         unmatched_fwd_ops: set[Op] = {
             *reduce(operator.iadd, [fwd.ops if isinstance(fwd, FusedOp) else [fwd]], [])
         }
         used_forwards = [fwd]
-        used_backwards = list[Op]()
+        used_backwards: list[Op] = []
         unmatched_bwd_ops: set[Op] = set()
         while unmatched_fwd_ops or unmatched_bwd_ops:
             while unmatched_fwd_ops:
diff --git a/transformer_engine/pytorch/sequential/fusions/interface.py b/transformer_engine/pytorch/sequential/fusions/interface.py
index ecf0de330c..452e4100c1 100644
--- a/transformer_engine/pytorch/sequential/fusions/interface.py
+++ b/transformer_engine/pytorch/sequential/fusions/interface.py
@@ -37,12 +37,12 @@ def forward(self, x: nvte.Tensor):
         for op, ctx in zip(self.ops, ctxs):
             op_name = getattr(op, "name")
             ctx: Context = {op_name + name: tensor for name, tensor in ctx.items()}
-            full_ctx |= ctx
+            full_ctx.update(ctx)
         return y, full_ctx
 
     def backward(self, ctx: Context, dy: nvte.Tensor):
         assert self.backward_ is not None
-        ctxs = list[Context]()
+        ctxs: list[Context] = []
         for op in self.ops:
             op_name = getattr(op, "name")
             ctxs.append(
@@ -58,7 +58,10 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
         return dx, grads_total
 
     def require_grad(self):
-        return list(sum((op.require_grad() for op in self.ops), list[nvte.Tensor]()))
+        list_: list[nvte.Tensor] = []
+        for op in self.ops:
+            list_.extend(op.require_grad())
+        return list_
 
     def __repr__(self):
         return f"""FusedOp{self.ops}"""
diff --git a/transformer_engine/pytorch/sequential/meta.py b/transformer_engine/pytorch/sequential/meta.py
index f8dff07bfa..c15d82b3dd 100644
--- a/transformer_engine/pytorch/sequential/meta.py
+++ b/transformer_engine/pytorch/sequential/meta.py
@@ -16,7 +16,7 @@ def _generate(self):
             if self._is_new_iteration():
                 # Allocate first iteration metatensors
                 self._one = torch.ones(1, device="cuda")
-                self._first_iteration_amaxes = list[torch.Tensor]()
+                self._first_iteration_amaxes: list[torch.Tensor] = []
             amax = torch.zeros(1, device="cuda")
             self._first_iteration_amaxes.append(amax)
             self._index_within_iteration()  # increment tensor index
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index 17740135d5..0803154a55 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -89,8 +89,8 @@ def multi_cast_transpose(
 
 
 def multi_cast_transpose_checked(*desc: tuple[_nvte.Tensor, _nvte.DType | None]):
-    transpose_results = list[tuple[_nvte.Tensor, _nvte.Tensor] | None]()
-    to_cast_transpose = list[tuple[_nvte.Tensor, _nvte.DType]]()
+    transpose_results: list[tuple[_nvte.Tensor, _nvte.Tensor] | None] = []
+    to_cast_transpose: list[tuple[_nvte.Tensor, _nvte.DType]] = []
     for t, dtype in desc:
         if dtype is None or t.dtype == dtype:
             transpose_results.append((t, transpose(t)))
@@ -100,7 +100,7 @@ def multi_cast_transpose_checked(*desc: tuple[_nvte.Tensor, _nvte.DType | None])
     cast_transpose_results = (
         multi_cast_transpose(*to_cast_transpose) if to_cast_transpose else []
     )
-    results = list[tuple[_nvte.Tensor, _nvte.Tensor]]()
+    results: list[tuple[_nvte.Tensor, _nvte.Tensor]] = []
     i = 0
     for result in transpose_results:
         if result is None:
diff --git a/transformer_engine/pytorch/sequential/ops/activation.py b/transformer_engine/pytorch/sequential/ops/activation.py
index f819ccb66f..89c83f598c 100644
--- a/transformer_engine/pytorch/sequential/ops/activation.py
+++ b/transformer_engine/pytorch/sequential/ops/activation.py
@@ -34,8 +34,8 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
 
         return dx, Grads()
 
-    def require_grad(self):
-        return list[nvte.Tensor]()
+    def require_grad(self) -> list[nvte.Tensor]:
+        return []
 
     _forward: Callable[[nvte.Tensor, nvte.DType], nvte.Tensor]
     _backward: Callable[[nvte.Tensor, nvte.Tensor, nvte.DType], nvte.Tensor]
diff --git a/transformer_engine/pytorch/sequential/persistent.py b/transformer_engine/pytorch/sequential/persistent.py
index 7b881a9df3..b55d0a014c 100644
--- a/transformer_engine/pytorch/sequential/persistent.py
+++ b/transformer_engine/pytorch/sequential/persistent.py
@@ -52,7 +52,7 @@ def _max_index(self):
     __user_set_iteration: int = 0
     __derived_seen_iteration: int = 0
     if __debug__:
-        __values = list[T]()
+        __values: list[T] = []
 
     def __is_new_iteration(self, update: bool):
         if self.__derived_seen_iteration == self._iteration() - 1:
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index b55e93e431..e17f53f227 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -176,7 +176,7 @@ def exec_saving_source(source: str, globals: dict[str, Any]):
 
     if not hasattr(exec_saving_source, "sources"):
         old_getlines = linecache.getlines
-        sources = list[str]()
+        sources: list[str] = []
 
         def patched_getlines(filename: str, module_globals: Any = None):
             if "<exec#" in filename:

From 33b5a64f8015ae3583e222ac784743c926fcbd15 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 22:17:49 +0200
Subject: [PATCH 428/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/sequential.py     |  5 ++---
 .../pytorch/sequential/nvte/_common.py          | 17 +++++++++--------
 .../pytorch/sequential/nvte/cast_transpose.py   |  6 +++---
 transformer_engine/pytorch/sequential/utils.py  |  6 +-----
 4 files changed, 15 insertions(+), 19 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/sequential.py b/transformer_engine/pytorch/sequential/module/sequential.py
index 0eed26c0ca..8f4735490a 100644
--- a/transformer_engine/pytorch/sequential/module/sequential.py
+++ b/transformer_engine/pytorch/sequential/module/sequential.py
@@ -1,7 +1,6 @@
 from __future__ import annotations
 from typing import OrderedDict, overload
 
-from ..utils import reinterpret_cast
 from .base import BaseModule
 
 
@@ -37,8 +36,8 @@ def _modules_from_args(
         if len(args) == 1 and isinstance(args[0], OrderedDict):
             modules = list(args[0].items())
         else:
-            args = reinterpret_cast(args, tuple[BaseModule, ...])
-            modules = list(map(lambda p: (f"{p[0]}", p[1]), enumerate(args)))
+            args1: tuple[BaseModule, ...] = args  # type: ignore
+            modules = list(map(lambda p: (f"{p[0]}", p[1]), enumerate(args1)))
 
         for name, module in modules:
             submodules: list[tuple[str, BaseModule]]
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index f53a96efed..69b4ece071 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 from collections import namedtuple
-from typing import Any, Callable, Sequence
+from typing import TYPE_CHECKING, Any, Callable, Sequence
 from types import GenericAlias
 import typing
 import warnings
@@ -15,7 +15,6 @@
     get_arg_types,
     get_return_type,
     exec_saving_source,
-    reinterpret_cast,
     is_generic,
 )
 
@@ -39,7 +38,8 @@ def _wrap_type(
     arg_type_: type | GenericAlias,
 ) -> Any:
     if is_generic(arg_type_):
-        arg_type_ = reinterpret_cast(arg_type_, GenericAlias)
+        if TYPE_CHECKING:
+            assert isinstance(arg_type_, GenericAlias)
         origin = arg_type_.__origin__
         while hasattr(origin, "__origin__"):
             origin = getattr(origin, "__origin__")
@@ -47,7 +47,8 @@ def _wrap_type(
         new_args = tuple(_wrap_type(type_wrap_func, arg) for arg in args)
         return origin.__class_getitem__(new_args)  # type: ignore
     else:
-        arg_type_ = reinterpret_cast(arg_type_, type)
+        if TYPE_CHECKING:
+            assert isinstance(arg_type_, type)
         return type_wrap_func(arg_type_)
 
 
@@ -74,7 +75,7 @@ def _result_type_wrap_func(result_type: type):
 
 
 def _is_generic_tuple(t: type) -> bool:
-    return is_generic(t) and (reinterpret_cast(t, GenericAlias).__origin__ is tuple)
+    return is_generic(t) and (t.__origin__ is tuple)  # type: ignore
 
 
 def _wrap_result_type(result_type: type | GenericAlias) -> Any:
@@ -252,9 +253,9 @@ def __getattr__(self, attr_name: str) -> Any:
             # Create op
             ns = dict(func=func, __name__=__name__, impostor=NVTEImpostor())
             exec_saving_source(source, ns)
-            op_impl = reinterpret_cast(ns[func.__name__], Callable[..., Any])
-            op_wrap = reinterpret_cast(ns[f"{func.__name__}_wrap"], Callable[PS, T])
-            op_aimp = reinterpret_cast(ns[f"{func.__name__}_aimp"], Callable[..., Any])
+            op_impl: Callable[..., Any] = ns[func.__name__]  # type: ignore
+            op_wrap: Callable[PS, T] = ns[f"{func.__name__}_wrap"]  # type: ignore
+            op_aimp: Callable[..., Any] = ns[f"{func.__name__}_aimp"]  # type: ignore
             _register_op(op_impl, op_aimp)
 
             return op_wrap
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index 0803154a55..6aa2ef5302 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -1,6 +1,5 @@
 from __future__ import annotations
 
-from ..utils import reinterpret_cast
 from .. import cpp_extensions as _nvte
 from ._common import torch_op
 
@@ -83,8 +82,9 @@ def multi_cast_transpose(
     ]
     out_cast_list, out_transpose_list = zip(*outs)
     input_list, _ = zip(*desc)
-    input_list = reinterpret_cast(input_list, tuple[_nvte.Tensor, ...])
-    _nvte.multi_cast_transpose(input_list, out_cast_list, out_transpose_list)
+    _nvte.multi_cast_transpose(
+        input_list, out_cast_list, out_transpose_list  # type: ignore
+    )
     return outs
 
 
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index e17f53f227..43b9aeed4f 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -187,7 +187,7 @@ def patched_getlines(filename: str, module_globals: Any = None):
 
         linecache.getlines = patched_getlines
         setattr(exec_saving_source, "sources", sources)
-    sources = reinterpret_cast(getattr(exec_saving_source, "sources"), list[str])
+    sources: list[str] = getattr(exec_saving_source, "sources")
     exec(
         compile(ast.parse(source), filename=f"<exec#{len(sources)}>", mode="exec"),
         globals,
@@ -200,10 +200,6 @@ def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
         ...
 
 
-def reinterpret_cast(x: Any, t: type[T], /) -> T:
-    return x
-
-
 @overload
 def is_generic(t: type) -> Literal[False]:
     ...

From 334aa52ca6c6bccdcaf3e332c3ae29df916335a3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 22:19:41 +0200
Subject: [PATCH 429/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 69b4ece071..ca9ad724e7 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -8,6 +8,7 @@
 
 import torch
 from .. import cpp_extensions as _nvte
+from .. import cpp_extensions
 from ..utils import (
     PS,
     T,

From 0a0eb134db456017299aad7a01060aaad8ab382b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 22:21:53 +0200
Subject: [PATCH 430/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index ca9ad724e7..af59cc26b2 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -39,11 +39,9 @@ def _wrap_type(
     arg_type_: type | GenericAlias,
 ) -> Any:
     if is_generic(arg_type_):
-        if TYPE_CHECKING:
-            assert isinstance(arg_type_, GenericAlias)
-        origin = arg_type_.__origin__
-        while hasattr(origin, "__origin__"):
-            origin = getattr(origin, "__origin__")
+        origin = arg_type_.__origin__  # type: ignore
+        while hasattr(origin, "__origin__"):  # type: ignore
+            origin = getattr(origin, "__origin__")  # type: ignore
         args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
         new_args = tuple(_wrap_type(type_wrap_func, arg) for arg in args)
         return origin.__class_getitem__(new_args)  # type: ignore

From 0333055d45fb6aa798f6437823ed8ba10bd2f5e1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Mon, 28 Aug 2023 22:23:50 +0200
Subject: [PATCH 431/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 4bde13821e..e354313f71 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -67,7 +67,7 @@ def forward(  # type: ignore[arg-type]
         y, to_save = args.op.forward(nvte_x)
 
         # Expose backward context for tracing
-        bwd_ctx = list[torch.Tensor]()
+        bwd_ctx: list[torch.Tensor] = []
         for _, tensor in to_save.items():
             bwd_ctx.append(tensor.data)
             if tensor.amax.numel():

From a431650aed3e3fbf8c7134c3e846865385b1f50e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 11:57:37 +0200
Subject: [PATCH 432/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index e354313f71..bbb10ff728 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -58,7 +58,7 @@ def forward(  # type: ignore[arg-type]
         exposed_tensors are exposed for the optimizer to later apply gradients
         """
         del exposed_tensors
-        args = _args
+        args = globals()["_args"]
         assert isinstance(args, ForwardArgs)
 
         nvte_x = args.nvte_x

From aca414878802774f5080775a1689f120060d164b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 12:55:57 +0200
Subject: [PATCH 433/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 122 ++++++++----------
 .../pytorch/sequential/module/base.py         |  10 +-
 2 files changed, 57 insertions(+), 75 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index bbb10ff728..82f9398c45 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -2,7 +2,7 @@
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-from typing import Final
+from typing import Final, Sequence
 from .persistent import Persistent
 from . import nvte
 from .ops import Context, Op
@@ -11,26 +11,29 @@
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
 
+class BackwardComm:
+    nvte_grad_output: nvte.Tensor | None = None
+
+
 class ForwardArgs:
-    nvte_x: nvte.Tensor
-    is_exposed_x_squished_now: bool
-    upcoming_backward: BackwardComm | None
+    is_exposed_x_squished_now: Final[bool]
+    upcoming_backward: Final[BackwardComm | None]
+    next_upcoming_backward: Final[BackwardComm]
     op: Final[Op]
     meta_tensor_provider_fwd: Final[Persistent[FP8Meta]]
     meta_tensor_provider_bwd: Final[Persistent[FP8Meta]]
 
     def __init__(
         self,
-        nvte_x: nvte.Tensor,
         is_exposed_x_squished_now: bool,
         upcoming_backward: BackwardComm | None,
         op: Op,
         meta_tensor_provider_fwd: Persistent[FP8Meta],
         meta_tensor_provider_bwd: Persistent[FP8Meta],
     ):
-        self.nvte_x = nvte_x
         self.is_exposed_x_squished_now = is_exposed_x_squished_now
         self.upcoming_backward = upcoming_backward
+        self.next_upcoming_backward = BackwardComm()
         self.op = op
         self.meta_tensor_provider_fwd = meta_tensor_provider_fwd
         self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
@@ -39,10 +42,6 @@ def __init__(
 _args: ForwardArgs
 
 
-class BackwardComm:
-    nvte_grad_output: nvte.Tensor | None = None
-
-
 class ComputePipelineFunction(autograd.Function):
     args: ForwardArgs
 
@@ -50,41 +49,29 @@ class ComputePipelineFunction(autograd.Function):
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *exposed_tensors: torch.Tensor,
-    ):
-        """
-        exposed_x is used only to let autograd construct the computation graph
-        real input and output is in list, as nvte.Tensor is immutable
-        exposed_tensors are exposed for the optimizer to later apply gradients
-        """
+        exposed_tensors: Sequence[torch.Tensor],
+        x: Sequence[torch.Tensor],
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
         del exposed_tensors
-        args = globals()["_args"]
-        assert isinstance(args, ForwardArgs)
-
-        nvte_x = args.nvte_x
+        assert len(x) == 4
+        nvte_x = nvte.Tensor(*x)
 
-        nvte.set_execution_state("forward", args.meta_tensor_provider_fwd)
-        y, to_save = args.op.forward(nvte_x)
+        nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
+        nvte_y, to_save = _args.op.forward(nvte_x)
 
         # Expose backward context for tracing
         bwd_ctx: list[torch.Tensor] = []
         for _, tensor in to_save.items():
             bwd_ctx.append(tensor.data)
-            if tensor.amax.numel():
-                bwd_ctx.append(tensor.amax)
-            if tensor.scale.numel():
-                bwd_ctx.append(tensor.scale)
-            if tensor.scale_inv.numel():
-                bwd_ctx.append(tensor.scale_inv)
+            bwd_ctx.append(tensor.amax)
+            bwd_ctx.append(tensor.scale)
+            bwd_ctx.append(tensor.scale_inv)
         ctx.save_for_backward(*bwd_ctx)
 
         # Save real context
         setattr(ctx, "nvte_ctx", to_save)
-        setattr(ctx, "nvte_op", args.op)
-        setattr(ctx, "nvte_meta_tensor_provider_bwd", args.meta_tensor_provider_bwd)
-
-        # Actually store the result
-        args.nvte_x = y
+        setattr(ctx, "nvte_op", _args.op)
+        setattr(ctx, "nvte_meta_tensor_provider_bwd", _args.meta_tensor_provider_bwd)
 
         # Pytorch will break the computation graph
         # if it will see an output tensor of an integer type.
@@ -97,15 +84,13 @@ def forward(  # type: ignore[arg-type]
         # won't run at inference anyway.
 
         # Unsquish x if needed:
-        if args.is_exposed_x_squished_now:
+        if _args.is_exposed_x_squished_now:
             # Intentionally commented out - _unsquish(exposed_x)
             # We don't need to perform the unsquish itself, as this
             # data will not be read anyway.
-            # Actually, we cannot do that, as x,
-            # cannot be modified in place.
             # It is only really neccesarry to notify
             # the backward.
-            args.is_exposed_x_squished_now = False
+            #
             # If the input to the forward was squished,
             # Pytorch will expect its gradient to be squished
             # as well. The backward of this forward will be
@@ -121,7 +106,7 @@ def forward(  # type: ignore[arg-type]
         exposed_x.data = torch.Tensor().cuda()  # avoid copy
         exposed_y = exposed_x.clone()  # copy history
         exposed_x.data = x_data
-        exposed_y.data = y.data
+        exposed_y.data = nvte_y.data
 
         # Squish y if fp8:
         if exposed_y.data.dtype == torch.int8:
@@ -132,21 +117,18 @@ def forward(  # type: ignore[arg-type]
             # to squish it, while the backward coresponding to this
             # forward needs to unsquish it.
             setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
-            args.is_exposed_x_squished_now = True
         else:
             setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
-            args.is_exposed_x_squished_now = False
 
         # Save backward comm
         # This object is allows for the current backward to
         # pass data to the next backward (the backward of the
         # preceding operation). This is needed to pass
         # fp8 gradients properly.
-        setattr(ctx, "nvte_upcoming_backward_comm", args.upcoming_backward)
-        args.upcoming_backward = BackwardComm()
-        setattr(ctx, "nvte_preceding_backward_comm", args.upcoming_backward)
+        setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
+        setattr(ctx, "nvte_preceding_backward_comm", _args.next_upcoming_backward)
 
-        return exposed_y
+        return (exposed_y, nvte_y.data, nvte_y.amax, nvte_y.scale, nvte_y.scale_inv)
 
     @staticmethod
     def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
@@ -204,19 +186,33 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         return (*torch_grads, None, None, None)
 
 
-def apply(
-    x: torch.Tensor, nvte_x: nvte.Tensor, pipeline: ComputePipeline, training: bool
-) -> torch.Tensor:
+def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
+    nvte_x = nvte.make_nvte_tensor(x)
     if not training:
-        raise NotImplementedError()  # TODO
-        y = pipeline.run_inference(nvte.make_nvte_tensor(x))
+        y = pipeline.run_inference(nvte_x)
         assert not nvte.is_fp8(y)
         return y.data
     else:
         pipeline.next_iteration()
-        is_exposed_x_squished_now = False
-        upcoming_backward = None
-        for contained_op in pipeline.functions:
+        for i, contained_op in enumerate(pipeline.functions):
+            global _args
+            if i == 0:
+                _args = ForwardArgs(
+                    False,
+                    None,
+                    contained_op,
+                    pipeline.meta_fwd,
+                    pipeline.meta_bwd,
+                )
+            else:
+                _args = ForwardArgs(
+                    x.dtype != nvte_x.data.dtype,
+                    _args.next_upcoming_backward,
+                    contained_op,
+                    pipeline.meta_fwd,
+                    pipeline.meta_bwd,
+                )
+
             nvte_tensors = contained_op.require_grad()
             exposed_tensors: list[torch.Tensor] = []
             for nvte_tensor in nvte_tensors:
@@ -224,22 +220,10 @@ def apply(
                     nvte_tensor
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
-            args = ForwardArgs(
-                nvte_x,
-                is_exposed_x_squished_now,
-                upcoming_backward,
-                contained_op,
-                pipeline.meta_fwd,
-                pipeline.meta_bwd,
-            )
-            global _args
-            _args = args
-            x = ComputePipelineFunction.apply(x, *exposed_tensors)  # type: ignore
-            nvte_x, is_exposed_x_squished_now, upcoming_backward = (
-                args.nvte_x,
-                args.is_exposed_x_squished_now,
-                args.upcoming_backward,
-            )
+
+            x, (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = ComputePipelineFunction.apply(x, *exposed_tensors)  # type: ignore
+            assert isinstance(x, torch.Tensor)
+            nvte_x = nvte.Tensor(nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv)  # type: ignore
         return x
 
 
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 0dd28982db..5a57ebd2c4 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -27,7 +27,7 @@ def forward(
         self, x: torch.Tensor, seq_lens: torch.Tensor | None = None
     ) -> torch.Tensor:
         self.precompiled_for(x, seq_lens)
-        return self._run(nvte.make_nvte_tensor(x), x)
+        return self._run(x)
 
     def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None):
         with torch.no_grad():
@@ -40,13 +40,11 @@ def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None)
 
             self._setup_pipeline(x, seq_lens)
 
-        nvte_x = nvte.make_nvte_tensor(x)
-        f: Callable[[torch.Tensor], torch.Tensor] = lambda _: self._run(nvte_x, x)
-        return f
+        return self._run
 
-    def _run(self, nvte_x: nvte.Tensor, x: torch.Tensor):
+    def _run(self, x: torch.Tensor):
         assert self.pipeline is not None
-        return apply(x, nvte_x, self.pipeline, self.training)
+        return apply(x, self.pipeline, self.training)
 
     @staticmethod
     def _create_seq_lens_tensor(x: torch.Tensor):

From 463b93fb9d8d7ea3796e7ec7ec63a9c0d7444ddf Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 12:57:58 +0200
Subject: [PATCH 434/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py         | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 82f9398c45..85200d4b18 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -221,7 +221,11 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
 
-            x, (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = ComputePipelineFunction.apply(x, *exposed_tensors)  # type: ignore
+            x, (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = ComputePipelineFunction.apply(  # type: ignore
+                x,
+                exposed_tensors,
+                (nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),
+            )
             assert isinstance(x, torch.Tensor)
             nvte_x = nvte.Tensor(nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv)  # type: ignore
         return x

From 676d55da7513da338d448a89df133e84f5a9ed04 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 12:59:06 +0200
Subject: [PATCH 435/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 85200d4b18..2c32a21782 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -221,7 +221,7 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
 
-            x, (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = ComputePipelineFunction.apply(  # type: ignore
+            (x, nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = ComputePipelineFunction.apply(  # type: ignore
                 x,
                 exposed_tensors,
                 (nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),

From 2593b1a6a7c2f768303e7115832a4b700d6769cf Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 13:01:53 +0200
Subject: [PATCH 436/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py  | 12 +++++-------
 1 file changed, 5 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 2c32a21782..cb71a17572 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -49,12 +49,10 @@ class ComputePipelineFunction(autograd.Function):
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        exposed_tensors: Sequence[torch.Tensor],
-        x: Sequence[torch.Tensor],
+        *tensor_mess: torch.Tensor,
     ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-        del exposed_tensors
-        assert len(x) == 4
-        nvte_x = nvte.Tensor(*x)
+        nvte_x = nvte.Tensor(*tensor_mess[-4:])
+        del tensor_mess
 
         nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
         nvte_y, to_save = _args.op.forward(nvte_x)
@@ -223,8 +221,8 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
 
             (x, nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = ComputePipelineFunction.apply(  # type: ignore
                 x,
-                exposed_tensors,
-                (nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),
+                *exposed_tensors,
+                *(nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),
             )
             assert isinstance(x, torch.Tensor)
             nvte_x = nvte.Tensor(nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv)  # type: ignore

From c78cf04d37ddb3f39318600960f36b7fe1c53d20 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 13:07:39 +0200
Subject: [PATCH 437/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py       | 15 ++++++++++-----
 .../pytorch/sequential/nvte/__init__.py           |  3 ++-
 2 files changed, 12 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index cb71a17572..fce8594291 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -99,12 +99,17 @@ def forward(  # type: ignore[arg-type]
         else:
             setattr(ctx, "nvte_squish_outgoing_dgrad", False)
 
+        @nvte.torch_op
+        def get_exposed_y(exposed_x: torch.Tensor, nvte_y: nvte.Tensor) -> torch.Tensor:
+            x_data = exposed_x.data
+            exposed_x.data = torch.Tensor().cuda()  # avoid copy
+            exposed_y = exposed_x.clone()  # copy history
+            exposed_x.data = x_data
+            exposed_y.data = nvte_y.data
+            return exposed_y
+
         # Expose result for Pytorch
-        x_data = exposed_x.data
-        exposed_x.data = torch.Tensor().cuda()  # avoid copy
-        exposed_y = exposed_x.clone()  # copy history
-        exposed_x.data = x_data
-        exposed_y.data = nvte_y.data
+        exposed_y = get_exposed_y(exposed_x, nvte_y)
 
         # Squish y if fp8:
         if exposed_y.data.dtype == torch.int8:
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index d3bc2af977..af71301f03 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -1,4 +1,4 @@
-from ._common import make_nvte_tensor
+from ._common import make_nvte_tensor, torch_op
 from ..cpp_extensions import (
     QKVLayout,
     BiasType,
@@ -96,6 +96,7 @@
     "swiglu",
     "te_to_torch_dtype",
     "Tensor",
+    "torch_op",
     "torch_to_te_dtype",
     "transpose",
 ]

From 64576e5427c194599dc09e5d0b803e42501c7d4a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 13:09:09 +0200
Subject: [PATCH 438/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 19 ++++++++++---------
 1 file changed, 10 insertions(+), 9 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index fce8594291..3b7806f44a 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -42,6 +42,16 @@ def __init__(
 _args: ForwardArgs
 
 
+@nvte.torch_op
+def get_exposed_y(exposed_x: torch.Tensor, nvte_y: nvte.Tensor) -> torch.Tensor:
+    x_data = exposed_x.data
+    exposed_x.data = torch.Tensor().cuda()  # avoid copy
+    exposed_y = exposed_x.clone()  # copy history
+    exposed_x.data = x_data
+    exposed_y.data = nvte_y.data
+    return exposed_y
+
+
 class ComputePipelineFunction(autograd.Function):
     args: ForwardArgs
 
@@ -99,15 +109,6 @@ def forward(  # type: ignore[arg-type]
         else:
             setattr(ctx, "nvte_squish_outgoing_dgrad", False)
 
-        @nvte.torch_op
-        def get_exposed_y(exposed_x: torch.Tensor, nvte_y: nvte.Tensor) -> torch.Tensor:
-            x_data = exposed_x.data
-            exposed_x.data = torch.Tensor().cuda()  # avoid copy
-            exposed_y = exposed_x.clone()  # copy history
-            exposed_x.data = x_data
-            exposed_y.data = nvte_y.data
-            return exposed_y
-
         # Expose result for Pytorch
         exposed_y = get_exposed_y(exposed_x, nvte_y)
 

From 0c218011a32f9c236dc07a9fcdce87e8d3248a50 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 17:20:36 +0200
Subject: [PATCH 439/535] add backward support

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   |  18 +-
 .../pytorch/sequential/nvte/_common.py        | 278 ++++++++++++------
 .../pytorch/sequential/utils.py               |  10 +-
 3 files changed, 216 insertions(+), 90 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 3b7806f44a..ce90c3022c 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -42,7 +42,20 @@ def __init__(
 _args: ForwardArgs
 
 
-@nvte.torch_op
+def get_exposed_y_save_for_backward(
+    exposed_x: torch.Tensor, nvte_y: nvte.Tensor, output: torch.Tensor
+):
+    return None
+
+
+def get_exposed_y_backward(ctx: FunctionCtx, saved: None, *grads: torch.Tensor):
+    return grads[0]
+
+
+@nvte.torch_op(
+    save_for_backward=get_exposed_y_save_for_backward,
+    backward=lambda ctx, saved, *grads: grads[0],
+)
 def get_exposed_y(exposed_x: torch.Tensor, nvte_y: nvte.Tensor) -> torch.Tensor:
     x_data = exposed_x.data
     exposed_x.data = torch.Tensor().cuda()  # avoid copy
@@ -110,7 +123,8 @@ def forward(  # type: ignore[arg-type]
             setattr(ctx, "nvte_squish_outgoing_dgrad", False)
 
         # Expose result for Pytorch
-        exposed_y = get_exposed_y(exposed_x, nvte_y)
+        exposed_y = get_exposed_y(exposed_x, nvte_y)  # type: ignore
+        assert isinstance(exposed_y, torch.Tensor)
 
         # Squish y if fp8:
         if exposed_y.data.dtype == torch.int8:
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index af59cc26b2..8833175f33 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,12 +1,14 @@
 from __future__ import annotations
 from collections import namedtuple
-from typing import TYPE_CHECKING, Any, Callable, Sequence
+from typing import TYPE_CHECKING, Any, Callable, Sequence, TypeVar, overload
 from types import GenericAlias
 import typing
+from typing_extensions import TypeVarTuple, Unpack
 import warnings
 from enum import Enum
 
 import torch
+from torch.autograd.function import FunctionCtx
 from .. import cpp_extensions as _nvte
 from .. import cpp_extensions
 from ..utils import (
@@ -131,18 +133,29 @@ def _result_wrap_unwrap_code(result_type: type, result_type_name: str):
     )
 
 
-def _register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
+def _register_op(
+    func: Callable[..., Any],
+    abstract_impl: Callable[..., Any],
+    save_for_backward: Callable[..., Any] | None = None,
+    backward: Callable[..., Any] | None = None,
+):
     name = f"nvte::{func.__name__}"
     # Different versions of PyTorch have different ways of registering custom ops
     try:
-        decl, impl, aimp = (  # type: ignore
+        decl, impl, aimp, save, bwd = (  # type: ignore
             torch._custom_ops.custom_op,  # type: ignore
             torch._custom_ops.impl,  # type: ignore
             torch._custom_ops.impl_abstract,  # type: ignore
+            torch._custom_ops.impl_save_for_backward,  # type: ignore
+            torch._custom_ops.impl_backward,  # type: ignore
         )
         decl(name)(func)
         impl(name)(func)
         aimp(name)(abstract_impl)
+        if save_for_backward:
+            save(name)(save_for_backward)
+        if backward:
+            bwd(name)(backward)
         return
     except AttributeError:
         pass
@@ -151,6 +164,10 @@ def _register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
         declared = decl(name)(func)  # type: ignore
         declared.impl("cuda")(func)  # type: ignore
         declared.impl_abstract()(abstract_impl)  # type: ignore
+        if save_for_backward:
+            declared.impl_save_for_backward()(save_for_backward)  # type: ignore
+        if backward:
+            declared.impl_backward()(backward)  # type: ignore
         return
     except AttributeError:
         pass
@@ -159,49 +176,103 @@ def _register_op(func: Callable[..., Any], abstract_impl: Callable[..., Any]):
         warnings.warn("Unable to find custom_op, decorator has no effect")
 
 
-def torch_op(func: Callable[PS, T]) -> Callable[PS, T]:
-    def make_wrapper(func: Callable[..., Any]):
-        # Dynamically generate code of the wrappers
-        arg_types = get_arg_types(func)
-        arg_names = get_arg_names(func)
-        arg_type_names = list(map(_type_name, arg_types))
-        return_type = get_return_type(func)
-        return_type_name = _type_name(return_type)
-        outer_sig = f"""({ ','.join(
+def _generate_wrapping_unwrapping_code(
+    func: Callable[..., Any],
+    inner_additional_setup_code: str,
+    innder_additional_teardown_code: str,
+):
+    arg_types = get_arg_types(func)
+    arg_names = get_arg_names(func)
+    arg_type_names = list(map(_type_name, arg_types))
+    return_type = get_return_type(func)
+    return_type_name = _type_name(return_type)
+    outer_sig = f"""({ ','.join(
             f'{arg_name}: {arg_type_name}'
             for arg_name, arg_type_name in zip(arg_names, arg_type_names)
         ) }) -> {return_type_name}"""
-        arg_wrapping_code = ""
-        arg_unwrapping_code = ""
-        for arg_name, arg_type, arg_type_name in zip(
-            arg_names, arg_types, arg_type_names
-        ):
-            w, u = _arg_wrap_unwrap_code(arg_name, arg_type, arg_type_name)
-            arg_wrapping_code += w
-            arg_unwrapping_code += u
-        wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
-
-        result_wrapping_code, result_unwrapping_code = _result_wrap_unwrap_code(
-            return_type, return_type_name
-        )
+    arg_wrapping_code = ""
+    arg_unwrapping_code = ""
+    for arg_name, arg_type, arg_type_name in zip(arg_names, arg_types, arg_type_names):
+        w, u = _arg_wrap_unwrap_code(arg_name, arg_type, arg_type_name)
+        arg_wrapping_code += w
+        arg_unwrapping_code += u
+    wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
+
+    result_wrapping_code, result_unwrapping_code = _result_wrap_unwrap_code(
+        return_type, return_type_name
+    )
 
-        wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
-        wrapped_arg_types = [_wrap_arg_type(t) for t in arg_types]
-        wrapped_arg_type_names = [_type_name(t) for t in wrapped_arg_types]
-        wrapped_return_type = _wrap_result_type(return_type)
-        wrapped_return_type_name = _type_name(wrapped_return_type)
-        inner_sig = f"""({ ','.join(
+    wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
+    wrapped_arg_types = [_wrap_arg_type(t) for t in arg_types]
+    wrapped_arg_type_names = [_type_name(t) for t in wrapped_arg_types]
+    wrapped_return_type = _wrap_result_type(return_type)
+    wrapped_return_type_name = _type_name(wrapped_return_type)
+    inner_sig = f"""({ ','.join(
             f'{arg_name}: {arg_type_name}'
             for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
         ) }) -> {wrapped_return_type_name}"""
-        unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
+    unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
+
+    arg_unwrapping_code = arg_unwrapping_code.lstrip()
+    arg_wrapping_code = arg_wrapping_code.lstrip()
+    result_wrapping_code = result_wrapping_code.lstrip()
+    result_unwrapping_code = result_unwrapping_code.lstrip()
+    inner_additional_setup_code = inner_additional_setup_code.lstrip()
+    innder_additional_teardown_code = innder_additional_teardown_code.lstrip()
+
+    inner = f"""\
+def {func.__name__}{inner_sig}:
+    {arg_unwrapping_code}
+    {inner_additional_setup_code}
+    result: {return_type_name} = func({unwrapped_args})
+    {innder_additional_teardown_code}
+    {result_wrapping_code}
+    return result_
+"""
+    outer = f"""\
+def {func.__name__}_wrap{outer_sig}:
+    {arg_wrapping_code}
+    result_: {wrapped_return_type_name} = torch.ops.nvte.{func.__name__}({wrapped_args})
+    {result_unwrapping_code}
+    return result
+"""
+    return inner, outer
 
-        arg_unwrapping_code = arg_unwrapping_code.lstrip()
-        arg_wrapping_code = arg_wrapping_code.lstrip()
-        result_wrapping_code = result_wrapping_code.lstrip()
-        result_unwrapping_code = result_unwrapping_code.lstrip()
 
-        source = f"""\
+T1 = TypeVar("T1")
+T2 = TypeVar("T2")
+Ts = TypeVarTuple("Ts")
+
+
+def _make_wrapper(
+    func: Callable[[Unpack[Ts]], T1],
+    save_for_backward: Callable[[Unpack[Ts], T1], T2] | None,
+    backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None,
+) -> Callable[[Unpack[Ts]], T1]:
+    # Dynamically generate code of the wrappers
+
+    impl_code, wrap_code = _generate_wrapping_unwrapping_code(func, "", "")
+    aimp_code, _________ = _generate_wrapping_unwrapping_code(
+        func,
+        'func.__globals__["_nvte"] = impostor',
+        'func.__globals__["_nvte"] = cpp_extensions',
+    )
+    if save_for_backward is not None or backward is not None:
+        assert save_for_backward is not None and backward is not None
+        (
+            save_for_backward_code,
+            save_for_backward_code_wrapping,
+        ) = _generate_wrapping_unwrapping_code(save_for_backward, "", "")
+        backward_code, backward_wrapping_code = _generate_wrapping_unwrapping_code(
+            backward, "", ""
+        )
+    else:
+        save_for_backward_code = ""
+        save_for_backward_code_wrapping = ""
+        backward_code = ""
+        backward_wrapping_code = ""
+
+    source = f"""\
 import torch
 from .. import cpp_extensions
 import typing
@@ -212,58 +283,95 @@ def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Te
 def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
     return cpp_extensions.Tensor(*t)
 
-def {func.__name__}_aimp{inner_sig}:
-    {arg_unwrapping_code}
-    func.__globals__["_nvte"] = impostor
-    result: {return_type_name} = func({unwrapped_args})
-    func.__globals__["_nvte"] = cpp_extensions
-    {result_wrapping_code}
-    return result_
+{aimp_code}
 
-def {func.__name__}{inner_sig}:
-    {arg_unwrapping_code}
-    result: {return_type_name} = func({unwrapped_args})
-    {result_wrapping_code}
-    return result_
+{impl_code}
 
-def {func.__name__}_wrap{outer_sig}:
-    {arg_wrapping_code}
-    result_: {wrapped_return_type_name} = torch.ops.nvte.{func.__name__}({wrapped_args})
-    {result_unwrapping_code}
-    return result
-"""
-        try:
-            # Swap real cpp_extensions (_nvte) for impostor that does nothing
-            # This is needed so the abstract implementation is traceable by PyTorch Dynamo
-            class NVTEImpostor:
-                def __getattr__(self, attr_name: str) -> Any:
-                    if attr_name == "Tensor":
-                        return namedtuple("Tensor", ["data", "amax", "scale", "scale_inv"])  # type: ignore
+{wrap_code}
+
+{save_for_backward_code}
+
+{backward_code}
 
+{save_for_backward_code_wrapping}
+
+{backward_wrapping_code}
+"""
+    try:
+        # Swap real cpp_extensions (_nvte) for impostor that does nothing
+        # This is needed so the abstract implementation is traceable by PyTorch Dynamo
+        class NVTEImpostor:
+            def __getattr__(self, attr_name: str) -> Any:
+                if attr_name == "Tensor":
+                    return namedtuple("Tensor", ["data", "amax", "scale", "scale_inv"])  # type: ignore
+
+                else:
+                    attr = getattr(_nvte, attr_name)
+                    if isinstance(attr, type) and issubclass(attr, Enum):
+                        return attr
+                    elif callable(attr):
+                        return lambda *args, **kwargs: None  # type: ignore
                     else:
-                        attr = getattr(_nvte, attr_name)
-                        if isinstance(attr, type) and issubclass(attr, Enum):
-                            return attr
-                        elif callable(attr):
-                            return lambda *args, **kwargs: None  # type: ignore
-                        else:
-                            return attr
-
-            # Create op
-            ns = dict(func=func, __name__=__name__, impostor=NVTEImpostor())
-            exec_saving_source(source, ns)
-            op_impl: Callable[..., Any] = ns[func.__name__]  # type: ignore
-            op_wrap: Callable[PS, T] = ns[f"{func.__name__}_wrap"]  # type: ignore
-            op_aimp: Callable[..., Any] = ns[f"{func.__name__}_aimp"]  # type: ignore
-            _register_op(op_impl, op_aimp)
-
-            return op_wrap
-        except Exception as e:
-            raise RuntimeError(
-                f"Failed to compile wrapper for {func.__name__}. Generated code: \n```\n{source}```"
-            ) from e
-
-    return make_wrapper(func)
+                        return attr
+
+        # Create op
+        ns = dict(func=func, __name__=__name__, impostor=NVTEImpostor())
+        exec_saving_source(source, ns)
+        op_impl: Callable[..., Any] = ns[func.__name__]  # type: ignore
+        op_wrap: Callable[[Unpack[Ts]], T1] = ns[f"{func.__name__}_wrap"]  # type: ignore
+        op_aimp: Callable[..., Any] = ns[f"{func.__name__}_aimp"]  # type: ignore
+
+        if save_for_backward is not None:
+            op_save_for_backward = ns[f"{save_for_backward.__name__}_wrap"]  # type: ignore
+            op_backward = ns[f"{backward.__name__}_wrap"]  # type: ignore
+        else:
+            op_save_for_backward = None
+            op_backward = None
+
+        _register_op(op_impl, op_aimp, op_save_for_backward, op_backward)
+
+        return op_wrap
+    except Exception as e:
+        raise RuntimeError(
+            f"Failed to compile wrapper for {func.__name__}. Generated code: \n```\n{source}```"
+        ) from e
+
+
+@overload
+def torch_op(
+    func: Callable[[Unpack[Ts]], T1],
+) -> Callable[[Unpack[Ts]], T1]:
+    ...
+
+
+@overload
+def torch_op(
+    *,
+    save_for_backward: Callable[[Unpack[Ts], T1], T2],
+    backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any],
+) -> Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]:
+    ...
+
+
+def torch_op(
+    func: Callable[[Unpack[Ts]], T1] | None = None,
+    *,
+    save_for_backward: Callable[[Unpack[Ts], T1], T2] | None = None,
+    backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None = None,
+) -> (
+    Callable[[Unpack[Ts]], T1]
+    | Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]
+):
+    if save_for_backward is not None or backward is not None:
+        assert save_for_backward is not None and backward is not None
+        assert func is None
+        decorator: Callable[
+            [Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]
+        ] = lambda func: _make_wrapper(func, save_for_backward, backward)
+        return decorator
+    else:
+        assert func is not None
+        return _make_wrapper(func, None, None)
 
 
 def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 43b9aeed4f..96742ba497 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -6,10 +6,11 @@
     Literal,
     Protocol,
     TypeVar,
+    Unpack,
     overload,
 )
 from types import TracebackType, ModuleType, GenericAlias
-from typing_extensions import ParamSpec
+from typing_extensions import ParamSpec, TypeVarTuple
 
 PS = ParamSpec("PS")
 T = TypeVar("T")
@@ -195,8 +196,11 @@ def patched_getlines(filename: str, module_globals: Any = None):
     sources.append(source)
 
 
-class Decorator(Protocol):
-    def __call__(self, f: Callable[PS, T]) -> Callable[PS, T]:
+Ts = TypeVarTuple("Ts")
+
+
+class Decorator(Protocol[Unpack[Ts], T]):
+    def __call__(self, f: Callable[[Unpack[Ts]], T]) -> Callable[[Unpack[Ts]], T]:
         ...
 
 

From 98a5da4a116cb6e41606240008ebe03177db44cb Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 17:42:00 +0200
Subject: [PATCH 440/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 3 +--
 1 file changed, 1 insertion(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 96742ba497..4c17e5bb0a 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -6,11 +6,10 @@
     Literal,
     Protocol,
     TypeVar,
-    Unpack,
     overload,
 )
 from types import TracebackType, ModuleType, GenericAlias
-from typing_extensions import ParamSpec, TypeVarTuple
+from typing_extensions import ParamSpec, TypeVarTuple, Unpack
 
 PS = ParamSpec("PS")
 T = TypeVar("T")

From cacf436d175d6b00ee2f59cdb001908f6c9ad881 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 17:45:45 +0200
Subject: [PATCH 441/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 ++
 1 file changed, 2 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 8833175f33..cd4a830086 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -252,11 +252,13 @@ def _make_wrapper(
     # Dynamically generate code of the wrappers
 
     impl_code, wrap_code = _generate_wrapping_unwrapping_code(func, "", "")
+    func.__name__ = func.__name__ + "_aimp"
     aimp_code, _________ = _generate_wrapping_unwrapping_code(
         func,
         'func.__globals__["_nvte"] = impostor',
         'func.__globals__["_nvte"] = cpp_extensions',
     )
+    func.__name__ = func.__name__[:-5]
     if save_for_backward is not None or backward is not None:
         assert save_for_backward is not None and backward is not None
         (

From f57ade86edd53573ce6f624ebc7124a835f26631 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 17:49:31 +0200
Subject: [PATCH 442/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py      | 6 ++++--
 transformer_engine/pytorch/sequential/nvte/_common.py    | 9 +++++++--
 2 files changed, 11 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index ce90c3022c..1854a2c07a 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -44,11 +44,13 @@ def __init__(
 
 def get_exposed_y_save_for_backward(
     exposed_x: torch.Tensor, nvte_y: nvte.Tensor, output: torch.Tensor
-):
+) -> None:
     return None
 
 
-def get_exposed_y_backward(ctx: FunctionCtx, saved: None, *grads: torch.Tensor):
+def get_exposed_y_backward(
+    ctx: FunctionCtx, saved: None, *grads: torch.Tensor
+) -> torch.Tensor:
     return grads[0]
 
 
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index cd4a830086..531186fceb 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -181,10 +181,15 @@ def _generate_wrapping_unwrapping_code(
     inner_additional_setup_code: str,
     innder_additional_teardown_code: str,
 ):
-    arg_types = get_arg_types(func)
+    try:
+        arg_types = get_arg_types(func)
+        return_type = get_return_type(func)
+    except Exception as e:
+        raise RuntimeError(
+            f"Failed to get argument and return types for {func.__name__}. Make sure the function is annotated with types."
+        ) from e
     arg_names = get_arg_names(func)
     arg_type_names = list(map(_type_name, arg_types))
-    return_type = get_return_type(func)
     return_type_name = _type_name(return_type)
     outer_sig = f"""({ ','.join(
             f'{arg_name}: {arg_type_name}'

From b7c134dccc920c7198a39696ef3b04f243cb5b6e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 17:51:13 +0200
Subject: [PATCH 443/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 531186fceb..cd469a9184 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 from collections import namedtuple
 from typing import TYPE_CHECKING, Any, Callable, Sequence, TypeVar, overload
-from types import GenericAlias
+from types import GenericAlias, NoneType
 import typing
 from typing_extensions import TypeVarTuple, Unpack
 import warnings
@@ -58,7 +58,7 @@ def _arg_type_wrap_func(arg_type: type):
         return Sequence[torch.Tensor]
     elif issubclass(arg_type, Enum):
         return int
-    elif issubclass(arg_type, (int, float, bool, str, torch.Tensor)):
+    elif issubclass(arg_type, (int, float, bool, str, torch.Tensor, NoneType)):
         return arg_type
     else:
         raise NotImplementedError(arg_type)

From b9137e46abcd80645ee4707a4a4b916405a3223c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 17:52:19 +0200
Subject: [PATCH 444/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 1854a2c07a..610b510688 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -56,7 +56,7 @@ def get_exposed_y_backward(
 
 @nvte.torch_op(
     save_for_backward=get_exposed_y_save_for_backward,
-    backward=lambda ctx, saved, *grads: grads[0],
+    backward=get_exposed_y_backward,
 )
 def get_exposed_y(exposed_x: torch.Tensor, nvte_y: nvte.Tensor) -> torch.Tensor:
     x_data = exposed_x.data

From 5f1b3fb1a9a97aa6d5c10e7271eb21acd4abefe4 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 17:56:03 +0200
Subject: [PATCH 445/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index cd469a9184..29593346e9 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -58,7 +58,9 @@ def _arg_type_wrap_func(arg_type: type):
         return Sequence[torch.Tensor]
     elif issubclass(arg_type, Enum):
         return int
-    elif issubclass(arg_type, (int, float, bool, str, torch.Tensor, NoneType)):
+    elif issubclass(
+        arg_type, (int, float, bool, str, torch.Tensor, NoneType, FunctionCtx)
+    ):
         return arg_type
     else:
         raise NotImplementedError(arg_type)

From 0506e63ca64da2b8742bde7c6c89c12c30b2360e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 17:58:43 +0200
Subject: [PATCH 446/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 29593346e9..a7c5033938 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -33,6 +33,7 @@ def _type_name(t: type) -> str:
         .replace("transformer_engine.pytorch.sequential.", "")
         .replace("collections.abc", "typing")
         .replace("__init__.pyi", "cpp_extensions")
+        .replace("NoneType", "None")
     )
 
 

From 17456bc337a507851f3484954b65c1b0e94bad57 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 20:00:53 +0200
Subject: [PATCH 447/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 25 ++++++-------------
 1 file changed, 8 insertions(+), 17 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index a7c5033938..113af3e31c 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -182,7 +182,7 @@ def _register_op(
 def _generate_wrapping_unwrapping_code(
     func: Callable[..., Any],
     inner_additional_setup_code: str,
-    innder_additional_teardown_code: str,
+    inner_additional_teardown_code: str,
 ):
     try:
         arg_types = get_arg_types(func)
@@ -226,14 +226,14 @@ def _generate_wrapping_unwrapping_code(
     result_wrapping_code = result_wrapping_code.lstrip()
     result_unwrapping_code = result_unwrapping_code.lstrip()
     inner_additional_setup_code = inner_additional_setup_code.lstrip()
-    innder_additional_teardown_code = innder_additional_teardown_code.lstrip()
+    inner_additional_teardown_code = inner_additional_teardown_code.lstrip()
 
     inner = f"""\
 def {func.__name__}{inner_sig}:
     {arg_unwrapping_code}
     {inner_additional_setup_code}
     result: {return_type_name} = func({unwrapped_args})
-    {innder_additional_teardown_code}
+    {inner_additional_teardown_code}
     {result_wrapping_code}
     return result_
 """
@@ -269,18 +269,13 @@ def _make_wrapper(
     func.__name__ = func.__name__[:-5]
     if save_for_backward is not None or backward is not None:
         assert save_for_backward is not None and backward is not None
-        (
-            save_for_backward_code,
-            save_for_backward_code_wrapping,
-        ) = _generate_wrapping_unwrapping_code(save_for_backward, "", "")
-        backward_code, backward_wrapping_code = _generate_wrapping_unwrapping_code(
-            backward, "", ""
+        save_for_backward_code, _ = _generate_wrapping_unwrapping_code(
+            save_for_backward, "", ""
         )
+        backward_code, _ = _generate_wrapping_unwrapping_code(backward, "", "")
     else:
         save_for_backward_code = ""
-        save_for_backward_code_wrapping = ""
         backward_code = ""
-        backward_wrapping_code = ""
 
     source = f"""\
 import torch
@@ -302,10 +297,6 @@ def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tenso
 {save_for_backward_code}
 
 {backward_code}
-
-{save_for_backward_code_wrapping}
-
-{backward_wrapping_code}
 """
     try:
         # Swap real cpp_extensions (_nvte) for impostor that does nothing
@@ -332,8 +323,8 @@ def __getattr__(self, attr_name: str) -> Any:
         op_aimp: Callable[..., Any] = ns[f"{func.__name__}_aimp"]  # type: ignore
 
         if save_for_backward is not None:
-            op_save_for_backward = ns[f"{save_for_backward.__name__}_wrap"]  # type: ignore
-            op_backward = ns[f"{backward.__name__}_wrap"]  # type: ignore
+            op_save_for_backward = ns[f"{save_for_backward.__name__}"]  # type: ignore
+            op_backward = ns[f"{backward.__name__}"]  # type: ignore
         else:
             op_save_for_backward = None
             op_backward = None

From 96b06fc95b13fd6ecea4faaefb98f28354dc2b5b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 20:02:58 +0200
Subject: [PATCH 448/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py         | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 610b510688..ad0972c017 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -48,15 +48,13 @@ def get_exposed_y_save_for_backward(
     return None
 
 
-def get_exposed_y_backward(
-    ctx: FunctionCtx, saved: None, *grads: torch.Tensor
-) -> torch.Tensor:
+def get_exposed_y_backward(ctx: FunctionCtx, *grads: torch.Tensor) -> torch.Tensor:
     return grads[0]
 
 
 @nvte.torch_op(
     save_for_backward=get_exposed_y_save_for_backward,
-    backward=get_exposed_y_backward,
+    backward=get_exposed_y_backward,  # type: ignore[none-argument-type]
 )
 def get_exposed_y(exposed_x: torch.Tensor, nvte_y: nvte.Tensor) -> torch.Tensor:
     x_data = exposed_x.data

From 10594e47ef14ec791aeee0a67ab2357f78e22df5 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 20:06:56 +0200
Subject: [PATCH 449/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py   | 11 ++++++-----
 1 file changed, 6 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index ad0972c017..0894967c3e 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -43,18 +43,20 @@ def __init__(
 
 
 def get_exposed_y_save_for_backward(
-    exposed_x: torch.Tensor, nvte_y: nvte.Tensor, output: torch.Tensor
+    inputs: tuple[torch.Tensor, nvte.Tensor], output: torch.Tensor
 ) -> None:
     return None
 
 
-def get_exposed_y_backward(ctx: FunctionCtx, *grads: torch.Tensor) -> torch.Tensor:
+def get_exposed_y_backward(
+    ctx: FunctionCtx, _: None, *grads: torch.Tensor
+) -> torch.Tensor:
     return grads[0]
 
 
 @nvte.torch_op(
     save_for_backward=get_exposed_y_save_for_backward,
-    backward=get_exposed_y_backward,  # type: ignore[none-argument-type]
+    backward=get_exposed_y_backward,
 )
 def get_exposed_y(exposed_x: torch.Tensor, nvte_y: nvte.Tensor) -> torch.Tensor:
     x_data = exposed_x.data
@@ -123,8 +125,7 @@ def forward(  # type: ignore[arg-type]
             setattr(ctx, "nvte_squish_outgoing_dgrad", False)
 
         # Expose result for Pytorch
-        exposed_y = get_exposed_y(exposed_x, nvte_y)  # type: ignore
-        assert isinstance(exposed_y, torch.Tensor)
+        exposed_y = get_exposed_y(exposed_x, nvte_y)
 
         # Squish y if fp8:
         if exposed_y.data.dtype == torch.int8:

From b03df20c903c8d1f2015501b26eba03cde5560f1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 21:20:16 +0200
Subject: [PATCH 450/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 74 +++++++++++--------
 1 file changed, 45 insertions(+), 29 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 113af3e31c..d556d55faa 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -247,6 +247,26 @@ def {func.__name__}_wrap{outer_sig}:
     return inner, outer
 
 
+def _run_full_code(*codes: str, **namespace: Any):
+    source = f"""\
+import torch
+from .. import cpp_extensions
+import typing
+
+def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+    return (t.data, t.amax, t.scale, t.scale_inv)
+
+def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
+    return cpp_extensions.Tensor(*t)
+"""
+    for code in codes:
+        source += code + "\n"
+    while "\n" * 3 in source:
+        source = source.replace("\n" * 3, "\n" * 2)
+    exec_saving_source(source, namespace)
+    return namespace
+
+
 T1 = TypeVar("T1")
 T2 = TypeVar("T2")
 Ts = TypeVarTuple("Ts")
@@ -277,27 +297,6 @@ def _make_wrapper(
         save_for_backward_code = ""
         backward_code = ""
 
-    source = f"""\
-import torch
-from .. import cpp_extensions
-import typing
-
-def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-    return (t.data, t.amax, t.scale, t.scale_inv)
-
-def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
-    return cpp_extensions.Tensor(*t)
-
-{aimp_code}
-
-{impl_code}
-
-{wrap_code}
-
-{save_for_backward_code}
-
-{backward_code}
-"""
     try:
         # Swap real cpp_extensions (_nvte) for impostor that does nothing
         # This is needed so the abstract implementation is traceable by PyTorch Dynamo
@@ -305,7 +304,6 @@ class NVTEImpostor:
             def __getattr__(self, attr_name: str) -> Any:
                 if attr_name == "Tensor":
                     return namedtuple("Tensor", ["data", "amax", "scale", "scale_inv"])  # type: ignore
-
                 else:
                     attr = getattr(_nvte, attr_name)
                     if isinstance(attr, type) and issubclass(attr, Enum):
@@ -316,14 +314,34 @@ def __getattr__(self, attr_name: str) -> Any:
                         return attr
 
         # Create op
-        ns = dict(func=func, __name__=__name__, impostor=NVTEImpostor())
-        exec_saving_source(source, ns)
+        ns = _run_full_code(
+            impl_code,
+            wrap_code,
+            func=func,
+            __name__=__name__,
+        )
         op_impl: Callable[..., Any] = ns[func.__name__]  # type: ignore
         op_wrap: Callable[[Unpack[Ts]], T1] = ns[f"{func.__name__}_wrap"]  # type: ignore
+        ns = _run_full_code(
+            aimp_code,
+            func=func,
+            __name__=__name__,
+            impostor=NVTEImpostor(),
+        )
         op_aimp: Callable[..., Any] = ns[f"{func.__name__}_aimp"]  # type: ignore
 
         if save_for_backward is not None:
+            ns = _run_full_code(
+                save_for_backward_code,
+                func=save_for_backward,
+                __name__=__name__,
+            )
             op_save_for_backward = ns[f"{save_for_backward.__name__}"]  # type: ignore
+            ns = _run_full_code(
+                backward_code,
+                func=save_for_backward,
+                __name__=__name__,
+            )
             op_backward = ns[f"{backward.__name__}"]  # type: ignore
         else:
             op_save_for_backward = None
@@ -333,9 +351,7 @@ def __getattr__(self, attr_name: str) -> Any:
 
         return op_wrap
     except Exception as e:
-        raise RuntimeError(
-            f"Failed to compile wrapper for {func.__name__}. Generated code: \n```\n{source}```"
-        ) from e
+        raise RuntimeError(f"Failed to compile wrapper for {func.__name__}.") from e
 
 
 @overload
@@ -348,7 +364,7 @@ def torch_op(
 @overload
 def torch_op(
     *,
-    save_for_backward: Callable[[Unpack[Ts], T1], T2],
+    save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2],
     backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any],
 ) -> Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]:
     ...
@@ -357,7 +373,7 @@ def torch_op(
 def torch_op(
     func: Callable[[Unpack[Ts]], T1] | None = None,
     *,
-    save_for_backward: Callable[[Unpack[Ts], T1], T2] | None = None,
+    save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2] | None = None,
     backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None = None,
 ) -> (
     Callable[[Unpack[Ts]], T1]

From 3b69e3b8479f8a55d6cfcbf21da730e51ba5f43b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:27:46 +0200
Subject: [PATCH 451/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 37 ++++++++++++++-----
 1 file changed, 27 insertions(+), 10 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 0894967c3e..ee5531c2e2 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -42,23 +42,27 @@ def __init__(
 _args: ForwardArgs
 
 
-def get_exposed_y_save_for_backward(
+def get_exposed_y_saving_nvte_y_save_for_backward(
     inputs: tuple[torch.Tensor, nvte.Tensor], output: torch.Tensor
 ) -> None:
     return None
 
 
-def get_exposed_y_backward(
+def get_exposed_y_saving_nvte_y_backward(
     ctx: FunctionCtx, _: None, *grads: torch.Tensor
 ) -> torch.Tensor:
     return grads[0]
 
 
 @nvte.torch_op(
-    save_for_backward=get_exposed_y_save_for_backward,
-    backward=get_exposed_y_backward,
+    save_for_backward=get_exposed_y_saving_nvte_y_save_for_backward,
+    backward=get_exposed_y_saving_nvte_y_backward,
 )
-def get_exposed_y(exposed_x: torch.Tensor, nvte_y: nvte.Tensor) -> torch.Tensor:
+def get_exposed_y_saving_nvte_y(
+    exposed_x: torch.Tensor, nvte_y: nvte.Tensor
+) -> torch.Tensor:
+    global _saved
+    _saved = nvte_y
     x_data = exposed_x.data
     exposed_x.data = torch.Tensor().cuda()  # avoid copy
     exposed_y = exposed_x.clone()  # copy history
@@ -67,6 +71,13 @@ def get_exposed_y(exposed_x: torch.Tensor, nvte_y: nvte.Tensor) -> torch.Tensor:
     return exposed_y
 
 
+@nvte.torch_op
+def get_nvte_y(
+    _: torch.Tensor,
+) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+    return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
+
+
 class ComputePipelineFunction(autograd.Function):
     args: ForwardArgs
 
@@ -75,7 +86,7 @@ def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
         *tensor_mess: torch.Tensor,
-    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+    ) -> torch.Tensor:
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
@@ -125,7 +136,7 @@ def forward(  # type: ignore[arg-type]
             setattr(ctx, "nvte_squish_outgoing_dgrad", False)
 
         # Expose result for Pytorch
-        exposed_y = get_exposed_y(exposed_x, nvte_y)
+        exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
 
         # Squish y if fp8:
         if exposed_y.data.dtype == torch.int8:
@@ -147,7 +158,7 @@ def forward(  # type: ignore[arg-type]
         setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
         setattr(ctx, "nvte_preceding_backward_comm", _args.next_upcoming_backward)
 
-        return (exposed_y, nvte_y.data, nvte_y.amax, nvte_y.scale, nvte_y.scale_inv)
+        return exposed_y
 
     @staticmethod
     def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
@@ -240,13 +251,19 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
 
-            (x, nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = ComputePipelineFunction.apply(  # type: ignore
+            x = ComputePipelineFunction.apply(  # type: ignore
                 x,
                 *exposed_tensors,
                 *(nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),
             )
             assert isinstance(x, torch.Tensor)
-            nvte_x = nvte.Tensor(nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv)  # type: ignore
+            with torch.no_grad():
+                (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(
+                    x
+                )
+                nvte_x = nvte.Tensor(
+                    nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv
+                )
         return x
 
 

From d0ecfad3f2d3a2626e9fcd03e19183418db3941a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:31:03 +0200
Subject: [PATCH 452/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index d556d55faa..da2532f01a 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -393,7 +393,7 @@ def torch_op(
 
 def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
     return _nvte.Tensor(
-        t.data,
+        t,
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),

From 339b48051cc23a129e8bd4b7c01b41517dd2a060 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:34:17 +0200
Subject: [PATCH 453/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py            | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index ee5531c2e2..938e7439aa 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -91,7 +91,8 @@ def forward(  # type: ignore[arg-type]
         del tensor_mess
 
         nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
-        nvte_y, to_save = _args.op.forward(nvte_x)
+        with torch.no_grad():
+            nvte_y, to_save = _args.op.forward(nvte_x)
 
         # Expose backward context for tracing
         bwd_ctx: list[torch.Tensor] = []

From af8485b93d11f0380f2da41b9fe165485855d840 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:39:50 +0200
Subject: [PATCH 454/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline.py    |  2 +-
 .../pytorch/sequential/fusions/interface.py   |  2 +-
 .../pytorch/sequential/fusions/mmt.py         | 32 +++++++++++--------
 .../pytorch/sequential/ops/add.py             |  4 +--
 4 files changed, 23 insertions(+), 17 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline.py
index f1c2e1e4cb..2f12b0f1f8 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline.py
@@ -41,7 +41,7 @@ def backward(self, ctx: Context, dy: nvte.Tensor):
                     }
                 )
 
-        full_grads = Grads()
+        full_grads: Grads = []
         for op, ctx in list(zip(self.bwds, ctxs))[::-1]:
             dy, grads = op.backward(ctx, dy)
             full_grads += grads
diff --git a/transformer_engine/pytorch/sequential/fusions/interface.py b/transformer_engine/pytorch/sequential/fusions/interface.py
index 452e4100c1..6db8b979c1 100644
--- a/transformer_engine/pytorch/sequential/fusions/interface.py
+++ b/transformer_engine/pytorch/sequential/fusions/interface.py
@@ -33,7 +33,7 @@ def inference(self, x: nvte.Tensor) -> nvte.Tensor:
     def forward(self, x: nvte.Tensor):
         assert self.forward_ is not None
         y, ctxs = self.forward_(x)
-        full_ctx = Context()
+        full_ctx: Context = {}
         for op, ctx in zip(self.ops, ctxs):
             op_name = getattr(op, "name")
             ctx: Context = {op_name + name: tensor for name, tensor in ctx.items()}
diff --git a/transformer_engine/pytorch/sequential/fusions/mmt.py b/transformer_engine/pytorch/sequential/fusions/mmt.py
index 428039abcd..6ed3fce78c 100644
--- a/transformer_engine/pytorch/sequential/fusions/mmt.py
+++ b/transformer_engine/pytorch/sequential/fusions/mmt.py
@@ -25,7 +25,9 @@ def mmt_add_inf_fused(mmt: MMT, add: Add, x: nvte.Tensor):
 
 
 @register_fusion_forward
-def mmt_add_fwd_fused(mmt: MMT, add: Add, x: nvte.Tensor):
+def mmt_add_fwd_fused(
+    mmt: MMT, add: Add, x: nvte.Tensor
+) -> tuple[nvte.Tensor, tuple[Context, Context]]:
     (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
         (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
     )
@@ -35,7 +37,7 @@ def mmt_add_fwd_fused(mmt: MMT, add: Add, x: nvte.Tensor):
         x, weight, bias, add.y_dtype or mmt.y_dtype or x.dtype
     )
 
-    return y, ({"x_t": x_t, "weight_t": weight_t}, Context())
+    return y, ({"x_t": x_t, "weight_t": weight_t}, {})
 
 
 @register_fusion_backward
@@ -73,7 +75,9 @@ def mmt_add_gelu_inf_fused(mmt: MMT, add: Add, gelu: GELU, x: nvte.Tensor):
 
 
 @register_fusion_forward
-def mmt_add_gelu_fwd_fused(mmt: MMT, add: Add, gelu: GELU, x: nvte.Tensor):
+def mmt_add_gelu_fwd_fused(
+    mmt: MMT, add: Add, gelu: GELU, x: nvte.Tensor
+) -> tuple[nvte.Tensor, tuple[Context, Context, Context]]:
     (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
         (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
     )
@@ -83,7 +87,7 @@ def mmt_add_gelu_fwd_fused(mmt: MMT, add: Add, gelu: GELU, x: nvte.Tensor):
         x, weight, bias, gelu.y_dtype or add.y_dtype or mmt.y_dtype or x.dtype
     )
 
-    return y, ({"x_t": x_t, "weight_t": weight_t}, Context(), {"x": pre_gelu})
+    return y, ({"x_t": x_t, "weight_t": weight_t}, {}, {"x": pre_gelu})
 
 
 @register_fusion_backward
@@ -95,7 +99,7 @@ def mmt_add_gelu_bwd_fused(
     add_ctx: Context,
     gelu_ctx: Context,
     dy: nvte.Tensor,
-):
+) -> tuple[nvte.Tensor, tuple[Grads, Grads, Grads]]:
     del add_ctx
     x_t, weight_t, pre_gelu = mmt_ctx["x_t"], mmt_ctx["weight_t"], gelu_ctx["x"]
     dy, dy_t, dbias = nvte.cast_transpose_dbias_dgelu_checked(
@@ -107,7 +111,7 @@ def mmt_add_gelu_bwd_fused(
     )
     dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype or mmt.weight.dtype)
 
-    return dx, ([dweight], [dbias], Grads())
+    return dx, ([dweight], [dbias], [])
 
 
 # MMT, GELU
@@ -172,7 +176,9 @@ def mmt_add_add_inf_fused(mmt: MMT, add1: Add, add2: Add, x: nvte.Tensor):
 
 
 @register_fusion_forward
-def mmt_add_add_fwd_fused(mmt: MMT, add1: Add, add2: Add, x: nvte.Tensor):
+def mmt_add_add_fwd_fused(
+    mmt: MMT, add1: Add, add2: Add, x: nvte.Tensor
+) -> tuple[nvte.Tensor, tuple[Context, Context, Context]]:
     (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
         (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
     )
@@ -181,7 +187,7 @@ def mmt_add_add_fwd_fused(mmt: MMT, add1: Add, add2: Add, x: nvte.Tensor):
 
     y = nvte.matmul_transpose_add_add(x, weight, bias1, bias2)
 
-    return y, ({"x_t": x_t, "weight_t": weight_t}, Context(), Context())
+    return y, ({"x_t": x_t, "weight_t": weight_t}, {}, {})
 
 
 # MMT, Add, GELU, Add
@@ -202,7 +208,7 @@ def mmt_add_gelu_add_inf_fused(
 @register_fusion_forward
 def mmt_add_gelu_add_fwd_fused(
     mmt: MMT, add1: Add, gelu: GELU, add2: Add, x: nvte.Tensor
-):
+) -> tuple[nvte.Tensor, tuple[Context, Context, Context, Context]]:
     (x, x_t), (weight, weight_t) = nvte.multi_cast_transpose_checked(
         (x, mmt.x_dtype), (mmt.weight, mmt.weight_dtype)
     )
@@ -213,9 +219,9 @@ def mmt_add_gelu_add_fwd_fused(
 
     return y, (
         {"x_t": x_t, "weight_t": weight_t},
-        Context(),
+        {},
         {"x": pre_gelu},
-        Context(),
+        {},
     )
 
 
@@ -223,14 +229,14 @@ def mmt_add_gelu_add_fwd_fused(
 @register_fusion_backward
 def mmt_geglu_bwd_fused(
     mmt: MMT, geglu: GeGLU, mmt_ctx: Context, geglu_ctx: Context, grad: nvte.Tensor
-):
+) -> tuple[nvte.Tensor, tuple[Grads, Grads]]:
     x_t, weight_t, pre_geglu = mmt_ctx["x_t"], mmt_ctx["weight_t"], geglu_ctx["x"]
     dy, dy_t = nvte.cast_transpose_dgeglu_checked(grad, pre_geglu, mmt.dy_dtype)
 
     dx = nvte.matmul_transpose(dy, weight_t, mmt.dx_dtype or geglu.dx_dtype or dy.dtype)
     dweight = nvte.matmul_transpose(x_t, dy_t, mmt.dweight_dtype or mmt.weight.dtype)
 
-    return dx, ([dweight], Grads())
+    return dx, ([dweight], [])
 
 
 # fusion function names (ex. mmt_add_bwd_fused) are for debugging only, as they are called from a dictionary like FUSIONS_FWD
diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/ops/add.py
index d0f633522e..50d020bf1d 100644
--- a/transformer_engine/pytorch/sequential/ops/add.py
+++ b/transformer_engine/pytorch/sequential/ops/add.py
@@ -23,13 +23,13 @@ def __init__(
         self._dx_dtype = dx_dtype
         self.dbias_dtype = dbias_dtype
 
-    def forward(self, x: nvte.Tensor):
+    def forward(self, x: nvte.Tensor) -> tuple[nvte.Tensor, Context]:
         x = nvte.cast_checked(x, self.x_dtype)
         bias = nvte.cast_checked(self.bias, self.bias_dtype)
 
         y = nvte.add(x, bias, self.y_dtype or x.dtype)
 
-        return y, Context()
+        return y, {}
 
     def backward(self, ctx: Context, dy: nvte.Tensor):
         del ctx

From 9e6aeceb36b4eaef832869146eee673d5022f315 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:40:00 +0200
Subject: [PATCH 455/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/ops/activation.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/ops/activation.py b/transformer_engine/pytorch/sequential/ops/activation.py
index 89c83f598c..4f87c6f954 100644
--- a/transformer_engine/pytorch/sequential/ops/activation.py
+++ b/transformer_engine/pytorch/sequential/ops/activation.py
@@ -26,13 +26,13 @@ def forward(self, x: nvte.Tensor):
 
         return y, {"x": x}
 
-    def backward(self, ctx: Context, dy: nvte.Tensor):
+    def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
         x = ctx["x"]
         dy = nvte.cast_checked(dy, self.dy_dtype)
 
         dx = type(self)._backward(dy, x, self.dx_dtype or dy.dtype)
 
-        return dx, Grads()
+        return dx, []
 
     def require_grad(self) -> list[nvte.Tensor]:
         return []

From e6308d221fa8a85807c8a83d49db1c27fff41be1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:41:15 +0200
Subject: [PATCH 456/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py            | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 938e7439aa..a38e8a1c69 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -193,7 +193,8 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
             ctx, "nvte_meta_tensor_provider_bwd"
         )
         nvte.set_execution_state("backward", meta_tensor_provider)
-        data_grad, param_grads = op.backward(saved, nvte_grad)
+        with torch.no_grad():
+            data_grad, param_grads = op.backward(saved, nvte_grad)
 
         # Store real gradient for next backward in pipeline
         if upcoming_backward is None:

From 7a8d2156292f5a6bb0225b4418ecedc7b46f8af2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:42:44 +0200
Subject: [PATCH 457/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py              | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index a38e8a1c69..8c5239e7e7 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -90,6 +90,7 @@ def forward(  # type: ignore[arg-type]
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
+        global _args
         nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
         with torch.no_grad():
             nvte_y, to_save = _args.op.forward(nvte_x)

From 35856530b3470d17a439e162f19e5a7e3a28ad46 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:44:03 +0200
Subject: [PATCH 458/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py            | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 8c5239e7e7..a43ef316ba 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -39,7 +39,7 @@ def __init__(
         self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
 
 
-_args: ForwardArgs
+_args: ForwardArgs | None = None
 
 
 def get_exposed_y_saving_nvte_y_save_for_backward(
@@ -91,6 +91,7 @@ def forward(  # type: ignore[arg-type]
         del tensor_mess
 
         global _args
+        assert _args is not None
         nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
         with torch.no_grad():
             nvte_y, to_save = _args.op.forward(nvte_x)

From 47ce893082d43e8551721f865db5c55ea51ebb09 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:49:56 +0200
Subject: [PATCH 459/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 24 +++++++++----------
 1 file changed, 11 insertions(+), 13 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index a43ef316ba..78c6bc9737 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -16,12 +16,12 @@ class BackwardComm:
 
 
 class ForwardArgs:
-    is_exposed_x_squished_now: Final[bool]
-    upcoming_backward: Final[BackwardComm | None]
-    next_upcoming_backward: Final[BackwardComm]
-    op: Final[Op]
-    meta_tensor_provider_fwd: Final[Persistent[FP8Meta]]
-    meta_tensor_provider_bwd: Final[Persistent[FP8Meta]]
+    is_exposed_x_squished_now: bool
+    upcoming_backward: BackwardComm | None
+    next_upcoming_backward: BackwardComm
+    op: Op
+    meta_tensor_provider_fwd: Persistent[FP8Meta]
+    meta_tensor_provider_bwd: Persistent[FP8Meta]
 
     def __init__(
         self,
@@ -239,13 +239,11 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                     pipeline.meta_bwd,
                 )
             else:
-                _args = ForwardArgs(
-                    x.dtype != nvte_x.data.dtype,
-                    _args.next_upcoming_backward,
-                    contained_op,
-                    pipeline.meta_fwd,
-                    pipeline.meta_bwd,
-                )
+                assert _args is not None
+                _args.is_exposed_x_squished_now = x.dtype != nvte_x.data.dtype
+                _args.upcoming_backward = _args.next_upcoming_backward
+                _args.next_upcoming_backward = BackwardComm()
+                _args.op = contained_op
 
             nvte_tensors = contained_op.require_grad()
             exposed_tensors: list[torch.Tensor] = []

From d31733c802d0c8b2512855e7be7b88bb2f4655cb Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:53:16 +0200
Subject: [PATCH 460/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py      | 9 +++++++--
 1 file changed, 7 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 78c6bc9737..787cb59287 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -71,6 +71,12 @@ def get_exposed_y_saving_nvte_y(
     return exposed_y
 
 
+@torch._dynamo.allow_in_graph  # type: ignore
+def get_args() -> ForwardArgs:
+    assert _args is not None
+    return _args
+
+
 @nvte.torch_op
 def get_nvte_y(
     _: torch.Tensor,
@@ -90,8 +96,7 @@ def forward(  # type: ignore[arg-type]
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
-        global _args
-        assert _args is not None
+        _args = get_args()
         nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
         with torch.no_grad():
             nvte_y, to_save = _args.op.forward(nvte_x)

From 976f76dfff87e13704884e7101d58a1dfcdaf661 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:54:13 +0200
Subject: [PATCH 461/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py  | 12 ++++++------
 1 file changed, 6 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 787cb59287..585de2dc1b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -71,12 +71,6 @@ def get_exposed_y_saving_nvte_y(
     return exposed_y
 
 
-@torch._dynamo.allow_in_graph  # type: ignore
-def get_args() -> ForwardArgs:
-    assert _args is not None
-    return _args
-
-
 @nvte.torch_op
 def get_nvte_y(
     _: torch.Tensor,
@@ -274,6 +268,12 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return x
 
 
+@torch._dynamo.allow_in_graph  # type: ignore
+def get_args() -> ForwardArgs:
+    assert _args is not None
+    return _args
+
+
 # The squish needs to be invertible and
 # always reduce the numel() of the tensor by the same
 # amount.

From 231cc94528e034d7b2773cc67f2d6dad232edc92 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 22:58:19 +0200
Subject: [PATCH 462/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 308 +++++++++---------
 1 file changed, 157 insertions(+), 151 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 585de2dc1b..d883556f08 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -39,9 +39,6 @@ def __init__(
         self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
 
 
-_args: ForwardArgs | None = None
-
-
 def get_exposed_y_saving_nvte_y_save_for_backward(
     inputs: tuple[torch.Tensor, nvte.Tensor], output: torch.Tensor
 ) -> None:
@@ -78,147 +75,6 @@ def get_nvte_y(
     return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
 
 
-class ComputePipelineFunction(autograd.Function):
-    args: ForwardArgs
-
-    @staticmethod
-    def forward(  # type: ignore[arg-type]
-        ctx: FunctionCtx,
-        exposed_x: torch.Tensor,
-        *tensor_mess: torch.Tensor,
-    ) -> torch.Tensor:
-        nvte_x = nvte.Tensor(*tensor_mess[-4:])
-        del tensor_mess
-
-        _args = get_args()
-        nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
-        with torch.no_grad():
-            nvte_y, to_save = _args.op.forward(nvte_x)
-
-        # Expose backward context for tracing
-        bwd_ctx: list[torch.Tensor] = []
-        for _, tensor in to_save.items():
-            bwd_ctx.append(tensor.data)
-            bwd_ctx.append(tensor.amax)
-            bwd_ctx.append(tensor.scale)
-            bwd_ctx.append(tensor.scale_inv)
-        ctx.save_for_backward(*bwd_ctx)
-
-        # Save real context
-        setattr(ctx, "nvte_ctx", to_save)
-        setattr(ctx, "nvte_op", _args.op)
-        setattr(ctx, "nvte_meta_tensor_provider_bwd", _args.meta_tensor_provider_bwd)
-
-        # Pytorch will break the computation graph
-        # if it will see an output tensor of an integer type.
-        # As fp8 tensors internally have dtype int8,
-        # we need to pretend that this type is actually different
-        # by "squishing" it into a floating point dtype.
-        # ("Squishing" because, while the new dtype is larger,
-        # the numel() gets smaller).
-        # This doesn't work in TorchScript, but this code
-        # won't run at inference anyway.
-
-        # Unsquish x if needed:
-        if _args.is_exposed_x_squished_now:
-            # Intentionally commented out - _unsquish(exposed_x)
-            # We don't need to perform the unsquish itself, as this
-            # data will not be read anyway.
-            # It is only really neccesarry to notify
-            # the backward.
-            #
-            # If the input to the forward was squished,
-            # Pytorch will expect its gradient to be squished
-            # as well. The backward of this forward will be
-            # responsible for producing the gradient of
-            # this squished input, so it is responsible for
-            # squishing it.
-            setattr(ctx, "nvte_squish_outgoing_dgrad", True)
-        else:
-            setattr(ctx, "nvte_squish_outgoing_dgrad", False)
-
-        # Expose result for Pytorch
-        exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
-
-        # Squish y if fp8:
-        if exposed_y.data.dtype == torch.int8:
-            _squish(exposed_y)
-            # Because the output is squished, the gradient also needs to be.
-            # The backward of this forward recieves the gradient of the
-            # output as its input. So, the backward before it needs
-            # to squish it, while the backward coresponding to this
-            # forward needs to unsquish it.
-            setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
-        else:
-            setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
-
-        # Save backward comm
-        # This object is allows for the current backward to
-        # pass data to the next backward (the backward of the
-        # preceding operation). This is needed to pass
-        # fp8 gradients properly.
-        setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
-        setattr(ctx, "nvte_preceding_backward_comm", _args.next_upcoming_backward)
-
-        return exposed_y
-
-    @staticmethod
-    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
-        # The context needs to think that the tensors were read
-        _ = ctx.saved_tensors  # type: ignore
-
-        # Get real context
-        saved: Context = getattr(ctx, "nvte_ctx")
-        op: Op = getattr(ctx, "nvte_op")
-        preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
-        upcoming_backward: BackwardComm | None = getattr(
-            ctx, "nvte_upcoming_backward_comm"
-        )
-
-        # Get real gradient
-        if preceding_backward.nvte_grad_output is None:
-            # This is the first backward in the compute pipeline
-
-            grad_output = grad_output.contiguous()  # TODO: try to avoid this
-
-            # Check if incoming gradient needs to be unsquished
-            unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
-            if unsquish_incoming_dgrad:
-                _unsquish(grad_output)
-            nvte_grad = nvte.make_nvte_tensor(grad_output)
-        else:
-            nvte_grad = preceding_backward.nvte_grad_output
-        del grad_output
-
-        meta_tensor_provider: Persistent[FP8Meta] = getattr(
-            ctx, "nvte_meta_tensor_provider_bwd"
-        )
-        nvte.set_execution_state("backward", meta_tensor_provider)
-        with torch.no_grad():
-            data_grad, param_grads = op.backward(saved, nvte_grad)
-
-        # Store real gradient for next backward in pipeline
-        if upcoming_backward is None:
-            # This is the last backward in the compute pipeline
-            assert not nvte.is_fp8(data_grad)
-        else:
-            upcoming_backward.nvte_grad_output = data_grad
-
-        # Check that gradients are not fp8 and can be processed by the optimizer
-        # TODO: change this when fp8 optimizer comes along
-        assert all(not nvte.is_fp8(g) for g in param_grads)
-
-        # Check if outgoing gradient needs to be squished
-        exposed_dgrad = data_grad.data
-        squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
-        if squish_outgoing_dgrad:
-            _squish(exposed_dgrad)
-
-        torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
-
-        return (*torch_grads, None, None, None)
-
-
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
     nvte_x = nvte.make_nvte_tensor(x)
     if not training:
@@ -227,8 +83,8 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return y.data
     else:
         pipeline.next_iteration()
+        _args = None
         for i, contained_op in enumerate(pipeline.functions):
-            global _args
             if i == 0:
                 _args = ForwardArgs(
                     False,
@@ -252,6 +108,162 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
 
+            class ComputePipelineFunction(autograd.Function):
+                args: ForwardArgs
+
+                @staticmethod
+                def forward(  # type: ignore[arg-type]
+                    ctx: FunctionCtx,
+                    exposed_x: torch.Tensor,
+                    *tensor_mess: torch.Tensor,
+                ) -> torch.Tensor:
+                    nvte_x = nvte.Tensor(*tensor_mess[-4:])
+                    del tensor_mess
+
+                    assert _args is not None
+                    nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
+                    with torch.no_grad():
+                        nvte_y, to_save = _args.op.forward(nvte_x)
+
+                    # Expose backward context for tracing
+                    bwd_ctx: list[torch.Tensor] = []
+                    for _, tensor in to_save.items():
+                        bwd_ctx.append(tensor.data)
+                        bwd_ctx.append(tensor.amax)
+                        bwd_ctx.append(tensor.scale)
+                        bwd_ctx.append(tensor.scale_inv)
+                    ctx.save_for_backward(*bwd_ctx)
+
+                    # Save real context
+                    setattr(ctx, "nvte_ctx", to_save)
+                    setattr(ctx, "nvte_op", _args.op)
+                    setattr(
+                        ctx,
+                        "nvte_meta_tensor_provider_bwd",
+                        _args.meta_tensor_provider_bwd,
+                    )
+
+                    # Pytorch will break the computation graph
+                    # if it will see an output tensor of an integer type.
+                    # As fp8 tensors internally have dtype int8,
+                    # we need to pretend that this type is actually different
+                    # by "squishing" it into a floating point dtype.
+                    # ("Squishing" because, while the new dtype is larger,
+                    # the numel() gets smaller).
+                    # This doesn't work in TorchScript, but this code
+                    # won't run at inference anyway.
+
+                    # Unsquish x if needed:
+                    if _args.is_exposed_x_squished_now:
+                        # Intentionally commented out - _unsquish(exposed_x)
+                        # We don't need to perform the unsquish itself, as this
+                        # data will not be read anyway.
+                        # It is only really neccesarry to notify
+                        # the backward.
+                        #
+                        # If the input to the forward was squished,
+                        # Pytorch will expect its gradient to be squished
+                        # as well. The backward of this forward will be
+                        # responsible for producing the gradient of
+                        # this squished input, so it is responsible for
+                        # squishing it.
+                        setattr(ctx, "nvte_squish_outgoing_dgrad", True)
+                    else:
+                        setattr(ctx, "nvte_squish_outgoing_dgrad", False)
+
+                    # Expose result for Pytorch
+                    exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
+
+                    # Squish y if fp8:
+                    if exposed_y.data.dtype == torch.int8:
+                        _squish(exposed_y)
+                        # Because the output is squished, the gradient also needs to be.
+                        # The backward of this forward recieves the gradient of the
+                        # output as its input. So, the backward before it needs
+                        # to squish it, while the backward coresponding to this
+                        # forward needs to unsquish it.
+                        setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
+                    else:
+                        setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
+
+                    # Save backward comm
+                    # This object is allows for the current backward to
+                    # pass data to the next backward (the backward of the
+                    # preceding operation). This is needed to pass
+                    # fp8 gradients properly.
+                    setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
+                    setattr(
+                        ctx,
+                        "nvte_preceding_backward_comm",
+                        _args.next_upcoming_backward,
+                    )
+
+                    return exposed_y
+
+                @staticmethod
+                def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
+                    # The context needs to think that the tensors were read
+                    _ = ctx.saved_tensors  # type: ignore
+
+                    # Get real context
+                    saved: Context = getattr(ctx, "nvte_ctx")
+                    op: Op = getattr(ctx, "nvte_op")
+                    preceding_backward: BackwardComm = getattr(
+                        ctx, "nvte_preceding_backward_comm"
+                    )
+                    upcoming_backward: BackwardComm | None = getattr(
+                        ctx, "nvte_upcoming_backward_comm"
+                    )
+
+                    # Get real gradient
+                    if preceding_backward.nvte_grad_output is None:
+                        # This is the first backward in the compute pipeline
+
+                        grad_output = (
+                            grad_output.contiguous()
+                        )  # TODO: try to avoid this
+
+                        # Check if incoming gradient needs to be unsquished
+                        unsquish_incoming_dgrad: bool = getattr(
+                            ctx, "nvte_unsquish_incoming_dgrad"
+                        )
+                        if unsquish_incoming_dgrad:
+                            _unsquish(grad_output)
+                        nvte_grad = nvte.make_nvte_tensor(grad_output)
+                    else:
+                        nvte_grad = preceding_backward.nvte_grad_output
+                    del grad_output
+
+                    meta_tensor_provider: Persistent[FP8Meta] = getattr(
+                        ctx, "nvte_meta_tensor_provider_bwd"
+                    )
+                    nvte.set_execution_state("backward", meta_tensor_provider)
+                    with torch.no_grad():
+                        data_grad, param_grads = op.backward(saved, nvte_grad)
+
+                    # Store real gradient for next backward in pipeline
+                    if upcoming_backward is None:
+                        # This is the last backward in the compute pipeline
+                        assert not nvte.is_fp8(data_grad)
+                    else:
+                        upcoming_backward.nvte_grad_output = data_grad
+
+                    # Check that gradients are not fp8 and can be processed by the optimizer
+                    # TODO: change this when fp8 optimizer comes along
+                    assert all(not nvte.is_fp8(g) for g in param_grads)
+
+                    # Check if outgoing gradient needs to be squished
+                    exposed_dgrad = data_grad.data
+                    squish_outgoing_dgrad: bool = getattr(
+                        ctx, "nvte_squish_outgoing_dgrad"
+                    )
+                    if squish_outgoing_dgrad:
+                        _squish(exposed_dgrad)
+
+                    torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
+
+                    return (*torch_grads, None, None, None)
+
             x = ComputePipelineFunction.apply(  # type: ignore
                 x,
                 *exposed_tensors,
@@ -268,12 +280,6 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return x
 
 
-@torch._dynamo.allow_in_graph  # type: ignore
-def get_args() -> ForwardArgs:
-    assert _args is not None
-    return _args
-
-
 # The squish needs to be invertible and
 # always reduce the numel() of the tensor by the same
 # amount.

From 927e8a18b3dd3e9b1eb72b815a35b849f8d397ff Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:03:21 +0200
Subject: [PATCH 463/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 310 +++++++++---------
 1 file changed, 162 insertions(+), 148 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index d883556f08..e1054c2026 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -2,7 +2,7 @@
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-from typing import Final, Sequence
+from typing_extensions import Unpack
 from .persistent import Persistent
 from . import nvte
 from .ops import Context, Op
@@ -75,6 +75,22 @@ def get_nvte_y(
     return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
 
 
+class ComputePipelineFunction(autograd.Function):
+    @staticmethod
+    def forward(  # type: ignore[arg-type]
+        ctx: FunctionCtx,
+        exposed_x: torch.Tensor,
+        *tensor_mess: torch.Tensor,
+    ) -> torch.Tensor:
+        ...
+
+    @staticmethod
+    def backward(
+        ctx: FunctionCtx, *grad_outputs: torch.Tensor
+    ) -> tuple[Unpack[tuple[torch.Tensor, ...]], None, None, None]:
+        ...
+
+
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
     nvte_x = nvte.make_nvte_tensor(x)
     if not training:
@@ -108,161 +124,159 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
 
-            class ComputePipelineFunction(autograd.Function):
-                args: ForwardArgs
-
-                @staticmethod
-                def forward(  # type: ignore[arg-type]
-                    ctx: FunctionCtx,
-                    exposed_x: torch.Tensor,
-                    *tensor_mess: torch.Tensor,
-                ) -> torch.Tensor:
-                    nvte_x = nvte.Tensor(*tensor_mess[-4:])
-                    del tensor_mess
-
-                    assert _args is not None
-                    nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
-                    with torch.no_grad():
-                        nvte_y, to_save = _args.op.forward(nvte_x)
-
-                    # Expose backward context for tracing
-                    bwd_ctx: list[torch.Tensor] = []
-                    for _, tensor in to_save.items():
-                        bwd_ctx.append(tensor.data)
-                        bwd_ctx.append(tensor.amax)
-                        bwd_ctx.append(tensor.scale)
-                        bwd_ctx.append(tensor.scale_inv)
-                    ctx.save_for_backward(*bwd_ctx)
-
-                    # Save real context
-                    setattr(ctx, "nvte_ctx", to_save)
-                    setattr(ctx, "nvte_op", _args.op)
-                    setattr(
-                        ctx,
-                        "nvte_meta_tensor_provider_bwd",
-                        _args.meta_tensor_provider_bwd,
-                    )
+            def forward(  # type: ignore[arg-type]
+                ctx: FunctionCtx,
+                exposed_x: torch.Tensor,
+                *tensor_mess: torch.Tensor,
+            ) -> torch.Tensor:
+                nvte_x = nvte.Tensor(*tensor_mess[-4:])
+                del tensor_mess
 
-                    # Pytorch will break the computation graph
-                    # if it will see an output tensor of an integer type.
-                    # As fp8 tensors internally have dtype int8,
-                    # we need to pretend that this type is actually different
-                    # by "squishing" it into a floating point dtype.
-                    # ("Squishing" because, while the new dtype is larger,
-                    # the numel() gets smaller).
-                    # This doesn't work in TorchScript, but this code
-                    # won't run at inference anyway.
-
-                    # Unsquish x if needed:
-                    if _args.is_exposed_x_squished_now:
-                        # Intentionally commented out - _unsquish(exposed_x)
-                        # We don't need to perform the unsquish itself, as this
-                        # data will not be read anyway.
-                        # It is only really neccesarry to notify
-                        # the backward.
-                        #
-                        # If the input to the forward was squished,
-                        # Pytorch will expect its gradient to be squished
-                        # as well. The backward of this forward will be
-                        # responsible for producing the gradient of
-                        # this squished input, so it is responsible for
-                        # squishing it.
-                        setattr(ctx, "nvte_squish_outgoing_dgrad", True)
-                    else:
-                        setattr(ctx, "nvte_squish_outgoing_dgrad", False)
-
-                    # Expose result for Pytorch
-                    exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
-
-                    # Squish y if fp8:
-                    if exposed_y.data.dtype == torch.int8:
-                        _squish(exposed_y)
-                        # Because the output is squished, the gradient also needs to be.
-                        # The backward of this forward recieves the gradient of the
-                        # output as its input. So, the backward before it needs
-                        # to squish it, while the backward coresponding to this
-                        # forward needs to unsquish it.
-                        setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
-                    else:
-                        setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
-
-                    # Save backward comm
-                    # This object is allows for the current backward to
-                    # pass data to the next backward (the backward of the
-                    # preceding operation). This is needed to pass
-                    # fp8 gradients properly.
-                    setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
-                    setattr(
-                        ctx,
-                        "nvte_preceding_backward_comm",
-                        _args.next_upcoming_backward,
-                    )
+                assert _args is not None
+                nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
+                with torch.no_grad():
+                    nvte_y, to_save = _args.op.forward(nvte_x)
+
+                # Expose backward context for tracing
+                bwd_ctx: list[torch.Tensor] = []
+                for _, tensor in to_save.items():
+                    bwd_ctx.append(tensor.data)
+                    bwd_ctx.append(tensor.amax)
+                    bwd_ctx.append(tensor.scale)
+                    bwd_ctx.append(tensor.scale_inv)
+                ctx.save_for_backward(*bwd_ctx)
+
+                # Save real context
+                setattr(ctx, "nvte_ctx", to_save)
+                setattr(ctx, "nvte_op", _args.op)
+                setattr(
+                    ctx,
+                    "nvte_meta_tensor_provider_bwd",
+                    _args.meta_tensor_provider_bwd,
+                )
 
-                    return exposed_y
+                # Pytorch will break the computation graph
+                # if it will see an output tensor of an integer type.
+                # As fp8 tensors internally have dtype int8,
+                # we need to pretend that this type is actually different
+                # by "squishing" it into a floating point dtype.
+                # ("Squishing" because, while the new dtype is larger,
+                # the numel() gets smaller).
+                # This doesn't work in TorchScript, but this code
+                # won't run at inference anyway.
+
+                # Unsquish x if needed:
+                if _args.is_exposed_x_squished_now:
+                    # Intentionally commented out - _unsquish(exposed_x)
+                    # We don't need to perform the unsquish itself, as this
+                    # data will not be read anyway.
+                    # It is only really neccesarry to notify
+                    # the backward.
+                    #
+                    # If the input to the forward was squished,
+                    # Pytorch will expect its gradient to be squished
+                    # as well. The backward of this forward will be
+                    # responsible for producing the gradient of
+                    # this squished input, so it is responsible for
+                    # squishing it.
+                    setattr(ctx, "nvte_squish_outgoing_dgrad", True)
+                else:
+                    setattr(ctx, "nvte_squish_outgoing_dgrad", False)
+
+                # Expose result for Pytorch
+                exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
+
+                # Squish y if fp8:
+                if exposed_y.data.dtype == torch.int8:
+                    _squish(exposed_y)
+                    # Because the output is squished, the gradient also needs to be.
+                    # The backward of this forward recieves the gradient of the
+                    # output as its input. So, the backward before it needs
+                    # to squish it, while the backward coresponding to this
+                    # forward needs to unsquish it.
+                    setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
+                else:
+                    setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
+
+                # Save backward comm
+                # This object is allows for the current backward to
+                # pass data to the next backward (the backward of the
+                # preceding operation). This is needed to pass
+                # fp8 gradients properly.
+                setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
+                setattr(
+                    ctx,
+                    "nvte_preceding_backward_comm",
+                    _args.next_upcoming_backward,
+                )
 
-                @staticmethod
-                def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
-                    # The context needs to think that the tensors were read
-                    _ = ctx.saved_tensors  # type: ignore
+                return exposed_y
 
-                    # Get real context
-                    saved: Context = getattr(ctx, "nvte_ctx")
-                    op: Op = getattr(ctx, "nvte_op")
-                    preceding_backward: BackwardComm = getattr(
-                        ctx, "nvte_preceding_backward_comm"
-                    )
-                    upcoming_backward: BackwardComm | None = getattr(
-                        ctx, "nvte_upcoming_backward_comm"
-                    )
+            def backward(
+                ctx: FunctionCtx, *grad_outputs: torch.Tensor
+            ) -> tuple[Unpack[tuple[torch.Tensor, ...]], None, None, None]:
+                # The context needs to think that the tensors were read
+                _ = ctx.saved_tensors  # type: ignore
 
-                    # Get real gradient
-                    if preceding_backward.nvte_grad_output is None:
-                        # This is the first backward in the compute pipeline
-
-                        grad_output = (
-                            grad_output.contiguous()
-                        )  # TODO: try to avoid this
-
-                        # Check if incoming gradient needs to be unsquished
-                        unsquish_incoming_dgrad: bool = getattr(
-                            ctx, "nvte_unsquish_incoming_dgrad"
-                        )
-                        if unsquish_incoming_dgrad:
-                            _unsquish(grad_output)
-                        nvte_grad = nvte.make_nvte_tensor(grad_output)
-                    else:
-                        nvte_grad = preceding_backward.nvte_grad_output
-                    del grad_output
-
-                    meta_tensor_provider: Persistent[FP8Meta] = getattr(
-                        ctx, "nvte_meta_tensor_provider_bwd"
-                    )
-                    nvte.set_execution_state("backward", meta_tensor_provider)
-                    with torch.no_grad():
-                        data_grad, param_grads = op.backward(saved, nvte_grad)
-
-                    # Store real gradient for next backward in pipeline
-                    if upcoming_backward is None:
-                        # This is the last backward in the compute pipeline
-                        assert not nvte.is_fp8(data_grad)
-                    else:
-                        upcoming_backward.nvte_grad_output = data_grad
-
-                    # Check that gradients are not fp8 and can be processed by the optimizer
-                    # TODO: change this when fp8 optimizer comes along
-                    assert all(not nvte.is_fp8(g) for g in param_grads)
-
-                    # Check if outgoing gradient needs to be squished
-                    exposed_dgrad = data_grad.data
-                    squish_outgoing_dgrad: bool = getattr(
-                        ctx, "nvte_squish_outgoing_dgrad"
+                grad_output = grad_outputs[0]
+
+                # Get real context
+                saved: Context = getattr(ctx, "nvte_ctx")
+                op: Op = getattr(ctx, "nvte_op")
+                preceding_backward: BackwardComm = getattr(
+                    ctx, "nvte_preceding_backward_comm"
+                )
+                upcoming_backward: BackwardComm | None = getattr(
+                    ctx, "nvte_upcoming_backward_comm"
+                )
+
+                # Get real gradient
+                if preceding_backward.nvte_grad_output is None:
+                    # This is the first backward in the compute pipeline
+
+                    grad_output = grad_output.contiguous()  # TODO: try to avoid this
+
+                    # Check if incoming gradient needs to be unsquished
+                    unsquish_incoming_dgrad: bool = getattr(
+                        ctx, "nvte_unsquish_incoming_dgrad"
                     )
-                    if squish_outgoing_dgrad:
-                        _squish(exposed_dgrad)
+                    if unsquish_incoming_dgrad:
+                        _unsquish(grad_output)
+                    nvte_grad = nvte.make_nvte_tensor(grad_output)
+                else:
+                    nvte_grad = preceding_backward.nvte_grad_output
+                del grad_output
+
+                meta_tensor_provider: Persistent[FP8Meta] = getattr(
+                    ctx, "nvte_meta_tensor_provider_bwd"
+                )
+                nvte.set_execution_state("backward", meta_tensor_provider)
+                with torch.no_grad():
+                    data_grad, param_grads = op.backward(saved, nvte_grad)
+
+                # Store real gradient for next backward in pipeline
+                if upcoming_backward is None:
+                    # This is the last backward in the compute pipeline
+                    assert not nvte.is_fp8(data_grad)
+                else:
+                    upcoming_backward.nvte_grad_output = data_grad
+
+                # Check that gradients are not fp8 and can be processed by the optimizer
+                # TODO: change this when fp8 optimizer comes along
+                assert all(not nvte.is_fp8(g) for g in param_grads)
+
+                # Check if outgoing gradient needs to be squished
+                exposed_dgrad = data_grad.data
+                squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
+                if squish_outgoing_dgrad:
+                    _squish(exposed_dgrad)
+
+                torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
 
-                    torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
+                return (*torch_grads, None, None, None)
 
-                    return (*torch_grads, None, None, None)
+            ComputePipelineFunction.forward = forward
+            ComputePipelineFunction.backward = backward
 
             x = ComputePipelineFunction.apply(  # type: ignore
                 x,

From bbb2e18cf786d62aedfe18d3681d60c4b01e1103 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:11:58 +0200
Subject: [PATCH 464/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 31 +++++++++----------
 1 file changed, 15 insertions(+), 16 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index e1054c2026..646296d07a 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,4 +1,5 @@
 from __future__ import annotations
+from typing import Any
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
@@ -75,20 +76,19 @@ def get_nvte_y(
     return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
 
 
-class ComputePipelineFunction(autograd.Function):
-    @staticmethod
-    def forward(  # type: ignore[arg-type]
-        ctx: FunctionCtx,
-        exposed_x: torch.Tensor,
-        *tensor_mess: torch.Tensor,
-    ) -> torch.Tensor:
-        ...
+class ComputePipelineFunction:
+    forward: Any
+    backward: Any
 
-    @staticmethod
-    def backward(
-        ctx: FunctionCtx, *grad_outputs: torch.Tensor
-    ) -> tuple[Unpack[tuple[torch.Tensor, ...]], None, None, None]:
-        ...
+    def __init__(self, forward: Any, backward: Any):
+        self.forward = forward
+        self.backward = backward
+
+    def __getattribute__(self, __name: str) -> Any:
+        if __name == "forward" or __name == "backward":
+            return self.__getattr__(__name)
+        else:
+            return getattr(autograd.Function, __name)
 
 
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
@@ -275,10 +275,9 @@ def backward(
 
                 return (*torch_grads, None, None, None)
 
-            ComputePipelineFunction.forward = forward
-            ComputePipelineFunction.backward = backward
+            Function = ComputePipelineFunction(forward, backward)
 
-            x = ComputePipelineFunction.apply(  # type: ignore
+            x = Function.apply(  # type: ignore
                 x,
                 *exposed_tensors,
                 *(nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),

From 0c89e37b41ff982e71f048875ec8148c5aa7e307 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:14:06 +0200
Subject: [PATCH 465/535] fic

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py       | 8 +++-----
 1 file changed, 3 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 646296d07a..6c5980d266 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -80,10 +80,6 @@ class ComputePipelineFunction:
     forward: Any
     backward: Any
 
-    def __init__(self, forward: Any, backward: Any):
-        self.forward = forward
-        self.backward = backward
-
     def __getattribute__(self, __name: str) -> Any:
         if __name == "forward" or __name == "backward":
             return self.__getattr__(__name)
@@ -275,7 +271,9 @@ def backward(
 
                 return (*torch_grads, None, None, None)
 
-            Function = ComputePipelineFunction(forward, backward)
+            Function = ComputePipelineFunction()
+            Function.forward = forward
+            Function.backward = backward
 
             x = Function.apply(  # type: ignore
                 x,

From f4a96f31ed256ef1597e14f645b87e87473cc7af Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:15:09 +0200
Subject: [PATCH 466/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py            | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 6c5980d266..b8e4712c3b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -77,9 +77,6 @@ def get_nvte_y(
 
 
 class ComputePipelineFunction:
-    forward: Any
-    backward: Any
-
     def __getattribute__(self, __name: str) -> Any:
         if __name == "forward" or __name == "backward":
             return self.__getattr__(__name)

From 63f8d28e75b2701b385d7188ba153bd1bc357535 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:16:09 +0200
Subject: [PATCH 467/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py           | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index b8e4712c3b..7bc84d0947 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -84,6 +84,9 @@ def __getattribute__(self, __name: str) -> Any:
             return getattr(autograd.Function, __name)
 
 
+Function = ComputePipelineFunction()
+
+
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
     nvte_x = nvte.make_nvte_tensor(x)
     if not training:
@@ -268,7 +271,6 @@ def backward(
 
                 return (*torch_grads, None, None, None)
 
-            Function = ComputePipelineFunction()
             Function.forward = forward
             Function.backward = backward
 

From 96521efa21c07b9d299c37287ba1e30d51f0e85e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:18:09 +0200
Subject: [PATCH 468/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py | 13 +++++--------
 1 file changed, 5 insertions(+), 8 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 7bc84d0947..ebcf5f0d5b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,4 +1,5 @@
 from __future__ import annotations
+import copy
 from typing import Any
 import torch
 from torch import autograd
@@ -77,14 +78,10 @@ def get_nvte_y(
 
 
 class ComputePipelineFunction:
-    def __getattribute__(self, __name: str) -> Any:
-        if __name == "forward" or __name == "backward":
-            return self.__getattr__(__name)
-        else:
-            return getattr(autograd.Function, __name)
+    pass
 
 
-Function = ComputePipelineFunction()
+ComputePipelineFunction = copy.deepcopy(autograd.Function)
 
 
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
@@ -271,8 +268,8 @@ def backward(
 
                 return (*torch_grads, None, None, None)
 
-            Function.forward = forward
-            Function.backward = backward
+            ComputePipelineFunction.forward = forward
+            ComputePipelineFunction.backward = backward
 
             x = Function.apply(  # type: ignore
                 x,

From 183ad6d5c22bbe6306d7c9d103c3a1d1d18e48b9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:19:39 +0200
Subject: [PATCH 469/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py         | 6 ++----
 1 file changed, 2 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index ebcf5f0d5b..c82449a0c2 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -77,11 +77,9 @@ def get_nvte_y(
     return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
 
 
-class ComputePipelineFunction:
-    pass
-
-
 ComputePipelineFunction = copy.deepcopy(autograd.Function)
+ComputePipelineFunction.__name__ = "ComputePipelineFunction"
+ComputePipelineFunction.__class__ = type("ComputePipelineFunction", (object,), {})
 
 
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:

From 9c6ef076e04db6331ea372c9abf9d4e2dee85254 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:21:28 +0200
Subject: [PATCH 470/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py           | 4 +++-
 1 file changed, 3 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index c82449a0c2..5d2dfbb68f 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -79,7 +79,9 @@ def get_nvte_y(
 
 ComputePipelineFunction = copy.deepcopy(autograd.Function)
 ComputePipelineFunction.__name__ = "ComputePipelineFunction"
-ComputePipelineFunction.__class__ = type("ComputePipelineFunction", (object,), {})
+ComputePipelineFunction.__class__ = autograd.function.FunctionMeta(
+    "ComputePipelineFunction", (object,), {}
+)
 
 
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:

From dfd54b0a84428444c16c1f668358addf6171710f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:24:06 +0200
Subject: [PATCH 471/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py        | 14 +++++++++-----
 1 file changed, 9 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 5d2dfbb68f..a7b6eef310 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -77,11 +77,15 @@ def get_nvte_y(
     return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
 
 
-ComputePipelineFunction = copy.deepcopy(autograd.Function)
-ComputePipelineFunction.__name__ = "ComputePipelineFunction"
-ComputePipelineFunction.__class__ = autograd.function.FunctionMeta(
-    "ComputePipelineFunction", (object,), {}
-)
+class Empty:
+    pass
+
+
+ComputePipelineFunction = Empty()
+for attr in dir(autograd.Function):
+    if attr.startswith("_"):
+        continue
+    setattr(ComputePipelineFunction, attr, getattr(autograd.Function, attr))
 
 
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:

From 5f33f49ce97125ab860077784677417b82440b60 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:24:53 +0200
Subject: [PATCH 472/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index a7b6eef310..f9056ab6bc 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -275,7 +275,7 @@ def backward(
             ComputePipelineFunction.forward = forward
             ComputePipelineFunction.backward = backward
 
-            x = Function.apply(  # type: ignore
+            x = ComputePipelineFunction.apply(  # type: ignore
                 x,
                 *exposed_tensors,
                 *(nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),

From a68b4ec9cc39991cd294677bc164d74d38a3b5ca Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:27:20 +0200
Subject: [PATCH 473/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py       | 8 +++++++-
 1 file changed, 7 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index f9056ab6bc..364ef4295a 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -83,7 +83,13 @@ class Empty:
 
 ComputePipelineFunction = Empty()
 for attr in dir(autograd.Function):
-    if attr.startswith("_"):
+    if (
+        attr == "__class__"
+        or attr == "__name__"
+        or attr == "__qualname__"
+        or attr == "__module__"
+        or attr == "__dict__"
+    ):
         continue
     setattr(ComputePipelineFunction, attr, getattr(autograd.Function, attr))
 

From a6c4b8281bc50d7cb70c7307ffcb0b73e0aafd8e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:28:00 +0200
Subject: [PATCH 474/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py              | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 364ef4295a..c85d3ca5f1 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -89,6 +89,7 @@ class Empty:
         or attr == "__qualname__"
         or attr == "__module__"
         or attr == "__dict__"
+        or attr == "__weakref__"
     ):
         continue
     setattr(ComputePipelineFunction, attr, getattr(autograd.Function, attr))

From 8c53b95f447d78b177bfb3997f85f890f09643d6 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:29:40 +0200
Subject: [PATCH 475/535] Revert "fix"

This reverts commit 09d9a476cdde3fe8317d012d7dab76767b59ec0e.

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py              | 1 -
 1 file changed, 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index c85d3ca5f1..364ef4295a 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -89,7 +89,6 @@ class Empty:
         or attr == "__qualname__"
         or attr == "__module__"
         or attr == "__dict__"
-        or attr == "__weakref__"
     ):
         continue
     setattr(ComputePipelineFunction, attr, getattr(autograd.Function, attr))

From 0a755b6aaeee451914042d6b0e2ac500b0b0f020 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:29:49 +0200
Subject: [PATCH 476/535] Revert "fix"

This reverts commit 84888a60c5b93158d03d38d4434dd7f71b57147d.

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py       | 8 +-------
 1 file changed, 1 insertion(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 364ef4295a..f9056ab6bc 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -83,13 +83,7 @@ class Empty:
 
 ComputePipelineFunction = Empty()
 for attr in dir(autograd.Function):
-    if (
-        attr == "__class__"
-        or attr == "__name__"
-        or attr == "__qualname__"
-        or attr == "__module__"
-        or attr == "__dict__"
-    ):
+    if attr.startswith("_"):
         continue
     setattr(ComputePipelineFunction, attr, getattr(autograd.Function, attr))
 

From 0c4cceaa5f2ac60c7482eafc7e9a906ecc2625dc Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:31:50 +0200
Subject: [PATCH 477/535] Revert "fix"

This reverts commit 351fa715b3d53cc2ab00d9e00efd7b84b857bb62.

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 307 +++++++++---------
 1 file changed, 148 insertions(+), 159 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index f9056ab6bc..d883556f08 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,10 +1,8 @@
 from __future__ import annotations
-import copy
-from typing import Any
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-from typing_extensions import Unpack
+from typing import Final, Sequence
 from .persistent import Persistent
 from . import nvte
 from .ops import Context, Op
@@ -77,17 +75,6 @@ def get_nvte_y(
     return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
 
 
-class Empty:
-    pass
-
-
-ComputePipelineFunction = Empty()
-for attr in dir(autograd.Function):
-    if attr.startswith("_"):
-        continue
-    setattr(ComputePipelineFunction, attr, getattr(autograd.Function, attr))
-
-
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
     nvte_x = nvte.make_nvte_tensor(x)
     if not training:
@@ -121,159 +108,161 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
 
-            def forward(  # type: ignore[arg-type]
-                ctx: FunctionCtx,
-                exposed_x: torch.Tensor,
-                *tensor_mess: torch.Tensor,
-            ) -> torch.Tensor:
-                nvte_x = nvte.Tensor(*tensor_mess[-4:])
-                del tensor_mess
-
-                assert _args is not None
-                nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
-                with torch.no_grad():
-                    nvte_y, to_save = _args.op.forward(nvte_x)
-
-                # Expose backward context for tracing
-                bwd_ctx: list[torch.Tensor] = []
-                for _, tensor in to_save.items():
-                    bwd_ctx.append(tensor.data)
-                    bwd_ctx.append(tensor.amax)
-                    bwd_ctx.append(tensor.scale)
-                    bwd_ctx.append(tensor.scale_inv)
-                ctx.save_for_backward(*bwd_ctx)
-
-                # Save real context
-                setattr(ctx, "nvte_ctx", to_save)
-                setattr(ctx, "nvte_op", _args.op)
-                setattr(
-                    ctx,
-                    "nvte_meta_tensor_provider_bwd",
-                    _args.meta_tensor_provider_bwd,
-                )
-
-                # Pytorch will break the computation graph
-                # if it will see an output tensor of an integer type.
-                # As fp8 tensors internally have dtype int8,
-                # we need to pretend that this type is actually different
-                # by "squishing" it into a floating point dtype.
-                # ("Squishing" because, while the new dtype is larger,
-                # the numel() gets smaller).
-                # This doesn't work in TorchScript, but this code
-                # won't run at inference anyway.
-
-                # Unsquish x if needed:
-                if _args.is_exposed_x_squished_now:
-                    # Intentionally commented out - _unsquish(exposed_x)
-                    # We don't need to perform the unsquish itself, as this
-                    # data will not be read anyway.
-                    # It is only really neccesarry to notify
-                    # the backward.
-                    #
-                    # If the input to the forward was squished,
-                    # Pytorch will expect its gradient to be squished
-                    # as well. The backward of this forward will be
-                    # responsible for producing the gradient of
-                    # this squished input, so it is responsible for
-                    # squishing it.
-                    setattr(ctx, "nvte_squish_outgoing_dgrad", True)
-                else:
-                    setattr(ctx, "nvte_squish_outgoing_dgrad", False)
-
-                # Expose result for Pytorch
-                exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
-
-                # Squish y if fp8:
-                if exposed_y.data.dtype == torch.int8:
-                    _squish(exposed_y)
-                    # Because the output is squished, the gradient also needs to be.
-                    # The backward of this forward recieves the gradient of the
-                    # output as its input. So, the backward before it needs
-                    # to squish it, while the backward coresponding to this
-                    # forward needs to unsquish it.
-                    setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
-                else:
-                    setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
-
-                # Save backward comm
-                # This object is allows for the current backward to
-                # pass data to the next backward (the backward of the
-                # preceding operation). This is needed to pass
-                # fp8 gradients properly.
-                setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
-                setattr(
-                    ctx,
-                    "nvte_preceding_backward_comm",
-                    _args.next_upcoming_backward,
-                )
-
-                return exposed_y
-
-            def backward(
-                ctx: FunctionCtx, *grad_outputs: torch.Tensor
-            ) -> tuple[Unpack[tuple[torch.Tensor, ...]], None, None, None]:
-                # The context needs to think that the tensors were read
-                _ = ctx.saved_tensors  # type: ignore
-
-                grad_output = grad_outputs[0]
-
-                # Get real context
-                saved: Context = getattr(ctx, "nvte_ctx")
-                op: Op = getattr(ctx, "nvte_op")
-                preceding_backward: BackwardComm = getattr(
-                    ctx, "nvte_preceding_backward_comm"
-                )
-                upcoming_backward: BackwardComm | None = getattr(
-                    ctx, "nvte_upcoming_backward_comm"
-                )
-
-                # Get real gradient
-                if preceding_backward.nvte_grad_output is None:
-                    # This is the first backward in the compute pipeline
-
-                    grad_output = grad_output.contiguous()  # TODO: try to avoid this
+            class ComputePipelineFunction(autograd.Function):
+                args: ForwardArgs
+
+                @staticmethod
+                def forward(  # type: ignore[arg-type]
+                    ctx: FunctionCtx,
+                    exposed_x: torch.Tensor,
+                    *tensor_mess: torch.Tensor,
+                ) -> torch.Tensor:
+                    nvte_x = nvte.Tensor(*tensor_mess[-4:])
+                    del tensor_mess
+
+                    assert _args is not None
+                    nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
+                    with torch.no_grad():
+                        nvte_y, to_save = _args.op.forward(nvte_x)
+
+                    # Expose backward context for tracing
+                    bwd_ctx: list[torch.Tensor] = []
+                    for _, tensor in to_save.items():
+                        bwd_ctx.append(tensor.data)
+                        bwd_ctx.append(tensor.amax)
+                        bwd_ctx.append(tensor.scale)
+                        bwd_ctx.append(tensor.scale_inv)
+                    ctx.save_for_backward(*bwd_ctx)
+
+                    # Save real context
+                    setattr(ctx, "nvte_ctx", to_save)
+                    setattr(ctx, "nvte_op", _args.op)
+                    setattr(
+                        ctx,
+                        "nvte_meta_tensor_provider_bwd",
+                        _args.meta_tensor_provider_bwd,
+                    )
 
-                    # Check if incoming gradient needs to be unsquished
-                    unsquish_incoming_dgrad: bool = getattr(
-                        ctx, "nvte_unsquish_incoming_dgrad"
+                    # Pytorch will break the computation graph
+                    # if it will see an output tensor of an integer type.
+                    # As fp8 tensors internally have dtype int8,
+                    # we need to pretend that this type is actually different
+                    # by "squishing" it into a floating point dtype.
+                    # ("Squishing" because, while the new dtype is larger,
+                    # the numel() gets smaller).
+                    # This doesn't work in TorchScript, but this code
+                    # won't run at inference anyway.
+
+                    # Unsquish x if needed:
+                    if _args.is_exposed_x_squished_now:
+                        # Intentionally commented out - _unsquish(exposed_x)
+                        # We don't need to perform the unsquish itself, as this
+                        # data will not be read anyway.
+                        # It is only really neccesarry to notify
+                        # the backward.
+                        #
+                        # If the input to the forward was squished,
+                        # Pytorch will expect its gradient to be squished
+                        # as well. The backward of this forward will be
+                        # responsible for producing the gradient of
+                        # this squished input, so it is responsible for
+                        # squishing it.
+                        setattr(ctx, "nvte_squish_outgoing_dgrad", True)
+                    else:
+                        setattr(ctx, "nvte_squish_outgoing_dgrad", False)
+
+                    # Expose result for Pytorch
+                    exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
+
+                    # Squish y if fp8:
+                    if exposed_y.data.dtype == torch.int8:
+                        _squish(exposed_y)
+                        # Because the output is squished, the gradient also needs to be.
+                        # The backward of this forward recieves the gradient of the
+                        # output as its input. So, the backward before it needs
+                        # to squish it, while the backward coresponding to this
+                        # forward needs to unsquish it.
+                        setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
+                    else:
+                        setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
+
+                    # Save backward comm
+                    # This object is allows for the current backward to
+                    # pass data to the next backward (the backward of the
+                    # preceding operation). This is needed to pass
+                    # fp8 gradients properly.
+                    setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
+                    setattr(
+                        ctx,
+                        "nvte_preceding_backward_comm",
+                        _args.next_upcoming_backward,
                     )
-                    if unsquish_incoming_dgrad:
-                        _unsquish(grad_output)
-                    nvte_grad = nvte.make_nvte_tensor(grad_output)
-                else:
-                    nvte_grad = preceding_backward.nvte_grad_output
-                del grad_output
-
-                meta_tensor_provider: Persistent[FP8Meta] = getattr(
-                    ctx, "nvte_meta_tensor_provider_bwd"
-                )
-                nvte.set_execution_state("backward", meta_tensor_provider)
-                with torch.no_grad():
-                    data_grad, param_grads = op.backward(saved, nvte_grad)
 
-                # Store real gradient for next backward in pipeline
-                if upcoming_backward is None:
-                    # This is the last backward in the compute pipeline
-                    assert not nvte.is_fp8(data_grad)
-                else:
-                    upcoming_backward.nvte_grad_output = data_grad
+                    return exposed_y
 
-                # Check that gradients are not fp8 and can be processed by the optimizer
-                # TODO: change this when fp8 optimizer comes along
-                assert all(not nvte.is_fp8(g) for g in param_grads)
+                @staticmethod
+                def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
+                    # The context needs to think that the tensors were read
+                    _ = ctx.saved_tensors  # type: ignore
 
-                # Check if outgoing gradient needs to be squished
-                exposed_dgrad = data_grad.data
-                squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
-                if squish_outgoing_dgrad:
-                    _squish(exposed_dgrad)
+                    # Get real context
+                    saved: Context = getattr(ctx, "nvte_ctx")
+                    op: Op = getattr(ctx, "nvte_op")
+                    preceding_backward: BackwardComm = getattr(
+                        ctx, "nvte_preceding_backward_comm"
+                    )
+                    upcoming_backward: BackwardComm | None = getattr(
+                        ctx, "nvte_upcoming_backward_comm"
+                    )
 
-                torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
+                    # Get real gradient
+                    if preceding_backward.nvte_grad_output is None:
+                        # This is the first backward in the compute pipeline
+
+                        grad_output = (
+                            grad_output.contiguous()
+                        )  # TODO: try to avoid this
+
+                        # Check if incoming gradient needs to be unsquished
+                        unsquish_incoming_dgrad: bool = getattr(
+                            ctx, "nvte_unsquish_incoming_dgrad"
+                        )
+                        if unsquish_incoming_dgrad:
+                            _unsquish(grad_output)
+                        nvte_grad = nvte.make_nvte_tensor(grad_output)
+                    else:
+                        nvte_grad = preceding_backward.nvte_grad_output
+                    del grad_output
+
+                    meta_tensor_provider: Persistent[FP8Meta] = getattr(
+                        ctx, "nvte_meta_tensor_provider_bwd"
+                    )
+                    nvte.set_execution_state("backward", meta_tensor_provider)
+                    with torch.no_grad():
+                        data_grad, param_grads = op.backward(saved, nvte_grad)
+
+                    # Store real gradient for next backward in pipeline
+                    if upcoming_backward is None:
+                        # This is the last backward in the compute pipeline
+                        assert not nvte.is_fp8(data_grad)
+                    else:
+                        upcoming_backward.nvte_grad_output = data_grad
+
+                    # Check that gradients are not fp8 and can be processed by the optimizer
+                    # TODO: change this when fp8 optimizer comes along
+                    assert all(not nvte.is_fp8(g) for g in param_grads)
+
+                    # Check if outgoing gradient needs to be squished
+                    exposed_dgrad = data_grad.data
+                    squish_outgoing_dgrad: bool = getattr(
+                        ctx, "nvte_squish_outgoing_dgrad"
+                    )
+                    if squish_outgoing_dgrad:
+                        _squish(exposed_dgrad)
 
-                return (*torch_grads, None, None, None)
+                    torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
 
-            ComputePipelineFunction.forward = forward
-            ComputePipelineFunction.backward = backward
+                    return (*torch_grads, None, None, None)
 
             x = ComputePipelineFunction.apply(  # type: ignore
                 x,

From 1ad003a13744d3cfeb2b3795ede3bea76e2d7249 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:33:07 +0200
Subject: [PATCH 478/535] revert

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 308 +++++++++---------
 1 file changed, 151 insertions(+), 157 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index d883556f08..585de2dc1b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -39,6 +39,9 @@ def __init__(
         self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
 
 
+_args: ForwardArgs | None = None
+
+
 def get_exposed_y_saving_nvte_y_save_for_backward(
     inputs: tuple[torch.Tensor, nvte.Tensor], output: torch.Tensor
 ) -> None:
@@ -75,6 +78,147 @@ def get_nvte_y(
     return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
 
 
+class ComputePipelineFunction(autograd.Function):
+    args: ForwardArgs
+
+    @staticmethod
+    def forward(  # type: ignore[arg-type]
+        ctx: FunctionCtx,
+        exposed_x: torch.Tensor,
+        *tensor_mess: torch.Tensor,
+    ) -> torch.Tensor:
+        nvte_x = nvte.Tensor(*tensor_mess[-4:])
+        del tensor_mess
+
+        _args = get_args()
+        nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
+        with torch.no_grad():
+            nvte_y, to_save = _args.op.forward(nvte_x)
+
+        # Expose backward context for tracing
+        bwd_ctx: list[torch.Tensor] = []
+        for _, tensor in to_save.items():
+            bwd_ctx.append(tensor.data)
+            bwd_ctx.append(tensor.amax)
+            bwd_ctx.append(tensor.scale)
+            bwd_ctx.append(tensor.scale_inv)
+        ctx.save_for_backward(*bwd_ctx)
+
+        # Save real context
+        setattr(ctx, "nvte_ctx", to_save)
+        setattr(ctx, "nvte_op", _args.op)
+        setattr(ctx, "nvte_meta_tensor_provider_bwd", _args.meta_tensor_provider_bwd)
+
+        # Pytorch will break the computation graph
+        # if it will see an output tensor of an integer type.
+        # As fp8 tensors internally have dtype int8,
+        # we need to pretend that this type is actually different
+        # by "squishing" it into a floating point dtype.
+        # ("Squishing" because, while the new dtype is larger,
+        # the numel() gets smaller).
+        # This doesn't work in TorchScript, but this code
+        # won't run at inference anyway.
+
+        # Unsquish x if needed:
+        if _args.is_exposed_x_squished_now:
+            # Intentionally commented out - _unsquish(exposed_x)
+            # We don't need to perform the unsquish itself, as this
+            # data will not be read anyway.
+            # It is only really neccesarry to notify
+            # the backward.
+            #
+            # If the input to the forward was squished,
+            # Pytorch will expect its gradient to be squished
+            # as well. The backward of this forward will be
+            # responsible for producing the gradient of
+            # this squished input, so it is responsible for
+            # squishing it.
+            setattr(ctx, "nvte_squish_outgoing_dgrad", True)
+        else:
+            setattr(ctx, "nvte_squish_outgoing_dgrad", False)
+
+        # Expose result for Pytorch
+        exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
+
+        # Squish y if fp8:
+        if exposed_y.data.dtype == torch.int8:
+            _squish(exposed_y)
+            # Because the output is squished, the gradient also needs to be.
+            # The backward of this forward recieves the gradient of the
+            # output as its input. So, the backward before it needs
+            # to squish it, while the backward coresponding to this
+            # forward needs to unsquish it.
+            setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
+        else:
+            setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
+
+        # Save backward comm
+        # This object is allows for the current backward to
+        # pass data to the next backward (the backward of the
+        # preceding operation). This is needed to pass
+        # fp8 gradients properly.
+        setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
+        setattr(ctx, "nvte_preceding_backward_comm", _args.next_upcoming_backward)
+
+        return exposed_y
+
+    @staticmethod
+    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
+        # The context needs to think that the tensors were read
+        _ = ctx.saved_tensors  # type: ignore
+
+        # Get real context
+        saved: Context = getattr(ctx, "nvte_ctx")
+        op: Op = getattr(ctx, "nvte_op")
+        preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
+        upcoming_backward: BackwardComm | None = getattr(
+            ctx, "nvte_upcoming_backward_comm"
+        )
+
+        # Get real gradient
+        if preceding_backward.nvte_grad_output is None:
+            # This is the first backward in the compute pipeline
+
+            grad_output = grad_output.contiguous()  # TODO: try to avoid this
+
+            # Check if incoming gradient needs to be unsquished
+            unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
+            if unsquish_incoming_dgrad:
+                _unsquish(grad_output)
+            nvte_grad = nvte.make_nvte_tensor(grad_output)
+        else:
+            nvte_grad = preceding_backward.nvte_grad_output
+        del grad_output
+
+        meta_tensor_provider: Persistent[FP8Meta] = getattr(
+            ctx, "nvte_meta_tensor_provider_bwd"
+        )
+        nvte.set_execution_state("backward", meta_tensor_provider)
+        with torch.no_grad():
+            data_grad, param_grads = op.backward(saved, nvte_grad)
+
+        # Store real gradient for next backward in pipeline
+        if upcoming_backward is None:
+            # This is the last backward in the compute pipeline
+            assert not nvte.is_fp8(data_grad)
+        else:
+            upcoming_backward.nvte_grad_output = data_grad
+
+        # Check that gradients are not fp8 and can be processed by the optimizer
+        # TODO: change this when fp8 optimizer comes along
+        assert all(not nvte.is_fp8(g) for g in param_grads)
+
+        # Check if outgoing gradient needs to be squished
+        exposed_dgrad = data_grad.data
+        squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
+        if squish_outgoing_dgrad:
+            _squish(exposed_dgrad)
+
+        torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
+
+        return (*torch_grads, None, None, None)
+
+
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
     nvte_x = nvte.make_nvte_tensor(x)
     if not training:
@@ -83,8 +227,8 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return y.data
     else:
         pipeline.next_iteration()
-        _args = None
         for i, contained_op in enumerate(pipeline.functions):
+            global _args
             if i == 0:
                 _args = ForwardArgs(
                     False,
@@ -108,162 +252,6 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
 
-            class ComputePipelineFunction(autograd.Function):
-                args: ForwardArgs
-
-                @staticmethod
-                def forward(  # type: ignore[arg-type]
-                    ctx: FunctionCtx,
-                    exposed_x: torch.Tensor,
-                    *tensor_mess: torch.Tensor,
-                ) -> torch.Tensor:
-                    nvte_x = nvte.Tensor(*tensor_mess[-4:])
-                    del tensor_mess
-
-                    assert _args is not None
-                    nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
-                    with torch.no_grad():
-                        nvte_y, to_save = _args.op.forward(nvte_x)
-
-                    # Expose backward context for tracing
-                    bwd_ctx: list[torch.Tensor] = []
-                    for _, tensor in to_save.items():
-                        bwd_ctx.append(tensor.data)
-                        bwd_ctx.append(tensor.amax)
-                        bwd_ctx.append(tensor.scale)
-                        bwd_ctx.append(tensor.scale_inv)
-                    ctx.save_for_backward(*bwd_ctx)
-
-                    # Save real context
-                    setattr(ctx, "nvte_ctx", to_save)
-                    setattr(ctx, "nvte_op", _args.op)
-                    setattr(
-                        ctx,
-                        "nvte_meta_tensor_provider_bwd",
-                        _args.meta_tensor_provider_bwd,
-                    )
-
-                    # Pytorch will break the computation graph
-                    # if it will see an output tensor of an integer type.
-                    # As fp8 tensors internally have dtype int8,
-                    # we need to pretend that this type is actually different
-                    # by "squishing" it into a floating point dtype.
-                    # ("Squishing" because, while the new dtype is larger,
-                    # the numel() gets smaller).
-                    # This doesn't work in TorchScript, but this code
-                    # won't run at inference anyway.
-
-                    # Unsquish x if needed:
-                    if _args.is_exposed_x_squished_now:
-                        # Intentionally commented out - _unsquish(exposed_x)
-                        # We don't need to perform the unsquish itself, as this
-                        # data will not be read anyway.
-                        # It is only really neccesarry to notify
-                        # the backward.
-                        #
-                        # If the input to the forward was squished,
-                        # Pytorch will expect its gradient to be squished
-                        # as well. The backward of this forward will be
-                        # responsible for producing the gradient of
-                        # this squished input, so it is responsible for
-                        # squishing it.
-                        setattr(ctx, "nvte_squish_outgoing_dgrad", True)
-                    else:
-                        setattr(ctx, "nvte_squish_outgoing_dgrad", False)
-
-                    # Expose result for Pytorch
-                    exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
-
-                    # Squish y if fp8:
-                    if exposed_y.data.dtype == torch.int8:
-                        _squish(exposed_y)
-                        # Because the output is squished, the gradient also needs to be.
-                        # The backward of this forward recieves the gradient of the
-                        # output as its input. So, the backward before it needs
-                        # to squish it, while the backward coresponding to this
-                        # forward needs to unsquish it.
-                        setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
-                    else:
-                        setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
-
-                    # Save backward comm
-                    # This object is allows for the current backward to
-                    # pass data to the next backward (the backward of the
-                    # preceding operation). This is needed to pass
-                    # fp8 gradients properly.
-                    setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
-                    setattr(
-                        ctx,
-                        "nvte_preceding_backward_comm",
-                        _args.next_upcoming_backward,
-                    )
-
-                    return exposed_y
-
-                @staticmethod
-                def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
-                    # The context needs to think that the tensors were read
-                    _ = ctx.saved_tensors  # type: ignore
-
-                    # Get real context
-                    saved: Context = getattr(ctx, "nvte_ctx")
-                    op: Op = getattr(ctx, "nvte_op")
-                    preceding_backward: BackwardComm = getattr(
-                        ctx, "nvte_preceding_backward_comm"
-                    )
-                    upcoming_backward: BackwardComm | None = getattr(
-                        ctx, "nvte_upcoming_backward_comm"
-                    )
-
-                    # Get real gradient
-                    if preceding_backward.nvte_grad_output is None:
-                        # This is the first backward in the compute pipeline
-
-                        grad_output = (
-                            grad_output.contiguous()
-                        )  # TODO: try to avoid this
-
-                        # Check if incoming gradient needs to be unsquished
-                        unsquish_incoming_dgrad: bool = getattr(
-                            ctx, "nvte_unsquish_incoming_dgrad"
-                        )
-                        if unsquish_incoming_dgrad:
-                            _unsquish(grad_output)
-                        nvte_grad = nvte.make_nvte_tensor(grad_output)
-                    else:
-                        nvte_grad = preceding_backward.nvte_grad_output
-                    del grad_output
-
-                    meta_tensor_provider: Persistent[FP8Meta] = getattr(
-                        ctx, "nvte_meta_tensor_provider_bwd"
-                    )
-                    nvte.set_execution_state("backward", meta_tensor_provider)
-                    with torch.no_grad():
-                        data_grad, param_grads = op.backward(saved, nvte_grad)
-
-                    # Store real gradient for next backward in pipeline
-                    if upcoming_backward is None:
-                        # This is the last backward in the compute pipeline
-                        assert not nvte.is_fp8(data_grad)
-                    else:
-                        upcoming_backward.nvte_grad_output = data_grad
-
-                    # Check that gradients are not fp8 and can be processed by the optimizer
-                    # TODO: change this when fp8 optimizer comes along
-                    assert all(not nvte.is_fp8(g) for g in param_grads)
-
-                    # Check if outgoing gradient needs to be squished
-                    exposed_dgrad = data_grad.data
-                    squish_outgoing_dgrad: bool = getattr(
-                        ctx, "nvte_squish_outgoing_dgrad"
-                    )
-                    if squish_outgoing_dgrad:
-                        _squish(exposed_dgrad)
-
-                    torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
-
-                    return (*torch_grads, None, None, None)
-
             x = ComputePipelineFunction.apply(  # type: ignore
                 x,
                 *exposed_tensors,
@@ -280,6 +268,12 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         return x
 
 
+@torch._dynamo.allow_in_graph  # type: ignore
+def get_args() -> ForwardArgs:
+    assert _args is not None
+    return _args
+
+
 # The squish needs to be invertible and
 # always reduce the numel() of the tensor by the same
 # amount.

From d743e749522fdd117c10cc54b14c3a434329644b Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Tue, 29 Aug 2023 23:33:57 +0200
Subject: [PATCH 479/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 --
 1 file changed, 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 585de2dc1b..e857ff85b1 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -79,8 +79,6 @@ def get_nvte_y(
 
 
 class ComputePipelineFunction(autograd.Function):
-    args: ForwardArgs
-
     @staticmethod
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,

From 301b7304f9db6ba8627028d810c1a7414b6b2cd1 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 10:39:10 +0200
Subject: [PATCH 480/535] fox

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 26 +++++++------------
 .../pytorch/sequential/nvte/_common.py        |  2 +-
 2 files changed, 10 insertions(+), 18 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index e857ff85b1..b8a92646ae 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -39,9 +39,6 @@ def __init__(
         self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
 
 
-_args: ForwardArgs | None = None
-
-
 def get_exposed_y_saving_nvte_y_save_for_backward(
     inputs: tuple[torch.Tensor, nvte.Tensor], output: torch.Tensor
 ) -> None:
@@ -84,11 +81,11 @@ def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
         *tensor_mess: torch.Tensor,
+        _args: ForwardArgs,
     ) -> torch.Tensor:
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
-        _args = get_args()
         nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
         with torch.no_grad():
             nvte_y, to_save = _args.op.forward(nvte_x)
@@ -225,10 +222,10 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return y.data
     else:
         pipeline.next_iteration()
+        args: ForwardArgs | None = None
         for i, contained_op in enumerate(pipeline.functions):
-            global _args
             if i == 0:
-                _args = ForwardArgs(
+                args = ForwardArgs(
                     False,
                     None,
                     contained_op,
@@ -236,11 +233,11 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                     pipeline.meta_bwd,
                 )
             else:
-                assert _args is not None
-                _args.is_exposed_x_squished_now = x.dtype != nvte_x.data.dtype
-                _args.upcoming_backward = _args.next_upcoming_backward
-                _args.next_upcoming_backward = BackwardComm()
-                _args.op = contained_op
+                assert args is not None
+                args.is_exposed_x_squished_now = x.dtype != nvte_x.data.dtype
+                args.upcoming_backward = args.next_upcoming_backward
+                args.next_upcoming_backward = BackwardComm()
+                args.op = contained_op
 
             nvte_tensors = contained_op.require_grad()
             exposed_tensors: list[torch.Tensor] = []
@@ -254,6 +251,7 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 x,
                 *exposed_tensors,
                 *(nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),
+                _args=args,
             )
             assert isinstance(x, torch.Tensor)
             with torch.no_grad():
@@ -266,12 +264,6 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return x
 
 
-@torch._dynamo.allow_in_graph  # type: ignore
-def get_args() -> ForwardArgs:
-    assert _args is not None
-    return _args
-
-
 # The squish needs to be invertible and
 # always reduce the numel() of the tensor by the same
 # amount.
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index da2532f01a..1f28d6614b 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -248,7 +248,7 @@ def {func.__name__}_wrap{outer_sig}:
 
 
 def _run_full_code(*codes: str, **namespace: Any):
-    source = f"""\
+    source = """\
 import torch
 from .. import cpp_extensions
 import typing

From 5beb3214dd90d00c7eeaa5b80479a0f706106171 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 10:49:53 +0200
Subject: [PATCH 481/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 50 ++++++++++---------
 1 file changed, 26 insertions(+), 24 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index b8a92646ae..54ddc26409 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -81,14 +81,18 @@ def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
         *tensor_mess: torch.Tensor,
-        _args: ForwardArgs,
+        meta_tensor_provider_fwd: Persistent[FP8Meta],
+        meta_tensor_provider_bwd: Persistent[FP8Meta],
+        op: Op,
+        upcoming_backward: BackwardComm | None,
+        next_upcoming_backward: BackwardComm,
     ) -> torch.Tensor:
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
-        nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
+        nvte.set_execution_state("forward", meta_tensor_provider_fwd)
         with torch.no_grad():
-            nvte_y, to_save = _args.op.forward(nvte_x)
+            nvte_y, to_save = op.forward(nvte_x)
 
         # Expose backward context for tracing
         bwd_ctx: list[torch.Tensor] = []
@@ -101,8 +105,8 @@ def forward(  # type: ignore[arg-type]
 
         # Save real context
         setattr(ctx, "nvte_ctx", to_save)
-        setattr(ctx, "nvte_op", _args.op)
-        setattr(ctx, "nvte_meta_tensor_provider_bwd", _args.meta_tensor_provider_bwd)
+        setattr(ctx, "nvte_op", op)
+        setattr(ctx, "nvte_meta_tensor_provider_bwd", meta_tensor_provider_bwd)
 
         # Pytorch will break the computation graph
         # if it will see an output tensor of an integer type.
@@ -115,7 +119,8 @@ def forward(  # type: ignore[arg-type]
         # won't run at inference anyway.
 
         # Unsquish x if needed:
-        if _args.is_exposed_x_squished_now:
+        is_exposed_x_squished_now = exposed_x.dtype != nvte_x.data.dtype
+        if is_exposed_x_squished_now:
             # Intentionally commented out - _unsquish(exposed_x)
             # We don't need to perform the unsquish itself, as this
             # data will not be read anyway.
@@ -152,8 +157,8 @@ def forward(  # type: ignore[arg-type]
         # pass data to the next backward (the backward of the
         # preceding operation). This is needed to pass
         # fp8 gradients properly.
-        setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
-        setattr(ctx, "nvte_preceding_backward_comm", _args.next_upcoming_backward)
+        setattr(ctx, "nvte_upcoming_backward_comm", upcoming_backward)
+        setattr(ctx, "nvte_preceding_backward_comm", next_upcoming_backward)
 
         return exposed_y
 
@@ -222,22 +227,15 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return y.data
     else:
         pipeline.next_iteration()
-        args: ForwardArgs | None = None
+        meta_tensor_provider_fwd: Persistent[FP8Meta] = pipeline.meta_fwd
+        meta_tensor_provider_bwd: Persistent[FP8Meta] = pipeline.meta_bwd
         for i, contained_op in enumerate(pipeline.functions):
-            if i == 0:
-                args = ForwardArgs(
-                    False,
-                    None,
-                    contained_op,
-                    pipeline.meta_fwd,
-                    pipeline.meta_bwd,
-                )
-            else:
-                assert args is not None
-                args.is_exposed_x_squished_now = x.dtype != nvte_x.data.dtype
-                args.upcoming_backward = args.next_upcoming_backward
-                args.next_upcoming_backward = BackwardComm()
-                args.op = contained_op
+            op = contained_op
+            upcoming_backward, next_upcoming_backward = (
+                (None, BackwardComm())
+                if i == 0
+                else (next_upcoming_backward, BackwardComm())
+            )
 
             nvte_tensors = contained_op.require_grad()
             exposed_tensors: list[torch.Tensor] = []
@@ -251,7 +249,11 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 x,
                 *exposed_tensors,
                 *(nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),
-                _args=args,
+                upcoming_backward=upcoming_backward,
+                next_upcoming_backward=next_upcoming_backward,
+                op=op,
+                meta_tensor_provider_fwd=meta_tensor_provider_fwd,
+                meta_tensor_provider_bwd=meta_tensor_provider_bwd,
             )
             assert isinstance(x, torch.Tensor)
             with torch.no_grad():

From 2f9bea5cf905e5f2bb78cc298fbe27e3539ffe06 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 12:42:04 +0200
Subject: [PATCH 482/535] unroll loop

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 58 ++++++++-----------
 .../pytorch/sequential/utils.py               | 42 +++++++++++++-
 2 files changed, 65 insertions(+), 35 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 54ddc26409..3b38c89cb5 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -2,11 +2,11 @@
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
-from typing import Final, Sequence
 from .persistent import Persistent
 from . import nvte
 from .ops import Context, Op
 from .compute_pipeline import ComputePipeline
+from .utils import unrolled_for
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
@@ -15,30 +15,6 @@ class BackwardComm:
     nvte_grad_output: nvte.Tensor | None = None
 
 
-class ForwardArgs:
-    is_exposed_x_squished_now: bool
-    upcoming_backward: BackwardComm | None
-    next_upcoming_backward: BackwardComm
-    op: Op
-    meta_tensor_provider_fwd: Persistent[FP8Meta]
-    meta_tensor_provider_bwd: Persistent[FP8Meta]
-
-    def __init__(
-        self,
-        is_exposed_x_squished_now: bool,
-        upcoming_backward: BackwardComm | None,
-        op: Op,
-        meta_tensor_provider_fwd: Persistent[FP8Meta],
-        meta_tensor_provider_bwd: Persistent[FP8Meta],
-    ):
-        self.is_exposed_x_squished_now = is_exposed_x_squished_now
-        self.upcoming_backward = upcoming_backward
-        self.next_upcoming_backward = BackwardComm()
-        self.op = op
-        self.meta_tensor_provider_fwd = meta_tensor_provider_fwd
-        self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
-
-
 def get_exposed_y_saving_nvte_y_save_for_backward(
     inputs: tuple[torch.Tensor, nvte.Tensor], output: torch.Tensor
 ) -> None:
@@ -227,9 +203,17 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return y.data
     else:
         pipeline.next_iteration()
-        meta_tensor_provider_fwd: Persistent[FP8Meta] = pipeline.meta_fwd
-        meta_tensor_provider_bwd: Persistent[FP8Meta] = pipeline.meta_bwd
-        for i, contained_op in enumerate(pipeline.functions):
+
+        @unrolled_for(enumerate(pipeline.functions))
+        def _(
+            i: int,
+            contained_op: Op,
+            /,
+            *,
+            x_: torch.Tensor = x,
+            nvte_x_: nvte.Tensor = nvte_x,
+            next_upcoming_backward: BackwardComm | None = None,
+        ):
             op = contained_op
             upcoming_backward, next_upcoming_backward = (
                 (None, BackwardComm())
@@ -245,24 +229,30 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
 
-            x = ComputePipelineFunction.apply(  # type: ignore
-                x,
+            x_ = ComputePipelineFunction.apply(  # type: ignore
+                x_,
                 *exposed_tensors,
-                *(nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),
+                *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
                 upcoming_backward=upcoming_backward,
                 next_upcoming_backward=next_upcoming_backward,
                 op=op,
-                meta_tensor_provider_fwd=meta_tensor_provider_fwd,
-                meta_tensor_provider_bwd=meta_tensor_provider_bwd,
+                meta_tensor_provider_fwd=pipeline.meta_fwd,
+                meta_tensor_provider_bwd=pipeline.meta_bwd,
             )
             assert isinstance(x, torch.Tensor)
             with torch.no_grad():
                 (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(
                     x
                 )
-                nvte_x = nvte.Tensor(
+                nvte_x_ = nvte.Tensor(
                     nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv
                 )
+            return {
+                "x": x_,
+                "nvte_x": nvte_x_,
+                "next_upcoming_backward": next_upcoming_backward,
+            }
+
         return x
 
 
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 4c17e5bb0a..e7871e20f4 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -6,13 +6,16 @@
     Literal,
     Protocol,
     TypeVar,
+    Union,
     overload,
+    Iterable,
 )
 from types import TracebackType, ModuleType, GenericAlias
 from typing_extensions import ParamSpec, TypeVarTuple, Unpack
 
 PS = ParamSpec("PS")
 T = TypeVar("T")
+Ts = TypeVarTuple("Ts")
 ExcT = TypeVar("ExcT")
 
 
@@ -195,7 +198,44 @@ def patched_getlines(filename: str, module_globals: Any = None):
     sources.append(source)
 
 
-Ts = TypeVarTuple("Ts")
+@overload
+def unrolled_for(
+    iterable_: Iterable[tuple[Unpack[Ts]]],
+) -> Callable[[Callable[[Unpack[Ts]], None | dict[str, Any]]], None]:
+    ...
+
+
+@overload
+def unrolled_for(
+    iterable_: Iterable[T],
+) -> Callable[[Callable[[T], None | dict[str, Any]]], None]:
+    ...
+
+
+def unrolled_for(
+    iterable_: Iterable[T] | Iterable[tuple[Unpack[Ts]]],
+) -> (
+    Callable[[Callable[[T], None | dict[str, Any]]], None]
+    | Callable[[Callable[[Unpack[Ts]], None | dict[str, Any]]], None]
+):
+    def decorator(
+        f: Callable[[T], None | dict[str, Any]]
+        | Callable[[Unpack[Ts]], None | dict[str, Any]]
+    ):
+        loop_state: None | dict[str, Any] = None
+        for item in iterable_:
+            if isinstance(item, tuple):
+                if loop_state is None:
+                    loop_state = f(*item)  # type: ignore
+                else:
+                    loop_state = f(*item, **loop_state)  # type: ignore
+            else:
+                if loop_state is None:
+                    loop_state = f(item)  # type: ignore
+                else:
+                    loop_state = f(item, **loop_state)  # type: ignore
+
+    return decorator
 
 
 class Decorator(Protocol[Unpack[Ts], T]):

From 1b88d7ffe64e56bfe40c9593c2935cb9a8d3fbe5 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 12:55:42 +0200
Subject: [PATCH 483/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 1 +
 1 file changed, 1 insertion(+)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index e7871e20f4..b2a964657a 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -1,3 +1,4 @@
+from __future__ import annotations
 from typing import (
     Any,
     Callable,

From 62caddb12fa9ccb5274cafaf8d722618f59fcbda Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 13:01:59 +0200
Subject: [PATCH 484/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/annotations.py         | 45 ++++++++++++++++
 .../pytorch/sequential/utils.py               | 53 +++++--------------
 2 files changed, 59 insertions(+), 39 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/annotations.py

diff --git a/transformer_engine/pytorch/sequential/annotations.py b/transformer_engine/pytorch/sequential/annotations.py
new file mode 100644
index 0000000000..8ce514b3e1
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/annotations.py
@@ -0,0 +1,45 @@
+# Need to be in seperate file as it cannot have
+# from __future__ import annotations
+
+from typing import Any, Callable, TypeVar
+
+T = TypeVar("T")
+
+
+def get_arg_types(f: Callable[..., Any]) -> list[type]:
+    import typing
+    import ast
+
+    annotations = typing.get_type_hints(f)
+    annotations.pop("return", None)
+    arg_type_annotations = tuple(annotations.values())
+
+    arg_types = [
+        ast.literal_eval(val) if isinstance(val, str) else val
+        for val in arg_type_annotations
+    ]
+
+    return arg_types
+
+
+def get_arg_names(f: Callable[..., Any]) -> list[str]:
+    import typing
+
+    annotations = typing.get_type_hints(f)
+    annotations.pop("return", None)
+    return list(annotations.keys())
+
+
+def get_return_type(f: Callable[..., T]) -> type[T]:
+    import typing
+    import ast
+
+    return_annotation = typing.get_type_hints(f)["return"]
+
+    return_type = (
+        ast.literal_eval(return_annotation)
+        if isinstance(return_annotation, str)
+        else return_annotation
+    )
+
+    return return_type  # type: ignore
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index b2a964657a..1db9c7b5f5 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -13,6 +13,7 @@
 )
 from types import TracebackType, ModuleType, GenericAlias
 from typing_extensions import ParamSpec, TypeVarTuple, Unpack
+from .annotations import get_arg_names, get_arg_types, get_return_type
 
 PS = ParamSpec("PS")
 T = TypeVar("T")
@@ -135,45 +136,6 @@ def import_file_as_module(
             os.chdir(old_cwd)
 
 
-def get_arg_types(f: Callable[..., Any]) -> list[type]:
-    import typing
-    import ast
-
-    annotations = typing.get_type_hints(f)
-    annotations.pop("return", None)
-    arg_type_annotations = tuple(annotations.values())
-
-    arg_types = [
-        ast.literal_eval(val) if isinstance(val, str) else val
-        for val in arg_type_annotations
-    ]
-
-    return arg_types
-
-
-def get_arg_names(f: Callable[..., Any]) -> list[str]:
-    import typing
-
-    annotations = typing.get_type_hints(f)
-    annotations.pop("return", None)
-    return list(annotations.keys())
-
-
-def get_return_type(f: Callable[..., T]) -> type[T]:
-    import typing
-    import ast
-
-    return_annotation = typing.get_type_hints(f)["return"]
-
-    return_type = (
-        ast.literal_eval(return_annotation)
-        if isinstance(return_annotation, str)
-        else return_annotation
-    )
-
-    return return_type  # type: ignore
-
-
 def exec_saving_source(source: str, globals: dict[str, Any]):
     import ast
     import linecache
@@ -259,3 +221,16 @@ def is_generic(t: type | GenericAlias):
     from typing import _SpecialGenericAlias, _GenericAlias  # type: ignore
 
     return isinstance(t, GenericAlias | _SpecialGenericAlias | _GenericAlias)
+
+
+__all__ = [
+    "contextmanager",
+    "cache",
+    "import_file_as_module",
+    "exec_saving_source",
+    "unrolled_for",
+    "is_generic",
+    "get_arg_names",
+    "get_arg_types",
+    "get_return_type",
+]

From 30c8142743925f1d0eeed207a40e5f926f463f15 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 13:04:04 +0200
Subject: [PATCH 485/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/annotations.py         | 45 ----------------
 .../pytorch/sequential/exec_saving_source.py  | 29 ++++++++++
 .../pytorch/sequential/utils.py               | 54 ++++++++++++-------
 3 files changed, 63 insertions(+), 65 deletions(-)
 delete mode 100644 transformer_engine/pytorch/sequential/annotations.py
 create mode 100644 transformer_engine/pytorch/sequential/exec_saving_source.py

diff --git a/transformer_engine/pytorch/sequential/annotations.py b/transformer_engine/pytorch/sequential/annotations.py
deleted file mode 100644
index 8ce514b3e1..0000000000
--- a/transformer_engine/pytorch/sequential/annotations.py
+++ /dev/null
@@ -1,45 +0,0 @@
-# Need to be in seperate file as it cannot have
-# from __future__ import annotations
-
-from typing import Any, Callable, TypeVar
-
-T = TypeVar("T")
-
-
-def get_arg_types(f: Callable[..., Any]) -> list[type]:
-    import typing
-    import ast
-
-    annotations = typing.get_type_hints(f)
-    annotations.pop("return", None)
-    arg_type_annotations = tuple(annotations.values())
-
-    arg_types = [
-        ast.literal_eval(val) if isinstance(val, str) else val
-        for val in arg_type_annotations
-    ]
-
-    return arg_types
-
-
-def get_arg_names(f: Callable[..., Any]) -> list[str]:
-    import typing
-
-    annotations = typing.get_type_hints(f)
-    annotations.pop("return", None)
-    return list(annotations.keys())
-
-
-def get_return_type(f: Callable[..., T]) -> type[T]:
-    import typing
-    import ast
-
-    return_annotation = typing.get_type_hints(f)["return"]
-
-    return_type = (
-        ast.literal_eval(return_annotation)
-        if isinstance(return_annotation, str)
-        else return_annotation
-    )
-
-    return return_type  # type: ignore
diff --git a/transformer_engine/pytorch/sequential/exec_saving_source.py b/transformer_engine/pytorch/sequential/exec_saving_source.py
new file mode 100644
index 0000000000..7c56b56c48
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/exec_saving_source.py
@@ -0,0 +1,29 @@
+# Need to be in seperate file as it cannot have
+# from __future__ import annotations
+
+from typing import Any
+
+
+def exec_saving_source(source: str, globals: dict[str, Any]):
+    import ast
+    import linecache
+
+    if not hasattr(exec_saving_source, "sources"):
+        old_getlines = linecache.getlines
+        sources: list[str] = []
+
+        def patched_getlines(filename: str, module_globals: Any = None):
+            if "<exec#" in filename:
+                index = int(filename.split("#")[1].split(">")[0])
+                return sources[index].splitlines(True)
+            else:
+                return old_getlines(filename, module_globals)
+
+        linecache.getlines = patched_getlines
+        setattr(exec_saving_source, "sources", sources)
+    sources: list[str] = getattr(exec_saving_source, "sources")
+    exec(
+        compile(ast.parse(source), filename=f"<exec#{len(sources)}>", mode="exec"),
+        globals,
+    )
+    sources.append(source)
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 1db9c7b5f5..fbb292d896 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -13,7 +13,7 @@
 )
 from types import TracebackType, ModuleType, GenericAlias
 from typing_extensions import ParamSpec, TypeVarTuple, Unpack
-from .annotations import get_arg_names, get_arg_types, get_return_type
+from .exec_saving_source import exec_saving_source
 
 PS = ParamSpec("PS")
 T = TypeVar("T")
@@ -136,29 +136,43 @@ def import_file_as_module(
             os.chdir(old_cwd)
 
 
-def exec_saving_source(source: str, globals: dict[str, Any]):
+def get_arg_types(f: Callable[..., Any]) -> list[type]:
+    import typing
     import ast
-    import linecache
 
-    if not hasattr(exec_saving_source, "sources"):
-        old_getlines = linecache.getlines
-        sources: list[str] = []
+    annotations = typing.get_type_hints(f)
+    annotations.pop("return", None)
+    arg_type_annotations = tuple(annotations.values())
 
-        def patched_getlines(filename: str, module_globals: Any = None):
-            if "<exec#" in filename:
-                index = int(filename.split("#")[1].split(">")[0])
-                return sources[index].splitlines(True)
-            else:
-                return old_getlines(filename, module_globals)
-
-        linecache.getlines = patched_getlines
-        setattr(exec_saving_source, "sources", sources)
-    sources: list[str] = getattr(exec_saving_source, "sources")
-    exec(
-        compile(ast.parse(source), filename=f"<exec#{len(sources)}>", mode="exec"),
-        globals,
+    arg_types = [
+        ast.literal_eval(val) if isinstance(val, str) else val
+        for val in arg_type_annotations
+    ]
+
+    return arg_types
+
+
+def get_arg_names(f: Callable[..., Any]) -> list[str]:
+    import typing
+
+    annotations = typing.get_type_hints(f)
+    annotations.pop("return", None)
+    return list(annotations.keys())
+
+
+def get_return_type(f: Callable[..., T]) -> type[T]:
+    import typing
+    import ast
+
+    return_annotation = typing.get_type_hints(f)["return"]
+
+    return_type = (
+        ast.literal_eval(return_annotation)
+        if isinstance(return_annotation, str)
+        else return_annotation
     )
-    sources.append(source)
+
+    return return_type  # type: ignore
 
 
 @overload

From c149f53bc063a038968fa2b997e0194eea485859 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 15:23:14 +0200
Subject: [PATCH 486/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 111 ++++++++++--------
 .../pytorch/sequential/utils.py               |  84 ++++++++-----
 2 files changed, 113 insertions(+), 82 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 3b38c89cb5..2f8192cb3d 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,4 +1,5 @@
 from __future__ import annotations
+from typing import TypedDict
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
@@ -6,7 +7,7 @@
 from . import nvte
 from .ops import Context, Op
 from .compute_pipeline import ComputePipeline
-from .utils import unrolled_for
+from .utils import unrolled_for, enumerate
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
@@ -195,6 +196,62 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         return (*torch_grads, None, None, None)
 
 
+class LoopState(TypedDict):
+    x_: torch.Tensor
+    nvte_x_: nvte.Tensor
+    next_upcoming_backward: BackwardComm | None
+
+
+def make_loop(pipeline: ComputePipeline):
+    @unrolled_for(len(pipeline.functions))
+    def compute_pipeline_function_wrapping_loop(
+        i: int,
+        contained_op: Op,
+        loop_state: LoopState,
+    ):
+        x_, nvte_x_, next_upcoming_backward = (
+            loop_state["x_"],
+            loop_state["nvte_x_"],
+            loop_state["next_upcoming_backward"],
+        )
+        op = contained_op
+        upcoming_backward, next_upcoming_backward = (
+            (None, BackwardComm())
+            if i == 0
+            else (next_upcoming_backward, BackwardComm())
+        )
+        nvte_tensors = contained_op.require_grad()
+        exposed_tensors: list[torch.Tensor] = []
+        for nvte_tensor in nvte_tensors:
+            assert not nvte.is_fp8(
+                nvte_tensor
+            )  # TODO: change when fp8 optimizer comes along
+            exposed_tensors.append(nvte_tensor.data)
+        x_ = ComputePipelineFunction.apply(  # type: ignore
+            x_,
+            *exposed_tensors,
+            *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
+            upcoming_backward=upcoming_backward,
+            next_upcoming_backward=next_upcoming_backward,
+            op=op,
+            meta_tensor_provider_fwd=pipeline.meta_fwd,
+            meta_tensor_provider_bwd=pipeline.meta_bwd,
+        )
+        assert isinstance(x_, torch.Tensor)
+        with torch.no_grad():
+            (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(x_)
+            nvte_x_ = nvte.Tensor(
+                nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv
+            )
+        return {
+            "x": x_,
+            "nvte_x": nvte_x_,
+            "next_upcoming_backward": next_upcoming_backward,
+        }
+
+    return compute_pipeline_function_wrapping_loop
+
+
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
     nvte_x = nvte.make_nvte_tensor(x)
     if not training:
@@ -203,56 +260,8 @@ def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.T
         return y.data
     else:
         pipeline.next_iteration()
-
-        @unrolled_for(enumerate(pipeline.functions))
-        def _(
-            i: int,
-            contained_op: Op,
-            /,
-            *,
-            x_: torch.Tensor = x,
-            nvte_x_: nvte.Tensor = nvte_x,
-            next_upcoming_backward: BackwardComm | None = None,
-        ):
-            op = contained_op
-            upcoming_backward, next_upcoming_backward = (
-                (None, BackwardComm())
-                if i == 0
-                else (next_upcoming_backward, BackwardComm())
-            )
-
-            nvte_tensors = contained_op.require_grad()
-            exposed_tensors: list[torch.Tensor] = []
-            for nvte_tensor in nvte_tensors:
-                assert not nvte.is_fp8(
-                    nvte_tensor
-                )  # TODO: change when fp8 optimizer comes along
-                exposed_tensors.append(nvte_tensor.data)
-
-            x_ = ComputePipelineFunction.apply(  # type: ignore
-                x_,
-                *exposed_tensors,
-                *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
-                upcoming_backward=upcoming_backward,
-                next_upcoming_backward=next_upcoming_backward,
-                op=op,
-                meta_tensor_provider_fwd=pipeline.meta_fwd,
-                meta_tensor_provider_bwd=pipeline.meta_bwd,
-            )
-            assert isinstance(x, torch.Tensor)
-            with torch.no_grad():
-                (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(
-                    x
-                )
-                nvte_x_ = nvte.Tensor(
-                    nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv
-                )
-            return {
-                "x": x_,
-                "nvte_x": nvte_x_,
-                "next_upcoming_backward": next_upcoming_backward,
-            }
-
+        loop = make_loop(pipeline)
+        loop(enumerate(pipeline.functions), {"x_": x, "nvte_x_": nvte_x})
         return x
 
 
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index fbb292d896..6288650864 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -5,20 +5,24 @@
     Generic,
     Generator,
     Literal,
+    Mapping,
     Protocol,
+    Sized,
     TypeVar,
-    Union,
     overload,
     Iterable,
 )
-from types import TracebackType, ModuleType, GenericAlias
+from types import NoneType, TracebackType, ModuleType, GenericAlias
 from typing_extensions import ParamSpec, TypeVarTuple, Unpack
 from .exec_saving_source import exec_saving_source
 
 PS = ParamSpec("PS")
 T = TypeVar("T")
 Ts = TypeVarTuple("Ts")
+Ts2 = TypeVarTuple("Ts2")
+CT = TypeVar("CT", covariant=True)
 ExcT = TypeVar("ExcT")
+SomeDict = TypeVar("SomeDict", bound=Mapping[Any, Any], covariant=True)
 
 
 class _Context(Generic[PS, T]):
@@ -175,42 +179,60 @@ def get_return_type(f: Callable[..., T]) -> type[T]:
     return return_type  # type: ignore
 
 
-@overload
-def unrolled_for(
-    iterable_: Iterable[tuple[Unpack[Ts]]],
-) -> Callable[[Callable[[Unpack[Ts]], None | dict[str, Any]]], None]:
-    ...
+class SizedIterable(Sized, Iterable[CT], Protocol):
+    pass
 
 
-@overload
-def unrolled_for(
-    iterable_: Iterable[T],
-) -> Callable[[Callable[[T], None | dict[str, Any]]], None]:
-    ...
+class enumerate(enumerate[T]):
+    def __init__(self, iterable: Iterable[T], start: int = 0) -> None:
+        if isinstance(iterable, Sized):
+            self.__len__ = lambda: len(iterable)
+        super().__init__(iterable, start)
+
+    def __len__(self) -> int:
+        ...
 
 
 def unrolled_for(
-    iterable_: Iterable[T] | Iterable[tuple[Unpack[Ts]]],
-) -> (
-    Callable[[Callable[[T], None | dict[str, Any]]], None]
-    | Callable[[Callable[[Unpack[Ts]], None | dict[str, Any]]], None]
-):
+    iterations: int,
+) -> Callable[
+    [Callable[[Unpack[Ts], SomeDict], SomeDict]],
+    Callable[[SizedIterable[tuple[Unpack[Ts]]], SomeDict], None],
+]:
+    if not hasattr(unrolled_for, "memo"):
+        setattr(unrolled_for, "memo", {})
+    memo: dict[tuple[int, bool, bool], Callable[..., Any]] = getattr(
+        unrolled_for, "memo"
+    )
+
     def decorator(
-        f: Callable[[T], None | dict[str, Any]]
-        | Callable[[Unpack[Ts]], None | dict[str, Any]]
-    ):
-        loop_state: None | dict[str, Any] = None
-        for item in iterable_:
-            if isinstance(item, tuple):
-                if loop_state is None:
-                    loop_state = f(*item)  # type: ignore
-                else:
-                    loop_state = f(*item, **loop_state)  # type: ignore
+        f: Callable[[Unpack[Ts], SomeDict], SomeDict]
+    ) -> Callable[[SizedIterable[tuple[Unpack[Ts]]], SomeDict], None]:
+        import inspect
+
+        unpack = len(inspect.getfullargspec(f).args) > 1
+        INDENT = " " * 4
+        pref_code = f"def unrolled_{iterations}(f, iterable, loop_state):\n"
+        pref_code += INDENT + "iterator = iter(iterable)\n"
+        iter_code = INDENT + "item = next(iterator)\n"
+        return_type = get_return_type(f)
+        if unpack:
+            if return_type is NoneType:
+                iter_code += INDENT + "f(*item)\n"
+            else:
+                iter_code += INDENT + "loop_state = f(*item, **loop_state)\n"
+        else:
+            if return_type is NoneType:
+                iter_code += INDENT + "f(item)\n"
             else:
-                if loop_state is None:
-                    loop_state = f(item)  # type: ignore
-                else:
-                    loop_state = f(item, **loop_state)  # type: ignore
+                iter_code += INDENT + "loop_state = f(item, **loop_state)\n"
+        sufx_code = "\n"
+        namespace: dict[str, Any] = {}
+        full_code = pref_code + iter_code * iterations + sufx_code
+        exec_saving_source(full_code, namespace)
+        unrolled_loop = namespace[f"unrolled_{iterations}"]
+        memo[(iterations, unpack, return_type is not NoneType)] = unrolled_loop
+        return lambda iterable, loop_state: unrolled_loop(f, iterable, loop_state)
 
     return decorator
 

From f6c840bc61fb19a72fe83ad78b01d0e804bea570 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 15:31:14 +0200
Subject: [PATCH 487/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 29 +++++--------------
 .../pytorch/sequential/module/base.py         | 18 ++++++++++--
 2 files changed, 22 insertions(+), 25 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 2f8192cb3d..f56989cf7d 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-from typing import TypedDict
+from typing import Optional, TypedDict
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
@@ -197,9 +197,8 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
 
 
 class LoopState(TypedDict):
-    x_: torch.Tensor
-    nvte_x_: nvte.Tensor
-    next_upcoming_backward: BackwardComm | None
+    x: torch.Tensor
+    nvte_x: nvte.Tensor
 
 
 def make_loop(pipeline: ComputePipeline):
@@ -208,12 +207,11 @@ def compute_pipeline_function_wrapping_loop(
         i: int,
         contained_op: Op,
         loop_state: LoopState,
+        /,
+        *,
+        next_upcoming_backward: BackwardComm | None = None,
     ):
-        x_, nvte_x_, next_upcoming_backward = (
-            loop_state["x_"],
-            loop_state["nvte_x_"],
-            loop_state["next_upcoming_backward"],
-        )
+        x_, nvte_x_ = (loop_state["x"], loop_state["nvte_x"])
         op = contained_op
         upcoming_backward, next_upcoming_backward = (
             (None, BackwardComm())
@@ -252,19 +250,6 @@ def compute_pipeline_function_wrapping_loop(
     return compute_pipeline_function_wrapping_loop
 
 
-def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
-    nvte_x = nvte.make_nvte_tensor(x)
-    if not training:
-        y = pipeline.run_inference(nvte_x)
-        assert not nvte.is_fp8(y)
-        return y.data
-    else:
-        pipeline.next_iteration()
-        loop = make_loop(pipeline)
-        loop(enumerate(pipeline.functions), {"x_": x, "nvte_x_": nvte_x})
-        return x
-
-
 # The squish needs to be invertible and
 # always reduce the numel() of the tensor by the same
 # amount.
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 5a57ebd2c4..197187bb8b 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -1,12 +1,12 @@
 from __future__ import annotations
 from abc import ABC, abstractmethod
-from typing import Callable
 import torch
 from torch import nn
 from ..ops import Op
 from ..recipe import Recipe
 from ..compute_pipeline import ComputePipeline
-from ..compute_pipeline_function import apply
+from ..compute_pipeline_function import make_loop
+from ..utils import enumerate
 from .. import nvte
 
 
@@ -44,7 +44,18 @@ def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None)
 
     def _run(self, x: torch.Tensor):
         assert self.pipeline is not None
-        return apply(x, self.pipeline, self.training)
+        nvte_x = nvte.make_nvte_tensor(x)
+        if not self.training:
+            y = self.pipeline.run_inference(nvte_x)
+            assert not nvte.is_fp8(y)
+            return y.data
+        else:
+            self.pipeline.next_iteration()
+            self.loop(
+                enumerate(self.pipeline.functions),
+                {"x": x, "nvte_x": nvte_x},
+            )
+            return x
 
     @staticmethod
     def _create_seq_lens_tensor(x: torch.Tensor):
@@ -67,6 +78,7 @@ def _setup_pipeline(self, x: torch.Tensor, seq_lens: torch.Tensor):
                 [op for op in self._ops() if op is not None], env
             )
             self.compile_env = env
+            self.loop = make_loop(self.pipeline)
 
     def _current_env(self) -> Recipe:
         return Recipe.current()

From 304ed860bc545f416e73d3639592fd1f5512108c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 15:55:00 +0200
Subject: [PATCH 488/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py  | 12 +++++++-----
 transformer_engine/pytorch/sequential/module/base.py |  2 +-
 2 files changed, 8 insertions(+), 6 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index f56989cf7d..75d5ad3a0b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -199,6 +199,7 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
 class LoopState(TypedDict):
     x: torch.Tensor
     nvte_x: nvte.Tensor
+    next_upcoming_backward: BackwardComm | None
 
 
 def make_loop(pipeline: ComputePipeline):
@@ -207,11 +208,12 @@ def compute_pipeline_function_wrapping_loop(
         i: int,
         contained_op: Op,
         loop_state: LoopState,
-        /,
-        *,
-        next_upcoming_backward: BackwardComm | None = None,
-    ):
-        x_, nvte_x_ = (loop_state["x"], loop_state["nvte_x"])
+    ) -> LoopState:
+        x_, nvte_x_, next_upcoming_backward = (
+            loop_state["x"],
+            loop_state["nvte_x"],
+            loop_state["next_upcoming_backward"],
+        )
         op = contained_op
         upcoming_backward, next_upcoming_backward = (
             (None, BackwardComm())
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 197187bb8b..bd2de1f373 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -53,7 +53,7 @@ def _run(self, x: torch.Tensor):
             self.pipeline.next_iteration()
             self.loop(
                 enumerate(self.pipeline.functions),
-                {"x": x, "nvte_x": nvte_x},
+                {"x": x, "nvte_x": nvte_x, "next_upcoming_backward": None},
             )
             return x
 

From d6d23df6b145b6e66b643fa054a152f4bf96f6e0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 15:56:51 +0200
Subject: [PATCH 489/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 6288650864..26e6d01cdd 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -197,7 +197,7 @@ def unrolled_for(
     iterations: int,
 ) -> Callable[
     [Callable[[Unpack[Ts], SomeDict], SomeDict]],
-    Callable[[SizedIterable[tuple[Unpack[Ts]]], SomeDict], None],
+    Callable[[Iterable[tuple[Unpack[Ts]]], SomeDict], None],
 ]:
     if not hasattr(unrolled_for, "memo"):
         setattr(unrolled_for, "memo", {})
@@ -207,7 +207,7 @@ def unrolled_for(
 
     def decorator(
         f: Callable[[Unpack[Ts], SomeDict], SomeDict]
-    ) -> Callable[[SizedIterable[tuple[Unpack[Ts]]], SomeDict], None]:
+    ) -> Callable[[Iterable[tuple[Unpack[Ts]]], SomeDict], None]:
         import inspect
 
         unpack = len(inspect.getfullargspec(f).args) > 1

From d0b06799097bb2246ecce5ca84086fce057e9897 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 15:58:04 +0200
Subject: [PATCH 490/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py             | 2 +-
 transformer_engine/pytorch/sequential/module/base.py            | 1 -
 2 files changed, 1 insertion(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 75d5ad3a0b..e5afe97522 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -7,7 +7,7 @@
 from . import nvte
 from .ops import Context, Op
 from .compute_pipeline import ComputePipeline
-from .utils import unrolled_for, enumerate
+from .utils import unrolled_for
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index bd2de1f373..0fd7fda329 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -6,7 +6,6 @@
 from ..recipe import Recipe
 from ..compute_pipeline import ComputePipeline
 from ..compute_pipeline_function import make_loop
-from ..utils import enumerate
 from .. import nvte
 
 

From 286dc8416b5d868e36860a3dec50ec27c70f6809 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 16:03:12 +0200
Subject: [PATCH 491/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 26e6d01cdd..d7044fe415 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -220,12 +220,12 @@ def decorator(
             if return_type is NoneType:
                 iter_code += INDENT + "f(*item)\n"
             else:
-                iter_code += INDENT + "loop_state = f(*item, **loop_state)\n"
+                iter_code += INDENT + "loop_state = f(*item, loop_state)\n"
         else:
             if return_type is NoneType:
                 iter_code += INDENT + "f(item)\n"
             else:
-                iter_code += INDENT + "loop_state = f(item, **loop_state)\n"
+                iter_code += INDENT + "loop_state = f(item, loop_state)\n"
         sufx_code = "\n"
         namespace: dict[str, Any] = {}
         full_code = pref_code + iter_code * iterations + sufx_code

From a4abd4a4ea977ba641d46b5f9c73cc2782d07317 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Wed, 30 Aug 2023 16:05:33 +0200
Subject: [PATCH 492/535] format

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index d7044fe415..062609cf69 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -212,7 +212,7 @@ def decorator(
 
         unpack = len(inspect.getfullargspec(f).args) > 1
         INDENT = " " * 4
-        pref_code = f"def unrolled_{iterations}(f, iterable, loop_state):\n"
+        pref_code = f"\ndef unrolled_{iterations}(f, iterable, loop_state):\n"
         pref_code += INDENT + "iterator = iter(iterable)\n"
         iter_code = INDENT + "item = next(iterator)\n"
         return_type = get_return_type(f)
@@ -226,7 +226,7 @@ def decorator(
                 iter_code += INDENT + "f(item)\n"
             else:
                 iter_code += INDENT + "loop_state = f(item, loop_state)\n"
-        sufx_code = "\n"
+        sufx_code = ""
         namespace: dict[str, Any] = {}
         full_code = pref_code + iter_code * iterations + sufx_code
         exec_saving_source(full_code, namespace)

From 613bb214b0a6c7bcb1e21ab5d8c32067e9ce0c6c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 14:31:24 +0200
Subject: [PATCH 493/535] try fix using macro

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 219 +++++++++---------
 .../pytorch/sequential/exec_saving_source.py  |   4 +-
 .../pytorch/sequential/module/base.py         |   5 +-
 .../pytorch/sequential/utils.py               | 115 ++++++++-
 4 files changed, 223 insertions(+), 120 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index e5afe97522..429d1d9997 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,13 +1,13 @@
 from __future__ import annotations
-from typing import Optional, TypedDict
+from typing import TypedDict
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
 from .persistent import Persistent
 from . import nvte
 from .ops import Context, Op
-from .compute_pipeline import ComputePipeline
-from .utils import unrolled_for
+from .compute_pipeline import ComputePipeline, SelfContainedOp
+from .utils import macro, MacroVar
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
@@ -52,24 +52,84 @@ def get_nvte_y(
     return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
 
 
-class ComputePipelineFunction(autograd.Function):
+PIPELINE = MacroVar("PIPELINE", ComputePipeline)
+OP = MacroVar("OP", SelfContainedOp)
+UPCOMING_BACKWARD: BackwardComm | None = MacroVar("UPCOMING_BACKWARD", BackwardComm | None)  # type: ignore[assignment]
+NEXT_UPCOMING_BACKWARD = MacroVar("NEXT_UPCOMING_BACKWARD", BackwardComm)
+
+
+class Backward:
+    @staticmethod
+    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
+        # The context needs to think that the tensors were read
+        _ = ctx.saved_tensors  # type: ignore
+
+        # Get real context
+        saved: Context = getattr(ctx, "nvte_ctx")
+        op: Op = getattr(ctx, "nvte_op")
+        preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
+        upcoming_backward: BackwardComm | None = getattr(
+            ctx, "nvte_upcoming_backward_comm"
+        )
+
+        # Get real gradient
+        if preceding_backward.nvte_grad_output is None:
+            # This is the first backward in the compute pipeline
+
+            grad_output = grad_output.contiguous()  # TODO: try to avoid this
+
+            # Check if incoming gradient needs to be unsquished
+            unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
+            if unsquish_incoming_dgrad:
+                _unsquish(grad_output)
+            nvte_grad = nvte.make_nvte_tensor(grad_output)
+        else:
+            nvte_grad = preceding_backward.nvte_grad_output
+        del grad_output
+
+        meta_tensor_provider: Persistent[FP8Meta] = getattr(
+            ctx, "nvte_meta_tensor_provider_bwd"
+        )
+        nvte.set_execution_state("backward", meta_tensor_provider)
+        with torch.no_grad():
+            data_grad, param_grads = op.backward(saved, nvte_grad)
+
+        # Store real gradient for next backward in pipeline
+        if upcoming_backward is None:
+            # This is the last backward in the compute pipeline
+            assert not nvte.is_fp8(data_grad)
+        else:
+            upcoming_backward.nvte_grad_output = data_grad
+
+        # Check that gradients are not fp8 and can be processed by the optimizer
+        # TODO: change this when fp8 optimizer comes along
+        assert all(not nvte.is_fp8(g) for g in param_grads)
+
+        # Check if outgoing gradient needs to be squished
+        exposed_dgrad = data_grad.data
+        squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
+        if squish_outgoing_dgrad:
+            _squish(exposed_dgrad)
+
+        torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
+
+        return (*torch_grads, None, None, None)
+
+
+@macro(PIPELINE, OP, UPCOMING_BACKWARD, NEXT_UPCOMING_BACKWARD, textual=False)
+class ComputePipelineFunction(autograd.Function, Backward):
     @staticmethod
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
         *tensor_mess: torch.Tensor,
-        meta_tensor_provider_fwd: Persistent[FP8Meta],
-        meta_tensor_provider_bwd: Persistent[FP8Meta],
-        op: Op,
-        upcoming_backward: BackwardComm | None,
-        next_upcoming_backward: BackwardComm,
     ) -> torch.Tensor:
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
-        nvte.set_execution_state("forward", meta_tensor_provider_fwd)
+        nvte.set_execution_state("forward", PIPELINE.meta_fwd)
         with torch.no_grad():
-            nvte_y, to_save = op.forward(nvte_x)
+            nvte_y, to_save = OP.forward(nvte_x)
 
         # Expose backward context for tracing
         bwd_ctx: list[torch.Tensor] = []
@@ -82,8 +142,8 @@ def forward(  # type: ignore[arg-type]
 
         # Save real context
         setattr(ctx, "nvte_ctx", to_save)
-        setattr(ctx, "nvte_op", op)
-        setattr(ctx, "nvte_meta_tensor_provider_bwd", meta_tensor_provider_bwd)
+        setattr(ctx, "nvte_op", OP)
+        setattr(ctx, "nvte_meta_tensor_provider_bwd", PIPELINE.meta_bwd)
 
         # Pytorch will break the computation graph
         # if it will see an output tensor of an integer type.
@@ -134,67 +194,11 @@ def forward(  # type: ignore[arg-type]
         # pass data to the next backward (the backward of the
         # preceding operation). This is needed to pass
         # fp8 gradients properly.
-        setattr(ctx, "nvte_upcoming_backward_comm", upcoming_backward)
-        setattr(ctx, "nvte_preceding_backward_comm", next_upcoming_backward)
+        setattr(ctx, "nvte_upcoming_backward_comm", UPCOMING_BACKWARD)
+        setattr(ctx, "nvte_preceding_backward_comm", NEXT_UPCOMING_BACKWARD)
 
         return exposed_y
 
-    @staticmethod
-    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
-        # The context needs to think that the tensors were read
-        _ = ctx.saved_tensors  # type: ignore
-
-        # Get real context
-        saved: Context = getattr(ctx, "nvte_ctx")
-        op: Op = getattr(ctx, "nvte_op")
-        preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
-        upcoming_backward: BackwardComm | None = getattr(
-            ctx, "nvte_upcoming_backward_comm"
-        )
-
-        # Get real gradient
-        if preceding_backward.nvte_grad_output is None:
-            # This is the first backward in the compute pipeline
-
-            grad_output = grad_output.contiguous()  # TODO: try to avoid this
-
-            # Check if incoming gradient needs to be unsquished
-            unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
-            if unsquish_incoming_dgrad:
-                _unsquish(grad_output)
-            nvte_grad = nvte.make_nvte_tensor(grad_output)
-        else:
-            nvte_grad = preceding_backward.nvte_grad_output
-        del grad_output
-
-        meta_tensor_provider: Persistent[FP8Meta] = getattr(
-            ctx, "nvte_meta_tensor_provider_bwd"
-        )
-        nvte.set_execution_state("backward", meta_tensor_provider)
-        with torch.no_grad():
-            data_grad, param_grads = op.backward(saved, nvte_grad)
-
-        # Store real gradient for next backward in pipeline
-        if upcoming_backward is None:
-            # This is the last backward in the compute pipeline
-            assert not nvte.is_fp8(data_grad)
-        else:
-            upcoming_backward.nvte_grad_output = data_grad
-
-        # Check that gradients are not fp8 and can be processed by the optimizer
-        # TODO: change this when fp8 optimizer comes along
-        assert all(not nvte.is_fp8(g) for g in param_grads)
-
-        # Check if outgoing gradient needs to be squished
-        exposed_dgrad = data_grad.data
-        squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
-        if squish_outgoing_dgrad:
-            _squish(exposed_dgrad)
-
-        torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
-
-        return (*torch_grads, None, None, None)
-
 
 class LoopState(TypedDict):
     x: torch.Tensor
@@ -203,53 +207,46 @@ class LoopState(TypedDict):
 
 
 def make_loop(pipeline: ComputePipeline):
-    @unrolled_for(len(pipeline.functions))
-    def compute_pipeline_function_wrapping_loop(
-        i: int,
-        contained_op: Op,
-        loop_state: LoopState,
-    ) -> LoopState:
-        x_, nvte_x_, next_upcoming_backward = (
-            loop_state["x"],
-            loop_state["nvte_x"],
-            loop_state["next_upcoming_backward"],
-        )
-        op = contained_op
+    upcoming_backward = None
+    next_upcoming_backward = BackwardComm()
+    ag_fs: list[type[autograd.Function]] = []
+    for i, op in enumerate(pipeline.functions):
         upcoming_backward, next_upcoming_backward = (
             (None, BackwardComm())
             if i == 0
             else (next_upcoming_backward, BackwardComm())
         )
-        nvte_tensors = contained_op.require_grad()
-        exposed_tensors: list[torch.Tensor] = []
-        for nvte_tensor in nvte_tensors:
-            assert not nvte.is_fp8(
-                nvte_tensor
-            )  # TODO: change when fp8 optimizer comes along
-            exposed_tensors.append(nvte_tensor.data)
-        x_ = ComputePipelineFunction.apply(  # type: ignore
-            x_,
-            *exposed_tensors,
-            *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
-            upcoming_backward=upcoming_backward,
-            next_upcoming_backward=next_upcoming_backward,
-            op=op,
-            meta_tensor_provider_fwd=pipeline.meta_fwd,
-            meta_tensor_provider_bwd=pipeline.meta_bwd,
-        )
-        assert isinstance(x_, torch.Tensor)
-        with torch.no_grad():
-            (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(x_)
-            nvte_x_ = nvte.Tensor(
-                nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv
+        ag_fs.append(
+            ComputePipelineFunction(
+                pipeline, op, upcoming_backward, next_upcoming_backward
             )
-        return {
-            "x": x_,
-            "nvte_x": nvte_x_,
-            "next_upcoming_backward": next_upcoming_backward,
-        }
+        )
 
-    return compute_pipeline_function_wrapping_loop
+    def loop(x_: torch.Tensor, nvte_x_: nvte.Tensor):
+        for op, autograd_func in zip(pipeline.functions, ag_fs):
+            nvte_tensors = op.require_grad()
+            exposed_tensors: list[torch.Tensor] = []
+            for nvte_tensor in nvte_tensors:
+                assert not nvte.is_fp8(
+                    nvte_tensor
+                )  # TODO: change when fp8 optimizer comes along
+                exposed_tensors.append(nvte_tensor.data)
+
+            x_ = autograd_func.apply(  # type: ignore
+                x_,
+                *exposed_tensors,
+                *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
+            )
+            assert isinstance(x_, torch.Tensor)
+            with torch.no_grad():
+                (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(
+                    x_
+                )
+                nvte_x_ = nvte.Tensor(
+                    nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv
+                )
+
+    return loop
 
 
 # The squish needs to be invertible and
diff --git a/transformer_engine/pytorch/sequential/exec_saving_source.py b/transformer_engine/pytorch/sequential/exec_saving_source.py
index 7c56b56c48..9b6742edbf 100644
--- a/transformer_engine/pytorch/sequential/exec_saving_source.py
+++ b/transformer_engine/pytorch/sequential/exec_saving_source.py
@@ -22,8 +22,8 @@ def patched_getlines(filename: str, module_globals: Any = None):
         linecache.getlines = patched_getlines
         setattr(exec_saving_source, "sources", sources)
     sources: list[str] = getattr(exec_saving_source, "sources")
+    sources.append(source)
     exec(
-        compile(ast.parse(source), filename=f"<exec#{len(sources)}>", mode="exec"),
+        compile(ast.parse(source), filename=f"<exec#{len(sources) - 1}>", mode="exec"),
         globals,
     )
-    sources.append(source)
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 0fd7fda329..33fa6a3b38 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -50,10 +50,7 @@ def _run(self, x: torch.Tensor):
             return y.data
         else:
             self.pipeline.next_iteration()
-            self.loop(
-                enumerate(self.pipeline.functions),
-                {"x": x, "nvte_x": nvte_x, "next_upcoming_backward": None},
-            )
+            self.loop(x, nvte_x)
             return x
 
     @staticmethod
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 062609cf69..a12abcf5f9 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -1,12 +1,15 @@
 from __future__ import annotations
+import ast
 from typing import (
     Any,
     Callable,
     Generic,
     Generator,
     Literal,
+    LiteralString,
     Mapping,
     Protocol,
+    Sequence,
     Sized,
     TypeVar,
     overload,
@@ -23,6 +26,7 @@
 CT = TypeVar("CT", covariant=True)
 ExcT = TypeVar("ExcT")
 SomeDict = TypeVar("SomeDict", bound=Mapping[Any, Any], covariant=True)
+LitStr = TypeVar("LitStr", bound=LiteralString, covariant=True)
 
 
 class _Context(Generic[PS, T]):
@@ -237,9 +241,112 @@ def decorator(
     return decorator
 
 
-class Decorator(Protocol[Unpack[Ts], T]):
-    def __call__(self, f: Callable[[Unpack[Ts]], T]) -> Callable[[Unpack[Ts]], T]:
-        ...
+class MacroVar(Generic[T]):
+    def __new__(cls, name: str, type_: type[T] = object) -> T:
+        return (name, type_)  # type: ignore
+
+
+class _MacroTransformer(ast.NodeTransformer):
+    def __init__(self, names: Sequence[str], values: Sequence[Any]) -> None:
+        if not len(names) == len(values):
+            raise ValueError(f"Length mismatch: {len(names)} != {len(values)}")
+        for name in names:
+            if not name.isidentifier():
+                raise ValueError(f"Invalid identifier: {name}")
+            if not names.count(name) == 1:
+                raise ValueError(f"Duplicate identifier: {name}")
+        for value in values:
+            try:
+                constant = ast.Constant(value=value)
+                source = ast.unparse(constant)
+                reconstructed = ast.literal_eval(source)
+                if not reconstructed == value:
+                    raise ValueError(
+                        f"Cannot reconstruct value after serialization: {value}"
+                    )
+            except Exception as e:
+                raise ValueError(f"Cannot serialize value: {value}") from e
+        self.names = names
+        self.values = values
+
+    def visit_Name(self, node: ast.Name):
+        if node.id in self.names:
+            idx = self.names.index(node.id)
+            value = self.values[idx]
+            return ast.Constant(value=value)
+        else:
+            return node
+
+
+def macro(
+    *substitutions: Unpack[Ts], textual: bool = True
+) -> Callable[[T], Callable[[Unpack[Ts]], T]]:
+    names: list[str] = [name for name, _ in substitutions]  # type: ignore
+    for name in names:
+        assert name.isidentifier()
+        assert names.count(name) == 1
+
+    if textual:
+
+        def textual_decorator(definition: T) -> Callable[[Unpack[Ts]], T]:
+            import inspect
+            import ast
+
+            try:
+                source = inspect.getsource(definition)  # type: ignore
+                # Source includes the decorator, remove it
+                source = source[source.find("\n") + 1 :].strip()
+                ast_tree = ast.parse(source)
+            except OSError:
+                raise ValueError("Cannot get source code of definition")
+
+            def macro_impl(*values: Unpack[Ts]) -> T:
+                _MacroTransformer(names, values).visit(ast_tree)
+                ast.fix_missing_locations(ast_tree)
+                source = ast.unparse(ast_tree)
+                if hasattr(definition, "__globals__"):
+                    assert isinstance(definition.__globals__, dict)  # type: ignore
+                    globals_: dict[str, Any] = {}
+                    for key, value in definition.__globals__.items():  # type: ignore
+                        globals_[key] = value  # type: ignore
+                    del globals_[definition.__name__]  # type: ignore
+                else:
+                    globals_: dict[str, Any] = {}
+                exec_saving_source(source, globals_)
+                return globals_[definition.__name__]  # type: ignore
+
+            return macro_impl
+
+        return textual_decorator
+    else:
+
+        def injection_decorator(definition: T) -> Callable[[Unpack[Ts]], T]:
+            import inspect
+
+            try:
+                source = inspect.getsource(definition)  # type: ignore
+                # Source includes the decorator, remove it
+                source = source[source.find("\n") + 1 :].strip()
+            except OSError:
+                raise ValueError("Cannot get source code of definition")
+
+            def macro_impl(*values: Unpack[Ts]) -> T:
+                if hasattr(definition, "__globals__"):
+                    assert isinstance(definition.__globals__, dict)  # type: ignore
+                    globals_: dict[str, Any] = {}
+                    for key, value in definition.__globals__.items():  # type: ignore
+                        globals_[key] = value  # type: ignore
+                    del globals_[definition.__name__]  # type: ignore
+                else:
+                    globals_: dict[str, Any] = {}
+                for name, value in zip(names, values):
+                    globals_[name] = value
+                exec_saving_source(source, globals_)
+                return globals_[definition.__name__]  # type: ignore
+
+            return macro_impl
+
+        return injection_decorator
 
 
 @overload
@@ -269,4 +376,6 @@ def is_generic(t: type | GenericAlias):
     "get_arg_names",
     "get_arg_types",
     "get_return_type",
+    "macro",
+    "MacroVar",
 ]

From 43905fef1f755fa702dd5320514ebc4166bc7ef3 Mon Sep 17 00:00:00 2001
From: Ming-Xu Huang <mingh@nvidia.com>
Date: Thu, 31 Aug 2023 05:36:06 +0800
Subject: [PATCH 494/535] [JAX] Fix incorrect sharding when only enable FSDP
 and Mem Misaligned in LN_BWD. (#379)

* [JAX] Fix incorrect sharding when only enable FSDP.

Signed-off-by: Ming Huang <mingh@nvidia.com>

* [JAX] Add WAR to memory misaligned issues of LN BWD.

Signed-off-by: Ming Huang <mingh@nvidia.com>

* [JAX] Reuse sm_arch for avoiding duplicate code.

Signed-off-by: Ming Huang <mingh@nvidia.com>

* [JAX] Support multiple sizes allocation in WorkspaceManager.

Signed-off-by: Ming Huang <mingh@nvidia.com>

* [JAX] Use template and ariadic arguments to improve multple sizes allocator.

Signed-off-by: Ming Huang <mingh@nvidia.com>

---------

Signed-off-by: Ming Huang <mingh@nvidia.com>
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/common/util/cuda_runtime.h |  1 +
 transformer_engine/jax/csrc/modules.cpp       | 20 +++++-------
 transformer_engine/jax/csrc/utils.cu          | 16 ++--------
 transformer_engine/jax/csrc/utils.h           | 31 ++++++++++++++++---
 transformer_engine/jax/sharding.py            | 11 ++++---
 5 files changed, 44 insertions(+), 35 deletions(-)

diff --git a/transformer_engine/common/util/cuda_runtime.h b/transformer_engine/common/util/cuda_runtime.h
index e722dcb0f0..d2d7b130bd 100644
--- a/transformer_engine/common/util/cuda_runtime.h
+++ b/transformer_engine/common/util/cuda_runtime.h
@@ -8,6 +8,7 @@
 #define TRANSFORMER_ENGINE_COMMON_UTIL_CUDA_RUNTIME_H_
 
 #include <cuda_runtime_api.h>
+#include <string>
 
 namespace transformer_engine {
 
diff --git a/transformer_engine/jax/csrc/modules.cpp b/transformer_engine/jax/csrc/modules.cpp
index 0c4ed8d52f..db5668db3e 100644
--- a/transformer_engine/jax/csrc/modules.cpp
+++ b/transformer_engine/jax/csrc/modules.cpp
@@ -273,7 +273,7 @@ void Gemm(cudaStream_t stream, void **buffers, const char *opaque, size_t opaque
     auto null_tensor = TensorWrapper(nullptr, std::vector<size_t>{0}, DType::kFloat32);
 
     size_t workspace_size = kCublasLtForwardWorkspaceSize;
-    auto *workspace = cublasLtMetaManager::Instance().GetWorkspace(workspace_size);
+    auto *workspace = WorkspaceManager::Instance().GetWorkspace(workspace_size);
     auto wk_tensor = TensorWrapper(workspace, std::vector<size_t>{workspace_size}, DType::kByte);
 
     nvte_cublas_gemm(A_tensor.data(), B_tensor.data(), D_tensor.data(), null_tensor.data(),
@@ -327,7 +327,7 @@ void LayerNormForwardImpl(size_t n, size_t hidden, bool zero_centered_gamma, flo
         dummy_workspace_tensor.shape().data[0] * typeToSize(dummy_workspace_tensor.dtype()) +
         dummy_barrier_tensor.shape().data[0] * typeToSize(dummy_barrier_tensor.dtype());
 
-    void *workspace = cublasLtMetaManager::Instance().GetWorkspace(workspace_size);
+    void *workspace = WorkspaceManager::Instance().GetWorkspace(workspace_size);
 
     auto workspace_tensor =
         TensorWrapper(workspace, dummy_workspace_tensor.shape(), dummy_workspace_tensor.dtype());
@@ -412,13 +412,9 @@ void LayerNormBackwardImpl(size_t n, size_t hidden, bool zero_centered_gamma, fl
     size_t dgamma_part_size = dummy_dgamma_part_tensor.shape().data[0] *
                               dummy_dgamma_part_tensor.shape().data[1] *
                               typeToSize(dummy_dgamma_part_tensor.dtype());
-    size_t total_workspace_size =
-        (workspace_size + barrier_size + dgamma_part_size + dbeta_part_size);
 
-    void *workspace = cublasLtMetaManager::Instance().GetWorkspace(total_workspace_size);
-    void *barrier = static_cast<char *>(workspace) + workspace_size;
-    void *dgamma_part = static_cast<char *>(barrier) + barrier_size;
-    void *dbeta_part = static_cast<char *>(dgamma_part) + dgamma_part_size;
+    auto [workspace, dgamma_part, dbeta_part, barrier] = WorkspaceManager::Instance().GetWorkspace(
+        workspace_size, dgamma_part_size, dbeta_part_size, barrier_size);
 
     auto workspace_tensor =
         TensorWrapper(workspace, dummy_workspace_tensor.shape(), dummy_workspace_tensor.dtype());
@@ -811,7 +807,7 @@ void SelfFusedAttnForward(cudaStream_t stream, void **buffers, const char *opaqu
     output_s->data.dptr = softmax_aux;
 
     auto workspace_size = query_workspace_tensor.shape().data[0];
-    auto *workspace = cublasLtMetaManager::Instance().GetWorkspace(workspace_size);
+    auto *workspace = WorkspaceManager::Instance().GetWorkspace(workspace_size);
     auto workspace_tensor =
         TensorWrapper(workspace, query_workspace_tensor.shape(), query_workspace_tensor.dtype());
 
@@ -894,7 +890,7 @@ void SelfFusedAttnBackward(cudaStream_t stream, void **buffers, const char *opaq
                                   query_workspace_tensor.data(), stream);
 
     size_t workspace_size = query_workspace_tensor.shape().data[0];
-    auto *workspace = cublasLtMetaManager::Instance().GetWorkspace(workspace_size);
+    auto *workspace = WorkspaceManager::Instance().GetWorkspace(workspace_size);
     auto workspace_tensor =
         TensorWrapper(workspace, query_workspace_tensor.shape(), query_workspace_tensor.dtype());
 
@@ -978,7 +974,7 @@ void CrossFusedAttnForward(cudaStream_t stream, void **buffers, const char *opaq
         query_workspace_tensor.shape().data[0] * typeToSize(query_workspace_tensor.dtype());
     auto rng_workspace_size = 2 * sizeof(int64_t);
     auto total_workspace_size = plan_workspace_size + rng_workspace_size;
-    auto *workspace = cublasLtMetaManager::Instance().GetWorkspace(total_workspace_size);
+    auto *workspace = WorkspaceManager::Instance().GetWorkspace(total_workspace_size);
     auto workspace_tensor =
         TensorWrapper(workspace, query_workspace_tensor.shape(), query_workspace_tensor.dtype());
 
@@ -1074,7 +1070,7 @@ void CrossFusedAttnBackward(cudaStream_t stream, void **buffers, const char *opa
 
     size_t workspace_size =
         query_workspace_tensor.shape().data[0] * typeToSize(query_workspace_tensor.dtype());
-    auto *workspace = cublasLtMetaManager::Instance().GetWorkspace(workspace_size);
+    auto *workspace = WorkspaceManager::Instance().GetWorkspace(workspace_size);
 
     auto workspace_tensor =
         TensorWrapper(workspace, query_workspace_tensor.shape(), query_workspace_tensor.dtype());
diff --git a/transformer_engine/jax/csrc/utils.cu b/transformer_engine/jax/csrc/utils.cu
index 027706abec..fa20547042 100644
--- a/transformer_engine/jax/csrc/utils.cu
+++ b/transformer_engine/jax/csrc/utils.cu
@@ -6,6 +6,7 @@
 #include <cuda_runtime_api.h>
 #include <cassert>
 
+#include "common/util/cuda_runtime.h"
 #include "utils.h"
 
 namespace transformer_engine {
@@ -17,20 +18,7 @@ int GetCudaRuntimeVersion() {
     return ver;
 }
 
-int GetDeviceComputeCapability(int gpu_id) {
-    int max_num_gpu = 0;
-    NVTE_CHECK_CUDA(cudaGetDeviceCount(&max_num_gpu));
-    assert(gpu_id < max_num_gpu);
-
-    int major = 0;
-    NVTE_CHECK_CUDA(cudaDeviceGetAttribute(&major, cudaDevAttrComputeCapabilityMajor, gpu_id));
-
-    int minor = 0;
-    NVTE_CHECK_CUDA(cudaDeviceGetAttribute(&minor, cudaDevAttrComputeCapabilityMinor, gpu_id));
-
-    int gpu_arch = major * 10 + minor;
-    return gpu_arch;
-}
+int GetDeviceComputeCapability(int gpu_id) { return transformer_engine::cuda::sm_arch(gpu_id); }
 
 __global__ void populate_rng_state_kernel(int64_t *rng_state_dst, const int64_t *const seed,
                                           int64_t offset) {
diff --git a/transformer_engine/jax/csrc/utils.h b/transformer_engine/jax/csrc/utils.h
index 0ecd765b28..6c975af2c1 100644
--- a/transformer_engine/jax/csrc/utils.h
+++ b/transformer_engine/jax/csrc/utils.h
@@ -10,6 +10,7 @@
 #include <pybind11/pybind11.h>
 
 #include <cstdint>
+#include <numeric>
 #include <stdexcept>
 #include <string>
 #include <type_traits>
@@ -26,25 +27,44 @@ void PopulateRngStateAsync(void *rng_state_dst, const void *const seed, size_t q
                            size_t kv_max_seqlen, NVTE_Fused_Attn_Backend backend,
                            cudaStream_t stream);
 
-class cublasLtMetaManager {
+class WorkspaceManager {
  public:
-    static cublasLtMetaManager &Instance() {
-        static thread_local cublasLtMetaManager instance;
+    static WorkspaceManager &Instance() {
+        static thread_local WorkspaceManager instance;
         return instance;
     }
 
-    cublasLtMetaManager() {}
-    ~cublasLtMetaManager() { Clear_(); }
+    WorkspaceManager() {}
+    ~WorkspaceManager() { Clear_(); }
 
     void *GetWorkspace(size_t size = 4194304) {
         ReallocateIfNeed_(size);
         return workspace_;
     }
 
+    template <typename... Args>
+    inline auto GetWorkspace(Args... args) {
+        auto asks = std::array<size_t, sizeof...(Args)>{args...};
+        std::array<size_t, sizeof...(Args) + 1> offsets = {0};
+        std::array<void *, sizeof...(Args)> workspaces = {nullptr};
+        std::transform_inclusive_scan(
+            asks.cbegin(), asks.cend(), offsets.begin() + 1, std::plus<size_t>{},
+            [=](auto x) { return PadSize_(x); }, 0);
+        auto *workspace = GetWorkspace(offsets.back());
+        std::transform(offsets.cbegin(), offsets.cend() - 1, workspaces.begin(),
+                       [workspace](auto x) { return static_cast<char *>(workspace) + x; });
+        return workspaces;
+    }
+
  private:
     void *workspace_ = nullptr;
     size_t size_ = 0;
 
+    size_t PadSize_(size_t size) {
+        constexpr size_t alignment = 128;
+        return ((size + alignment - 1) / alignment) * alignment;
+    }
+
     void Clear_() {
         if (workspace_ != nullptr) {
             NVTE_CHECK_CUDA(cudaFree(workspace_));
@@ -54,6 +74,7 @@ class cublasLtMetaManager {
     }
 
     void Allocate_(size_t new_size) {
+        new_size = PadSize_(new_size);
         NVTE_CHECK_CUDA(cudaMalloc(&workspace_, new_size));
         size_ = new_size;
     }
diff --git a/transformer_engine/jax/sharding.py b/transformer_engine/jax/sharding.py
index 6e13b93339..a60e2f57ff 100644
--- a/transformer_engine/jax/sharding.py
+++ b/transformer_engine/jax/sharding.py
@@ -138,7 +138,7 @@ def infer_major_sharding_type() -> MajorShardingType:
     """
     gsr = global_shard_resource()
 
-    resources = [gsr.dp_resource, gsr.tp_resource]
+    resources = [gsr.dp_resource, gsr.tp_resource, gsr.fsdp_resource]
     for idx, rs in enumerate(resources):
         try:
             size, _ = _get_mesh_info(rs)
@@ -149,12 +149,15 @@ def infer_major_sharding_type() -> MajorShardingType:
 
     dp_resource = resources[0]
     tp_resource = resources[1]
+    fsdp_resource = resources[2]
 
-    if dp_resource is not None and \
-        tp_resource is not None :
+    def dp_enabled():
+        return (fsdp_resource is not None) or (dp_resource is not None)
+
+    if dp_enabled() and tp_resource is not None:
         return MajorShardingType.DPTP
 
-    if dp_resource is not None:
+    if dp_enabled():
         return MajorShardingType.DP
 
     if tp_resource is not None:

From d61ad56b336c97cd9760c47c16d78a8b24c1bb5f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 14:37:22 +0200
Subject: [PATCH 495/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/utils.py | 2 --
 1 file changed, 2 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index a12abcf5f9..3e8e779b6f 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -6,7 +6,6 @@
     Generic,
     Generator,
     Literal,
-    LiteralString,
     Mapping,
     Protocol,
     Sequence,
@@ -26,7 +25,6 @@
 CT = TypeVar("CT", covariant=True)
 ExcT = TypeVar("ExcT")
 SomeDict = TypeVar("SomeDict", bound=Mapping[Any, Any], covariant=True)
-LitStr = TypeVar("LitStr", bound=LiteralString, covariant=True)
 
 
 class _Context(Generic[PS, T]):

From f4921e4721553a06adcd3d4f6842250f0cbe0f76 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 14:50:57 +0200
Subject: [PATCH 496/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/utils.py               | 36 +++++++++++--------
 1 file changed, 22 insertions(+), 14 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 3e8e779b6f..0404faa4b8 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -239,6 +239,20 @@ def decorator(
     return decorator
 
 
+def get_globals(o: object) -> dict[str, Any]:
+    try:
+        return o.__globals__  # type: ignore
+    except:
+        pass
+    try:
+        import sys
+
+        return sys.modules[o.__module__].__dict__
+    except:
+        pass
+    raise ValueError(f"Cannot get globals for {o}")
+
+
 class MacroVar(Generic[T]):
     def __new__(cls, name: str, type_: type[T] = object) -> T:
         return (name, type_)  # type: ignore
@@ -302,14 +316,11 @@ def macro_impl(*values: Unpack[Ts]) -> T:
                 _MacroTransformer(names, values).visit(ast_tree)
                 ast.fix_missing_locations(ast_tree)
                 source = ast.unparse(ast_tree)
-                if hasattr(definition, "__globals__"):
-                    assert isinstance(definition.__globals__, dict)  # type: ignore
-                    globals_: dict[str, Any] = {}
-                    for key, value in definition.__globals__.items():  # type: ignore
-                        globals_[key] = value  # type: ignore
+                try:
+                    globals_ = get_globals(definition).copy()
                     del globals_[definition.__name__]  # type: ignore
-                else:
-                    globals_: dict[str, Any] = {}
+                except:
+                    globals_ = {}
                 exec_saving_source(source, globals_)
                 return globals_[definition.__name__]  # type: ignore
 
@@ -329,14 +340,11 @@ def injection_decorator(definition: T) -> Callable[[Unpack[Ts]], T]:
                 raise ValueError("Cannot get source code of definition")
 
             def macro_impl(*values: Unpack[Ts]) -> T:
-                if hasattr(definition, "__globals__"):
-                    assert isinstance(definition.__globals__, dict)  # type: ignore
-                    globals_: dict[str, Any] = {}
-                    for key, value in definition.__globals__.items():  # type: ignore
-                        globals_[key] = value  # type: ignore
+                try:
+                    globals_ = get_globals(definition).copy()
                     del globals_[definition.__name__]  # type: ignore
-                else:
-                    globals_: dict[str, Any] = {}
+                except:
+                    globals_ = {}
                 for name, value in zip(names, values):
                     globals_[name] = value
                 exec_saving_source(source, globals_)

From 1e873410b6283ee3450c732030236b6011320acd Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 14:52:27 +0200
Subject: [PATCH 497/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 116 +++++++++---------
 1 file changed, 57 insertions(+), 59 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 429d1d9997..f04063620c 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -58,66 +58,8 @@ def get_nvte_y(
 NEXT_UPCOMING_BACKWARD = MacroVar("NEXT_UPCOMING_BACKWARD", BackwardComm)
 
 
-class Backward:
-    @staticmethod
-    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
-        # The context needs to think that the tensors were read
-        _ = ctx.saved_tensors  # type: ignore
-
-        # Get real context
-        saved: Context = getattr(ctx, "nvte_ctx")
-        op: Op = getattr(ctx, "nvte_op")
-        preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
-        upcoming_backward: BackwardComm | None = getattr(
-            ctx, "nvte_upcoming_backward_comm"
-        )
-
-        # Get real gradient
-        if preceding_backward.nvte_grad_output is None:
-            # This is the first backward in the compute pipeline
-
-            grad_output = grad_output.contiguous()  # TODO: try to avoid this
-
-            # Check if incoming gradient needs to be unsquished
-            unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
-            if unsquish_incoming_dgrad:
-                _unsquish(grad_output)
-            nvte_grad = nvte.make_nvte_tensor(grad_output)
-        else:
-            nvte_grad = preceding_backward.nvte_grad_output
-        del grad_output
-
-        meta_tensor_provider: Persistent[FP8Meta] = getattr(
-            ctx, "nvte_meta_tensor_provider_bwd"
-        )
-        nvte.set_execution_state("backward", meta_tensor_provider)
-        with torch.no_grad():
-            data_grad, param_grads = op.backward(saved, nvte_grad)
-
-        # Store real gradient for next backward in pipeline
-        if upcoming_backward is None:
-            # This is the last backward in the compute pipeline
-            assert not nvte.is_fp8(data_grad)
-        else:
-            upcoming_backward.nvte_grad_output = data_grad
-
-        # Check that gradients are not fp8 and can be processed by the optimizer
-        # TODO: change this when fp8 optimizer comes along
-        assert all(not nvte.is_fp8(g) for g in param_grads)
-
-        # Check if outgoing gradient needs to be squished
-        exposed_dgrad = data_grad.data
-        squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
-        if squish_outgoing_dgrad:
-            _squish(exposed_dgrad)
-
-        torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
-
-        return (*torch_grads, None, None, None)
-
-
 @macro(PIPELINE, OP, UPCOMING_BACKWARD, NEXT_UPCOMING_BACKWARD, textual=False)
-class ComputePipelineFunction(autograd.Function, Backward):
+class ComputePipelineFunction(autograd.Function):
     @staticmethod
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
@@ -199,6 +141,62 @@ def forward(  # type: ignore[arg-type]
 
         return exposed_y
 
+    @staticmethod
+    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
+        # The context needs to think that the tensors were read
+        _ = ctx.saved_tensors  # type: ignore
+
+        # Get real context
+        saved: Context = getattr(ctx, "nvte_ctx")
+        op: Op = getattr(ctx, "nvte_op")
+        preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
+        upcoming_backward: BackwardComm | None = getattr(
+            ctx, "nvte_upcoming_backward_comm"
+        )
+
+        # Get real gradient
+        if preceding_backward.nvte_grad_output is None:
+            # This is the first backward in the compute pipeline
+
+            grad_output = grad_output.contiguous()  # TODO: try to avoid this
+
+            # Check if incoming gradient needs to be unsquished
+            unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
+            if unsquish_incoming_dgrad:
+                _unsquish(grad_output)
+            nvte_grad = nvte.make_nvte_tensor(grad_output)
+        else:
+            nvte_grad = preceding_backward.nvte_grad_output
+        del grad_output
+
+        meta_tensor_provider: Persistent[FP8Meta] = getattr(
+            ctx, "nvte_meta_tensor_provider_bwd"
+        )
+        nvte.set_execution_state("backward", meta_tensor_provider)
+        with torch.no_grad():
+            data_grad, param_grads = op.backward(saved, nvte_grad)
+
+        # Store real gradient for next backward in pipeline
+        if upcoming_backward is None:
+            # This is the last backward in the compute pipeline
+            assert not nvte.is_fp8(data_grad)
+        else:
+            upcoming_backward.nvte_grad_output = data_grad
+
+        # Check that gradients are not fp8 and can be processed by the optimizer
+        # TODO: change this when fp8 optimizer comes along
+        assert all(not nvte.is_fp8(g) for g in param_grads)
+
+        # Check if outgoing gradient needs to be squished
+        exposed_dgrad = data_grad.data
+        squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
+        if squish_outgoing_dgrad:
+            _squish(exposed_dgrad)
+
+        torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
+
+        return (*torch_grads, None, None, None)
+
 
 class LoopState(TypedDict):
     x: torch.Tensor

From 76a76b22238ea6b14529fc3e8ab22955092ae86f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 14:53:02 +0200
Subject: [PATCH 498/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 116 +++++++++---------
 1 file changed, 59 insertions(+), 57 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index f04063620c..0737b6a525 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -58,8 +58,66 @@ def get_nvte_y(
 NEXT_UPCOMING_BACKWARD = MacroVar("NEXT_UPCOMING_BACKWARD", BackwardComm)
 
 
+class Backward:
+    @staticmethod
+    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
+        # The context needs to think that the tensors were read
+        _ = ctx.saved_tensors  # type: ignore
+
+        # Get real context
+        saved: Context = getattr(ctx, "nvte_ctx")
+        op: Op = getattr(ctx, "nvte_op")
+        preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
+        upcoming_backward: BackwardComm | None = getattr(
+            ctx, "nvte_upcoming_backward_comm"
+        )
+
+        # Get real gradient
+        if preceding_backward.nvte_grad_output is None:
+            # This is the first backward in the compute pipeline
+
+            grad_output = grad_output.contiguous()  # TODO: try to avoid this
+
+            # Check if incoming gradient needs to be unsquished
+            unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
+            if unsquish_incoming_dgrad:
+                _unsquish(grad_output)
+            nvte_grad = nvte.make_nvte_tensor(grad_output)
+        else:
+            nvte_grad = preceding_backward.nvte_grad_output
+        del grad_output
+
+        meta_tensor_provider: Persistent[FP8Meta] = getattr(
+            ctx, "nvte_meta_tensor_provider_bwd"
+        )
+        nvte.set_execution_state("backward", meta_tensor_provider)
+        with torch.no_grad():
+            data_grad, param_grads = op.backward(saved, nvte_grad)
+
+        # Store real gradient for next backward in pipeline
+        if upcoming_backward is None:
+            # This is the last backward in the compute pipeline
+            assert not nvte.is_fp8(data_grad)
+        else:
+            upcoming_backward.nvte_grad_output = data_grad
+
+        # Check that gradients are not fp8 and can be processed by the optimizer
+        # TODO: change this when fp8 optimizer comes along
+        assert all(not nvte.is_fp8(g) for g in param_grads)
+
+        # Check if outgoing gradient needs to be squished
+        exposed_dgrad = data_grad.data
+        squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
+        if squish_outgoing_dgrad:
+            _squish(exposed_dgrad)
+
+        torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
+
+        return (*torch_grads, None, None, None)
+
+
 @macro(PIPELINE, OP, UPCOMING_BACKWARD, NEXT_UPCOMING_BACKWARD, textual=False)
-class ComputePipelineFunction(autograd.Function):
+class ComputePipelineFunction(Backward, autograd.Function):
     @staticmethod
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
@@ -141,62 +199,6 @@ def forward(  # type: ignore[arg-type]
 
         return exposed_y
 
-    @staticmethod
-    def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
-        # The context needs to think that the tensors were read
-        _ = ctx.saved_tensors  # type: ignore
-
-        # Get real context
-        saved: Context = getattr(ctx, "nvte_ctx")
-        op: Op = getattr(ctx, "nvte_op")
-        preceding_backward: BackwardComm = getattr(ctx, "nvte_preceding_backward_comm")
-        upcoming_backward: BackwardComm | None = getattr(
-            ctx, "nvte_upcoming_backward_comm"
-        )
-
-        # Get real gradient
-        if preceding_backward.nvte_grad_output is None:
-            # This is the first backward in the compute pipeline
-
-            grad_output = grad_output.contiguous()  # TODO: try to avoid this
-
-            # Check if incoming gradient needs to be unsquished
-            unsquish_incoming_dgrad: bool = getattr(ctx, "nvte_unsquish_incoming_dgrad")
-            if unsquish_incoming_dgrad:
-                _unsquish(grad_output)
-            nvte_grad = nvte.make_nvte_tensor(grad_output)
-        else:
-            nvte_grad = preceding_backward.nvte_grad_output
-        del grad_output
-
-        meta_tensor_provider: Persistent[FP8Meta] = getattr(
-            ctx, "nvte_meta_tensor_provider_bwd"
-        )
-        nvte.set_execution_state("backward", meta_tensor_provider)
-        with torch.no_grad():
-            data_grad, param_grads = op.backward(saved, nvte_grad)
-
-        # Store real gradient for next backward in pipeline
-        if upcoming_backward is None:
-            # This is the last backward in the compute pipeline
-            assert not nvte.is_fp8(data_grad)
-        else:
-            upcoming_backward.nvte_grad_output = data_grad
-
-        # Check that gradients are not fp8 and can be processed by the optimizer
-        # TODO: change this when fp8 optimizer comes along
-        assert all(not nvte.is_fp8(g) for g in param_grads)
-
-        # Check if outgoing gradient needs to be squished
-        exposed_dgrad = data_grad.data
-        squish_outgoing_dgrad: bool = getattr(ctx, "nvte_squish_outgoing_dgrad")
-        if squish_outgoing_dgrad:
-            _squish(exposed_dgrad)
-
-        torch_grads = [exposed_dgrad] + [g.data for g in param_grads]
-
-        return (*torch_grads, None, None, None)
-
 
 class LoopState(TypedDict):
     x: torch.Tensor

From 85bb7d9af124137c39a7d0866c8494f31d0e9bcc Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 15:03:19 +0200
Subject: [PATCH 499/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 62 +++++++++----------
 1 file changed, 30 insertions(+), 32 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 0737b6a525..e9acd653fa 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-from typing import TypedDict
+from typing import Callable, TypedDict
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
@@ -117,7 +117,7 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
 
 
 @macro(PIPELINE, OP, UPCOMING_BACKWARD, NEXT_UPCOMING_BACKWARD, textual=False)
-class ComputePipelineFunction(Backward, autograd.Function):
+class ComputePipelineFunction(Backward, autograd.Function):  # type: ignore[misc]
     @staticmethod
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
@@ -200,13 +200,35 @@ def forward(  # type: ignore[arg-type]
         return exposed_y
 
 
-class LoopState(TypedDict):
-    x: torch.Tensor
-    nvte_x: nvte.Tensor
-    next_upcoming_backward: BackwardComm | None
+def loop(
+    x_: torch.Tensor,
+    nvte_x_: nvte.Tensor,
+    pipeline: ComputePipeline,
+    ag_fs: list[type[autograd.Function]],
+):
+    for op, autograd_func in zip(pipeline.functions, ag_fs):
+        nvte_tensors = op.require_grad()
+        exposed_tensors: list[torch.Tensor] = []
+        for nvte_tensor in nvte_tensors:
+            assert not nvte.is_fp8(
+                nvte_tensor
+            )  # TODO: change when fp8 optimizer comes along
+            exposed_tensors.append(nvte_tensor.data)
+
+        x_ = autograd_func.apply(  # type: ignore
+            x_,
+            *exposed_tensors,
+            *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
+        )
+        assert isinstance(x_, torch.Tensor)
+        with torch.no_grad():
+            (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(x_)
+            nvte_x_ = nvte.Tensor(
+                nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv
+            )
 
 
-def make_loop(pipeline: ComputePipeline):
+def make_loop(pipeline: ComputePipeline) -> Callable[[torch.Tensor, nvte.Tensor], None]:
     upcoming_backward = None
     next_upcoming_backward = BackwardComm()
     ag_fs: list[type[autograd.Function]] = []
@@ -222,31 +244,7 @@ def make_loop(pipeline: ComputePipeline):
             )
         )
 
-    def loop(x_: torch.Tensor, nvte_x_: nvte.Tensor):
-        for op, autograd_func in zip(pipeline.functions, ag_fs):
-            nvte_tensors = op.require_grad()
-            exposed_tensors: list[torch.Tensor] = []
-            for nvte_tensor in nvte_tensors:
-                assert not nvte.is_fp8(
-                    nvte_tensor
-                )  # TODO: change when fp8 optimizer comes along
-                exposed_tensors.append(nvte_tensor.data)
-
-            x_ = autograd_func.apply(  # type: ignore
-                x_,
-                *exposed_tensors,
-                *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
-            )
-            assert isinstance(x_, torch.Tensor)
-            with torch.no_grad():
-                (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(
-                    x_
-                )
-                nvte_x_ = nvte.Tensor(
-                    nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv
-                )
-
-    return loop
+    return lambda x, nvte_x: loop(x, nvte_x, pipeline, ag_fs)
 
 
 # The squish needs to be invertible and

From 61c9e73777de82a644af5c77a5f75f7286e3f0d3 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 15:15:40 +0200
Subject: [PATCH 500/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 70 +++++++++++--------
 .../pytorch/sequential/module/base.py         |  3 +-
 2 files changed, 40 insertions(+), 33 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index e9acd653fa..4bf7c02387 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -56,6 +56,7 @@ def get_nvte_y(
 OP = MacroVar("OP", SelfContainedOp)
 UPCOMING_BACKWARD: BackwardComm | None = MacroVar("UPCOMING_BACKWARD", BackwardComm | None)  # type: ignore[assignment]
 NEXT_UPCOMING_BACKWARD = MacroVar("NEXT_UPCOMING_BACKWARD", BackwardComm)
+AUTOGRAD_FUNC: type[autograd.Function] = MacroVar("AUTOGRAD_FUNC", type[autograd.Function])  # type: ignore[assignment]
 
 
 class Backward:
@@ -200,51 +201,58 @@ def forward(  # type: ignore[arg-type]
         return exposed_y
 
 
-def loop(
+@macro(OP, AUTOGRAD_FUNC, textual=False)
+def loop_iteration(
     x_: torch.Tensor,
     nvte_x_: nvte.Tensor,
-    pipeline: ComputePipeline,
-    ag_fs: list[type[autograd.Function]],
 ):
-    for op, autograd_func in zip(pipeline.functions, ag_fs):
-        nvte_tensors = op.require_grad()
-        exposed_tensors: list[torch.Tensor] = []
-        for nvte_tensor in nvte_tensors:
-            assert not nvte.is_fp8(
-                nvte_tensor
-            )  # TODO: change when fp8 optimizer comes along
-            exposed_tensors.append(nvte_tensor.data)
-
-        x_ = autograd_func.apply(  # type: ignore
-            x_,
-            *exposed_tensors,
-            *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
-        )
-        assert isinstance(x_, torch.Tensor)
-        with torch.no_grad():
-            (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(x_)
-            nvte_x_ = nvte.Tensor(
-                nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv
-            )
-
-
-def make_loop(pipeline: ComputePipeline) -> Callable[[torch.Tensor, nvte.Tensor], None]:
+    nvte_tensors = OP.require_grad()
+    exposed_tensors: list[torch.Tensor] = []
+    for nvte_tensor in nvte_tensors:
+        assert not nvte.is_fp8(
+            nvte_tensor
+        )  # TODO: change when fp8 optimizer comes along
+        exposed_tensors.append(nvte_tensor.data)
+
+    x_ = AUTOGRAD_FUNC.apply(  # type: ignore
+        x_,
+        *exposed_tensors,
+        *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
+    )
+    assert isinstance(x_, torch.Tensor)
+    with torch.no_grad():
+        (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(x_)
+        nvte_x_ = nvte.Tensor(nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv)
+    return x_, nvte_x_
+
+
+def make_loop(pipeline: ComputePipeline):
     upcoming_backward = None
     next_upcoming_backward = BackwardComm()
-    ag_fs: list[type[autograd.Function]] = []
+    iterations: list[
+        Callable[[torch.Tensor, nvte.Tensor], tuple[torch.Tensor, nvte.Tensor]]
+    ] = []
     for i, op in enumerate(pipeline.functions):
         upcoming_backward, next_upcoming_backward = (
             (None, BackwardComm())
             if i == 0
             else (next_upcoming_backward, BackwardComm())
         )
-        ag_fs.append(
-            ComputePipelineFunction(
-                pipeline, op, upcoming_backward, next_upcoming_backward
+        iterations.append(
+            loop_iteration(
+                op,
+                ComputePipelineFunction(
+                    pipeline, op, upcoming_backward, next_upcoming_backward
+                ),
             )
         )
 
-    return lambda x, nvte_x: loop(x, nvte_x, pipeline, ag_fs)
+    def loop(x: torch.Tensor, nvte_x: nvte.Tensor):
+        for iteration in iterations:
+            x, nvte_x = iteration(x, nvte_x)
+        return x, nvte_x
+
+    return loop
 
 
 # The squish needs to be invertible and
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 33fa6a3b38..48011d0ca4 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -50,8 +50,7 @@ def _run(self, x: torch.Tensor):
             return y.data
         else:
             self.pipeline.next_iteration()
-            self.loop(x, nvte_x)
-            return x
+            return self.loop(x, nvte_x)[0]
 
     @staticmethod
     def _create_seq_lens_tensor(x: torch.Tensor):

From 74fc98d19cfa7199aff66e533cef7a415644c7f7 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 15:42:00 +0200
Subject: [PATCH 501/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/base.py         | 21 +++++++++++++++++++
 1 file changed, 21 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 48011d0ca4..f601a5c5a7 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -1,7 +1,9 @@
 from __future__ import annotations
 from abc import ABC, abstractmethod
+from typing import Iterator
 import torch
 from torch import nn
+from torch.nn.parameter import Parameter
 from ..ops import Op
 from ..recipe import Recipe
 from ..compute_pipeline import ComputePipeline
@@ -28,6 +30,25 @@ def forward(
         self.precompiled_for(x, seq_lens)
         return self._run(x)
 
+    def parameters(self, recurse: bool = True) -> Iterator[Parameter]:
+        # TODO: this is a hack to make torch dynamo work
+        del recurse
+        assert self.pipeline is not None
+        for op in self.pipeline.functions:
+            for tensor in op.require_grad():
+                assert isinstance(tensor.data, Parameter)
+                yield tensor.data
+
+    def buffers(self, recurse: bool = True):
+        # TODO: this is a hack to make torch dynamo work
+        del recurse
+        assert self.pipeline is not None
+        for op in self.pipeline.functions:
+            for tensor in op.require_grad():
+                yield tensor.amax
+                yield tensor.scale
+                yield tensor.scale_inv
+
     def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None):
         with torch.no_grad():
             assert x.is_cuda

From cd5628507a98771e7988a561670480950710ed7d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 15:48:40 +0200
Subject: [PATCH 502/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 11 +++++++++++
 .../pytorch/sequential/module/base.py         | 19 -------------------
 2 files changed, 11 insertions(+), 19 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 4bf7c02387..138284d358 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -125,6 +125,17 @@ def forward(  # type: ignore[arg-type]
         exposed_x: torch.Tensor,
         *tensor_mess: torch.Tensor,
     ) -> torch.Tensor:
+        # Hack for torch dynamo
+        params_unpacked = [
+            nvte.Tensor(*(tensor_mess[j] for j in range(i, i + 4, 1)))
+            for i in range(0, len(tensor_mess), 4)
+        ]
+        for param_in, param_cur in zip(params_unpacked, OP.require_grad()):
+            param_cur.data = param_in.data
+            param_cur.amax = param_in.amax
+            param_cur.scale = param_in.scale
+            param_cur.scale_inv = param_in.scale_inv
+
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index f601a5c5a7..682cdeecda 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -30,25 +30,6 @@ def forward(
         self.precompiled_for(x, seq_lens)
         return self._run(x)
 
-    def parameters(self, recurse: bool = True) -> Iterator[Parameter]:
-        # TODO: this is a hack to make torch dynamo work
-        del recurse
-        assert self.pipeline is not None
-        for op in self.pipeline.functions:
-            for tensor in op.require_grad():
-                assert isinstance(tensor.data, Parameter)
-                yield tensor.data
-
-    def buffers(self, recurse: bool = True):
-        # TODO: this is a hack to make torch dynamo work
-        del recurse
-        assert self.pipeline is not None
-        for op in self.pipeline.functions:
-            for tensor in op.require_grad():
-                yield tensor.amax
-                yield tensor.scale
-                yield tensor.scale_inv
-
     def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None):
         with torch.no_grad():
             assert x.is_cuda

From 23555aec6917ef5d3cc24afbf640dfaf4db6432c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 15:53:22 +0200
Subject: [PATCH 503/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py          | 5 ++++-
 1 file changed, 4 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 138284d358..cc8459cba3 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -128,7 +128,7 @@ def forward(  # type: ignore[arg-type]
         # Hack for torch dynamo
         params_unpacked = [
             nvte.Tensor(*(tensor_mess[j] for j in range(i, i + 4, 1)))
-            for i in range(0, len(tensor_mess), 4)
+            for i in range(0, len(tensor_mess) - 4, 4)
         ]
         for param_in, param_cur in zip(params_unpacked, OP.require_grad()):
             param_cur.data = param_in.data
@@ -224,6 +224,9 @@ def loop_iteration(
             nvte_tensor
         )  # TODO: change when fp8 optimizer comes along
         exposed_tensors.append(nvte_tensor.data)
+        exposed_tensors.append(nvte_tensor.amax)
+        exposed_tensors.append(nvte_tensor.scale)
+        exposed_tensors.append(nvte_tensor.scale_inv)
 
     x_ = AUTOGRAD_FUNC.apply(  # type: ignore
         x_,

From f654d5a658b0fb8e26ed97f1a919ff84ced29e2e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 15:55:19 +0200
Subject: [PATCH 504/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py            | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index cc8459cba3..5ac954937c 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -130,7 +130,8 @@ def forward(  # type: ignore[arg-type]
             nvte.Tensor(*(tensor_mess[j] for j in range(i, i + 4, 1)))
             for i in range(0, len(tensor_mess) - 4, 4)
         ]
-        for param_in, param_cur in zip(params_unpacked, OP.require_grad()):
+        params_cur = OP.require_grad()
+        for param_in, param_cur in zip(params_unpacked, params_cur):
             param_cur.data = param_in.data
             param_cur.amax = param_in.amax
             param_cur.scale = param_in.scale

From 758515c0a0b104c41c3414fa27edfc486863caa0 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 16:00:59 +0200
Subject: [PATCH 505/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py       | 8 +-------
 transformer_engine/pytorch/sequential/ops/op.py           | 7 +++++++
 2 files changed, 8 insertions(+), 7 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 5ac954937c..5d1f29bba2 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -130,13 +130,7 @@ def forward(  # type: ignore[arg-type]
             nvte.Tensor(*(tensor_mess[j] for j in range(i, i + 4, 1)))
             for i in range(0, len(tensor_mess) - 4, 4)
         ]
-        params_cur = OP.require_grad()
-        for param_in, param_cur in zip(params_unpacked, params_cur):
-            param_cur.data = param_in.data
-            param_cur.amax = param_in.amax
-            param_cur.scale = param_in.scale
-            param_cur.scale_inv = param_in.scale_inv
-
+        OP.__VERY_BAD_TORCH_DYNAMO_HACK__(params_unpacked)
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/ops/op.py
index 60fd44d5f3..f6100b76bd 100644
--- a/transformer_engine/pytorch/sequential/ops/op.py
+++ b/transformer_engine/pytorch/sequential/ops/op.py
@@ -18,6 +18,13 @@ def __init__(
     ):
         ...
 
+    def __VERY_BAD_TORCH_DYNAMO_HACK__(self, tensors: list[nvte.Tensor]):
+        for cur_tensor, in_tensor in zip(self.require_grad(), tensors):
+            cur_tensor.data = in_tensor.data
+            cur_tensor.amax = in_tensor.amax
+            cur_tensor.scale = in_tensor.scale
+            cur_tensor.scale_inv = in_tensor.scale_inv
+
     def inference(self, x: nvte.Tensor, /):
         return self.forward(x)[0]
 

From 12e9f1341dce2246c372907baf7853cd7cc1b4af Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 16:38:20 +0200
Subject: [PATCH 506/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline_function.py      | 9 ---------
 transformer_engine/pytorch/sequential/ops/op.py          | 7 -------
 2 files changed, 16 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 5d1f29bba2..4bf7c02387 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -125,12 +125,6 @@ def forward(  # type: ignore[arg-type]
         exposed_x: torch.Tensor,
         *tensor_mess: torch.Tensor,
     ) -> torch.Tensor:
-        # Hack for torch dynamo
-        params_unpacked = [
-            nvte.Tensor(*(tensor_mess[j] for j in range(i, i + 4, 1)))
-            for i in range(0, len(tensor_mess) - 4, 4)
-        ]
-        OP.__VERY_BAD_TORCH_DYNAMO_HACK__(params_unpacked)
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
@@ -219,9 +213,6 @@ def loop_iteration(
             nvte_tensor
         )  # TODO: change when fp8 optimizer comes along
         exposed_tensors.append(nvte_tensor.data)
-        exposed_tensors.append(nvte_tensor.amax)
-        exposed_tensors.append(nvte_tensor.scale)
-        exposed_tensors.append(nvte_tensor.scale_inv)
 
     x_ = AUTOGRAD_FUNC.apply(  # type: ignore
         x_,
diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/ops/op.py
index f6100b76bd..60fd44d5f3 100644
--- a/transformer_engine/pytorch/sequential/ops/op.py
+++ b/transformer_engine/pytorch/sequential/ops/op.py
@@ -18,13 +18,6 @@ def __init__(
     ):
         ...
 
-    def __VERY_BAD_TORCH_DYNAMO_HACK__(self, tensors: list[nvte.Tensor]):
-        for cur_tensor, in_tensor in zip(self.require_grad(), tensors):
-            cur_tensor.data = in_tensor.data
-            cur_tensor.amax = in_tensor.amax
-            cur_tensor.scale = in_tensor.scale
-            cur_tensor.scale_inv = in_tensor.scale_inv
-
     def inference(self, x: nvte.Tensor, /):
         return self.forward(x)[0]
 

From 27a1f2e7377489aa9c303bf05c1f2522e6eb63d2 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Thu, 31 Aug 2023 18:26:48 +0200
Subject: [PATCH 507/535] add documentation

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/extending.md           | 146 +++++++++---------
 .../pytorch/sequential/readme.md              |  83 +++++++++-
 2 files changed, 146 insertions(+), 83 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/extending.md b/transformer_engine/pytorch/sequential/extending.md
index abc1cae054..ba56baeacd 100644
--- a/transformer_engine/pytorch/sequential/extending.md
+++ b/transformer_engine/pytorch/sequential/extending.md
@@ -1,31 +1,43 @@
 # Extending `te.Sequential`
 ## Recipe: Adding a new `module`
 
-Let's say you're adding `awesomeLU`:
-1. In `modules` create `awesomelu.py`.
-2. In `modules`/`awesomelu.py` create `class AwesomeLU(BaseModule)`.
-3. In `modules`/`awesomelu.py` implement `AwesomeLU`, analogically to existing modules.
-    1. `AwesomeLU.__init__` must follow this schema:
+Let's say you're adding `XYZLayer`:
+1. In `modules` create `xyz_layer.py`.
+2. In `modules`/`xyz_layer.py` create `class XYZLayer(BaseModule)`.
+3. In `modules`/`xyz_layer.py` implement `XYZLayer`, analogically to existing modules.
+    1. `XYZLayer.__init__` must follow this schema:
         ```
         def __init__(self, ...):
         ```
-        Initialize the (indirect) `nn.Module` superclass explicitly, to be able to assign `nn.Parameter`s to `self`:
+        Initialize the `BaseModule` superclass to be able to assign `nn.Parameter`s to `self`:
         ```
-            nn.Module.__init__(self)  # type: ignore
+            super().__init__()
         ```
         Assign `nn.Parameter`s to `self`, save configurable state, perform other necessary initialization:
         ```
-            ...
-        ```
-        Initialize the (direct) `BaseModule` superclass, with a list of operations that this module is to be converted to:
-        ```
-            super().__init__(
-                ops.ABC(...),
-                ops.XYZ(...),
-                ...
+            self.weight = nn.Parameter(
+                weight_init_method(
+                    torch.empty(out_features, in_features, dtype=param_dtype, device="cuda")
+                )
             )
+            self.bias = (
+                nn.Parameter(
+                    bias_init_method(
+                        torch.empty(out_features, dtype=param_dtype, device="cuda")
+                    )
+                )
+                if bias
+                else None
+            )
+    2. Implement an `XYZLayer._ops` method returning the `Op`s constituting the implementation of the module. If (at least some of) the operations are to be executed conditionally (like adding bias in a `Linear`), you can return `None`. If (at least some of) the operations are not unary and use trainable parameters, pass them to their initializer (the parameters must be owned by the module object), converted to `nvte.Tensor` objects:
+        ```
+        def _ops(self) -> list[ops.Op | None]:
+            return [
+                ops.MMT(make_nvte_tensor(self.weight)),
+                ops.Add(make_nvte_tensor(self.bias)) if self.bias is not None else None,
+            ]
         ```
-    2. If your module contains trainable parameters, and (at least some of) these parameters are randomly initialied (like `weight` and `bias` in `Linear`, but not `gamma` or `beta` in `LayerNorm`), allow the user to specify a custom initializer for these parameters, but provide a default one, if possible:
+    3. If your module contains trainable parameters, and (at least some of) these parameters are randomly initialied (like `weight` and `bias` in `Linear`, but not `gamma` or `beta` in `LayerNorm`), allow the user to specify a custom initializer for these parameters, but provide a default one, if possible:
         ```
         def __init__(
             self,
@@ -38,43 +50,23 @@ Let's say you're adding `awesomeLU`:
             )
             ...
         ```
-    3. If (at least some of) the operations are to be executed conditionally (like adding bias in a `Linear`), you can pass `None` to `BaseModule.__init__` instead:
-        ```
-        def __init__(self, do_xyz: bool, ...):
-            nn.Module.__init__(self)  # type: ignore
-
-            ...
-
-            super().__init__(
-                ops.ABC(...),
-                ops.XYZ(...) if do_xyz else None,
-                ...
-            )
-        ```
-    4. If (at least some of) the operations are not unary and use trainable parameters, pass them to their initializer (the parameters must be owned by the module object), converted to `nvte.Tensor` objects:
-        ```
-            super().__init__(
-                ops.ABC(make_nvte_tensor(self.weight)),
-                ...
-            )
-        ```
-    5. If your module is stateful, expose all configurable state through `extra_repl`:
+    4. If your module is stateful, expose all configurable state through `extra_repl`:
         ```
         def extra_repr(self):
             return f"do_xyz={self.do_xyz}"
         ```
-4. In `modules`/`__init__.py` add `from awesomelu import AwesomeLU`.
-5. In `modules`/`__init__.py` insert `AwesomeLU` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
-6. in `__init__.py` add `from .modules import AwesomeLU`.
-7. In `__init__.py` insert `AwesomeLU` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
+4. In `modules`/`__init__.py` add `from xyz_layer import XYZLayer`.
+5. In `modules`/`__init__.py` insert `XYZLayer` to the module's `__all__` list.
+6. in `__init__.py` add `from .modules import XYZLayer`.
+7. In `__init__.py` insert `XYZLayer` to the module's `__all__` list.
 
 ## Recipe: Adding a new `Op`
 
-Let's say you're adding `awesomeLU`:
-1. In `ops` create `awesomelu.py`.
-2. In `ops`/`awesomelu.py` create `class AwesomeLU(Op)`.
-3. In `ops`/`awesomelu.py` implement `AwesomeLU`, analogically to existing operation implementations
-    1. In `AwesomeLU.__init__`:
+Let's say you're adding `XYZLayer`:
+1. In `ops` create `xyz_layer.py`.
+2. In `ops`/`awesomelu.py` create `class XYZLayer(Op)`.
+3. In `ops`/`awesomelu.py` implement `XYZLayer`, analogically to existing operation implementations
+    1. In `XYZLayer.__init__`:
         1. Take any secondary inputs to the forward pass as arguments:
             ```
             def __init__(
@@ -91,20 +83,22 @@ Let's say you're adding `awesomeLU`:
                     x_dtype: nvte.DType | None = ...,
                     weight_dtype: nvte.DType | None = ...,
                     dy_dtype: nvte.DType | None = ...,
-                    y_dtype: nvte.DType = ...,
-                    dx_dtype: nvte.DType = ...,
-                    dweight_dtype: nvte.DType = ...,
+                    y_dtype: nvte.DType | None = ...,
+                    dx_dtype: nvte.DType | None = ...,
+                    dweight_dtype: nvte.DType | None = ...,
                 ):
                 ```
-        3. Note that if `x`, `dy` or (at least some of) the parameters can be processed by the operation's computations, without changing their type, this is to be signalled by using `None`:
+        3. Note that if `x`, `dy` or (at least some of) the parameters can be processed by the operation's computations, without changing their type, this is to be signalled by using `None`. If the output type(s) are to be automatically deduced (based on other `Op`s), this is also to be signalled by using `None`: **##TYPE INFERENCE NOT YET IMPLEMENTED##**
             > ```
             >     x_dtype: nvte.DType | None = ...,
             >     weight_dtype: nvte.DType | None = ...,
             >     dy_dtype: nvte.DType | None = ...,
             > ```
-        4. Provide defaults for these types to allow for constructing the operation object `AwesomeLu` without having to explicitly specify the types. Choose such default types that will result in optimal performance in the FP8 computational regime.
-    2. In `AwesomeLU.require_grad` return the list of all tensor attributes of `AwesomeLU` that require gradients.
-    3. In `AwesomeLU.forward` provide the implementation of the forward pass of the operation:
+        4. Provide defaults for these types to allow for constructing the operation object `XYZLayer` without having to explicitly specify the types. Choose such default types that will result in optimal performance in the FP8 computational regime.
+
+        **##TODO: Implement type deduction mechanism and multiple type recipes for training at different precisions##**
+    2. In `XYZLayer.require_grad` return the list of all tensor attributes of `AwesomeLU` that require gradients.
+    3. In `XYZLayer.forward` provide the implementation of the forward pass of the operation:
         1. The input activation is to be taken as an argument to the `forward` function. _Note: Contrary to Pytorch's `autograd.Function`, any parameters or configuration, can be conveniently accessed using the `self` object._
             ```
             def forward(self, x: nvte.Tensor):
@@ -115,13 +109,13 @@ Let's say you're adding `awesomeLU`:
                 weight = nvte.cast_checked(self.weight, self.weight_dtype)
                 bias = nvte.cast_checked(self.bias, self.bias_dtype)
             ```
-        3. Return all auxilary tensors needed for the backward pass in a `Context` (`dict[Tensor]`) object. **Do not** store auxilary tensors in the `self` object. **Do not** return non-`Tensor` objects. These **may** be stored in the `self` object, and will remain accessible in the backward pass. **Do not** rely on the context being the same object. The dictionary keys **must** be valid Python identifier names. Example:
+        3. Return all auxilary tensors needed for the backward pass in a `Context` (`dict[str, Tensor]`) object. **Do not** store auxilary tensors in the `self` object. **Do not** return non-`Tensor` objects. These **may** be stored in the `self` object, and will remain accessible in the backward pass. **Do not** rely on the context being the same object. The dictionary keys **must** be valid Python identifier names. Example:
             ```
                 return y, {"x": x, "weight": weight, "mu": mu, "rsigma": rsigma}
             ```
         4. If no auxilary tensors are needed for the backward pass, return an empty context.
-    4. In `AwesomeLU.inference` provide the implementation of the forward pass of the operation, optimized for inference-time use.
-    5. In `AwesomeLU.backward` provide the implementation of the backward pass of the operation:
+    4. In `XYZLayer.inference` provide the implementation of the forward pass of the operation, optimized for inference-time use. For optimized performance, you **may** use inplace operations. **##NOT YET IMPLEMENTED: inplace operations##**
+    5. In `XYZLayer.backward` provide the implementation of the backward pass of the operation:
         1. Retrieve the tensors stored in the forward pass inside the context, by using their keys. **Do not** attempt to access other keys of the dictionary. **Do not** use `Tensor`s stored in the `self` object for computations. Note: You **may** access the attributes to, for example, access the `dtype` of a tensor, but you **must not** access the tensor's `data` or other numerical data. Example:
             ```
             def backward(self, ctx: Context, dy: nvte.Tensor):
@@ -131,17 +125,17 @@ Let's say you're adding `awesomeLU`:
             ```
                 dy = nvte.cast_checked(dy, self.dy_dtype)
             ```
-        3. Return `dy` and a list of the gradients of all tensors returned by `AwesomeLU.require_grad` in **the same order** (if `require_grad` returns `[weight, bias]`, `backward` **must** return `dy, [dweight, dbias]`).
-        4. If `AwesomeLU.require_grad` returns `[]`, return `dy, []`.
+        3. Return `dy` and a list of the gradients of all tensors returned by `XYZLayer.require_grad` in **the same order** (if `require_grad` returns `[weight, bias]`, `backward` **must** return `dy, [dweight, dbias]`).
+        4. If `XYZLayer.require_grad` returns `[]`, return `dy, []`.
     6. Remember to use fused implementations, when possible. For example, in some cases, using a sequence of `nvte.cast_checked` calls may be suboptimal, when, for example, `nvte.multi_cast_transpose` could be used instead, if the tensors are to be later transposed.
-4. In `ops`/`__init__.py` add `from awesomelu import AwesomeLU`.
-5. In `ops`/`__init__.py` insert `AwesomeLU` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
-6. Remember to implement fusions concerning `AwesomeLU`.
+4. In `ops`/`__init__.py` add `from xyz_layer import XYZLayer`.
+5. In `ops`/`__init__.py` insert `XYZLayer` to the module's `__all__` list.
+6. Remember to implement fusions concerning `XYZLayer`.
 
 ## Recipe: Adding a new `nvte.` function
 
-Let's say you're adding support for `nvte_awesomelu`.
-1. If `awesome_lu` is not present in `nvte`/`_nvte.pyi`:
+Let's say you're adding support for `nvte_xyz`.
+1. If `nvte_xyz` is not present in `nvte`/`_nvte.pyi`:
     * If all parameters of `nvte_awesomelu` have one of these types...
         * `NVTEDType`
         * `NVTE_Fused_Attn_Backed`
@@ -152,9 +146,9 @@ Let's say you're adding support for `nvte_awesomelu`.
         * `NVTETensor`
         * [the types automatically converted by Pybind11](https://pybind11.readthedocs.io/en/stable/advanced/cast/overview.html#conversion-table)
     * ...then:
-        * In `cpp_extensions`/`pybind.cpp` register `nvte_awesomelu`:
+        * In `cpp_extensions`/`pybind.cpp` register `nvte_xyz`:
             ```
-            m.def("nvte_awesomelu", wrap(nvte_awesomelu));
+            m.def("nvte_xyz", wrap(nvte_xyz));
             ```
     * ...else if the mapping of C++ arguments to Python arguments is a bijection, and the semantic meaning of the arguments is preserved, and the order of the arguments is preserved, and the mapping of C++ arguments' types to their their Python-side equivalents' types is a bijection, then, assuming an argument to `nvte_awesomelu` has a C type `c_type` that is to be exposed to the Python side as `PyType` that is to be converted by Pybind to `conv_type` then:
         1. If necessary, implement a C++ wrapper `conv_type` type over `c_type` to expose to the Python side as `PyType` and register it in Pybind using `py::class_<conv_type>(m, "PyType", py::module_local())` or similar.
@@ -162,21 +156,21 @@ Let's say you're adding support for `nvte_awesomelu`.
             ```
             template <> struct wrapped_arg<c_type> : trait<conv_type> {};
             ```
-        3. Register `nvte_awesomelu`:
+        3. Register `nvte_xyz`:
             ```
-            m.def("nvte_awesomelu", wrap(nvte_awesomelu));
+            m.def("nvte_xyz", wrap(nvte_xyz));
             ```
     * ...else:
-        * Manually implement a C++ wrapper over `nvte_awesomelu`
+        * Manually implement a C++ wrapper over `nvte_xyz`
         * Register the wrapper to pybind using `m.def`.
-    * In `nvte`/`_nvte.pyi` describe the Python-side interface to `nvte_awesomelu`, by replacing the C++ types with their Python-side equivalents - either types defined in `nvte`/`_nvte.pyi` or according to [builtin Pybind11 conversions](https://pybind11.readthedocs.io/en/stable/advanced/cast/overview.html#conversion-table) or your custom `PyType`s. Change `NVTETensorPack` into `typing.Sequence[Tensor]`.
-2. In `nvte` create `awesomelu.py` importing `_nvte` using `from . import _nvte`.
-3. In `nvte`/`awesomelu.py` implement function `awesomelu`.
-    * Note: usually, if `nvte_awesomelu` requires temporary tensors, such as `workspace` or `barrier`, construct them inside of `awesomelu`, rather than take them as parameters.
-    * Note: allow the user to specify the type of the output, if `nvte_awesome` supports that.
-    * Note: the current computational pass (`forward`, `backward`, or `inference`) can be accessed through `_common.pass_`.
-4. In `nvte`/`__init__.py` add `from awesomelu import awesomelu`.
-5. In `nvte`/`__init__.py` insert `awesomelu` to the module's `__all__` list, while maintaining lexicographical order (for consistency).
+    * In `nvte`/`_nvte.pyi` describe the Python-side interface to `nvte_xyz`, by replacing the C++ types with their Python-side equivalents - either types defined in `nvte`/`_nvte.pyi` or according to [builtin Pybind11 conversions](https://pybind11.readthedocs.io/en/stable/advanced/cast/overview.html#conversion-table), and template specializations of `wrapped_arg`.
+2. In `nvte` create `xyz.py` importing `_nvte` using `from .. import cpp_extensions as _nvte`.
+3. In `nvte`/`xyz.py` implement function `xyz`.
+    * Note: usually, if `nvtexyz` requires temporary tensors, such as `workspace` or `barrier`, construct them inside of `xyz`, rather than take them as parameters.
+    * Note: allow the user to specify the type of the output, if `nvte_xyz` supports that.
+    * Note: the current computational pass (`forward`, `backward`, or `inference`) can be accessed through `execution_state.pass_`.
+4. In `nvte`/`__init__.py` add `from xyz import xyz`.
+5. In `nvte`/`__init__.py` insert `xyz` to the module's `__all__` list.
 
 ## Recipe: Adding a new fusion
 
diff --git a/transformer_engine/pytorch/sequential/readme.md b/transformer_engine/pytorch/sequential/readme.md
index bc2dd94e28..a1d394d080 100644
--- a/transformer_engine/pytorch/sequential/readme.md
+++ b/transformer_engine/pytorch/sequential/readme.md
@@ -1,12 +1,81 @@
-`Sequential` is meant to be used with Transformer-like models that operate on tokens.
+# `te.Sequential`
 
-Usually, tensors in Pytorch are 3D: `(batch_size, seq_len, hidden_dim)`.
-The problem with this is that this requires adding padding to make all sequences have the same length.
+While it originally started as just an implementation of an `nn.Sequential`-like module, `te.Sequential` is essentially becoming a reimplementation of the current PyTorch-side Transformer Engine API. The main goals of this refactoring are:
+- **Increased expressivity**. Instead of using configuration flags, you can declare different Transformer architectures, by declaring their structure directly, within a `te.Sequential` module:
+    - _Old API:_
+        ```python
+        gpt = te.TransformerLayer(
+            HIDDEN_SIZE,
+            4 * HIDDEN_SIZE,
+            NUM_HEADS,
+            apply_residual_connection_post_layernorm=False,
+            output_layernorm=False,
+            layer_type="encoder"
+        )
+        ```
+    - _**New API:**_
+        ```python
+        gpt = te.Sequential(
+            te.Residual(
+                te.LayerNorm(HIDDEN_SIZE),
+                te.Linear(HIDDEN_SIZE, 3 * HIDDEN_SIZE),
+                te.MultiHeadedSelfAttention(
+                    HIDDEN_SIZE,
+                    NUM_HEADS,
+                    te.DotProductAttention
+                ),
+                te.Linear(3 * HIDDEN_SIZE, HIDDEN_SIZE),
+            ),
+            te.Residual(
+                te.LayerNorm(HIDDEN_SIZE),
+                te.Linear(HIDDEN_SIZE, 4 * HIDDEN_SIZE),
+                te.GELU(),
+                te.Linear(4 * HIDDEN_SIZE, HIDDEN_SIZE),
+            )
+        )
+        ```
+- **Added flexibility**. Instead of using preavailable fused modules, you can use a `te.Sequential` that will perform inter-module fusions automatically:
+    - _Old API:_
+        ```python
+        mlp = te.LayerNormMLP(
+            HIDDEN_SIZE,
+            4 * HIDDEN_SIZE,
+            activation="swiglu",
+            normalization="RMSNorm",
+        )
+        ```
+    - _**New API:**_
+        ```python
+        mpl = te.Sequential(
+            te.RMSNorm(HIDDEN_SIZE),
+            te.Linear(HIDDEN_SIZE, 4 * HIDDEN_SIZE),
+            te.SwiGLU(),
+            te.Linear(4 * HIDDEN_SIZE, HIDDEN_SIZE),
+        )
+        ```
+- **Improved performance**. Now, using `torch.compile(te.Sequential(...), fullgraph=True)`, you can fuse your model to a single FX graph for accelerated execution by PyTorch. **##NOT WORKING YET due to various issues in Torch Dynamo; see `compute_pipeline_function.py`##**
 
-So, here, it is different. The input is two tensors: _`tokens`_`(total_tokens, hidden_dim)` + _`seq_lens`_`(batch_size)`.
-For the most part, _`seq_lens`_ is unused. Only self-attention takes it into account.
+## Modules
 
-Given any `m: BaseModule`, it can be invoked in one of three ways:
+`Sequential` is meant to be used with Transformer-like models that operate on tokens. As such, provided are modules typically most used when implement such architectures:
+- `te.Linear` - a PyTorch-like linear layer supporting FP8 operations for accelerated performance on Hopper and Ada architectures.
+- `te.LayerNorm` - a PyTorch-like LayerNorm with custom FP8 kernels manually fine-tuned for best performance on Hopper and Ada architectures.
+- `te.RMSNorm` - an alternative normalization layer [[Zhang and Sennrich, 2019]](https://arxiv.org/abs/1910.07467) beating LayerNorm in computational and training performance, with custom FP8 kernels manually fine-tuned for best performance on Hopper and Ada architectures.
+- `te.***LU` - a collection of activation functions most suitable for Transformer-based architectures with custom kernels supporting FP8 tensors for reduce memory bandwith consumption. Supported activation functions include `te.ReLU` (Transformer, GPT-1, T5), `te.GELU` (GPT-2, GPT-3, BERT), `te.SwiGLU` (PaLM, LLaMA), `te.GeGLU` (LaMDA), and `te.ReGLU`.
+- `te.GroupedQueryAttention` - a generalized form of the attention mechanism, of which `te.MultiQuerySelfAttention` and `te.MultiHeadedSelfAttention` are special cases. These attention layers support for different attention mechanism implementations including `te.DotProductAttention`, `te.BlockSparseAttention`, `te.HungryHungryHippoes`... **##NOT YET IMPLEMENTED##**
+- `te.Residual` - models a residual connection with a model. Its function is analogous to `te.Sequential`, except it adds the incoming activation to its final output. **##NOT YET IMPLEMENTED##**
+
+## Input format
+
+Usually, the input during the process of training of a Transformer model is composed of multiple sequences, forming a batch. The `te.Sequential` module accepts such a batch as input in one of a few formats.
+
+Usually, batches are processed as rank-3 tensors of the form `(batch_size, seq_len, hidden_dim)`.
+The problem with this is that this requires adding padding to make all sequences have the same length. To solve this issue, the input to the `te.Sequential` module is composed of two tensors: _`tokens`_`(total_tokens, hidden_dim)` + _`seq_lens`_`(batch_size)`, where the _`tokens`_ tensor is a concatenation of all sequences in the batch, and _`seq_lens`_ is a tensor containing the length of each sequence in the batch. Specifying _`seq_lens`_ is necessary for self-attention.
+
+Given any `m: te.Sequential`, it can be invoked in one of three ways:
 1. `m(x, seq_lens)` where `x` and `seq_lens` are respectively a 2D and a 1D tensor, as defined above.
-2. `m(x)` where `x` is a 2D tensor - this is equivalent to `m(x, torch.Tensor([x.shape[0]]))`, ie. _`seq_lens`_ is `torch.Tensor([x.shape[0]])` or, simply, `x` is treated as a single token sequence.
+2. `m(x)` where `x` is a 2D tensor - this is equivalent to `m(x, torch.Tensor([x.shape[0]]))`, ie. _`seq_lens`_ is `torch.Tensor([x.shape[0]])` or, simply, `x` is treated as a single sequence.
 3. `m(x)` where `x` is a 3D tensor - this is equivalent to `m(x.view(-1, x.shape[-1]), torch.Tensor([x.shape[0]] * x.shape[1]))`, which means that `x` is "flattened" from being a 3D tensor to a 2D tensor, and each of its previous slices is assumed to have been a single sequence.
+
+## Notes
+* The GELU activation function is implemented as an approximation. For numerical results equivalent to PyTorch, use `nn.GELU(approximate="tanh")`.

From 2fb7b163b9398479f7521fbe2284d6fadc86e544 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 10:16:10 +0200
Subject: [PATCH 508/535] Add documentation

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/{extending.md => RECIPES.md}   |  0
 transformer_engine/pytorch/sequential/TODO.md | 14 +++++
 .../pytorch/sequential/exec_saving_source.py  |  9 ++-
 .../pytorch/sequential/readme.md              |  1 +
 .../pytorch/sequential/utils.py               | 57 ++++++++++++++++++-
 5 files changed, 79 insertions(+), 2 deletions(-)
 rename transformer_engine/pytorch/sequential/{extending.md => RECIPES.md} (100%)
 create mode 100644 transformer_engine/pytorch/sequential/TODO.md

diff --git a/transformer_engine/pytorch/sequential/extending.md b/transformer_engine/pytorch/sequential/RECIPES.md
similarity index 100%
rename from transformer_engine/pytorch/sequential/extending.md
rename to transformer_engine/pytorch/sequential/RECIPES.md
diff --git a/transformer_engine/pytorch/sequential/TODO.md b/transformer_engine/pytorch/sequential/TODO.md
new file mode 100644
index 0000000000..b406da1fd4
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/TODO.md
@@ -0,0 +1,14 @@
+## Not Yet Implemented
+- Inplace operations:
+    - inplace `nvte.***` for use during inference
+    - using those commands in `training` methods of `Op`s
+- Torch compile fullgraph support
+- Attention
+- Residual
+- Type inference
+- Model parallelism
+- User buffers
+- _default_scaling_factor_compute_method
+- Make the sources saved by `exec_saving_source` be garbage collected when there are no references to objects from within the source.
+- Cleanup `compute_pipeline_function.py` and `base.py`. Currently they are both a mess full of hacks around Torch Dynamo issues.
+- ..? Other things supported by current implementation
diff --git a/transformer_engine/pytorch/sequential/exec_saving_source.py b/transformer_engine/pytorch/sequential/exec_saving_source.py
index 9b6742edbf..d2fbf1cebf 100644
--- a/transformer_engine/pytorch/sequential/exec_saving_source.py
+++ b/transformer_engine/pytorch/sequential/exec_saving_source.py
@@ -4,7 +4,13 @@
 from typing import Any
 
 
-def exec_saving_source(source: str, globals: dict[str, Any]):
+def exec_saving_source(
+    source: str,
+    globals: dict[str, Any] | None = None,
+    locals: dict[str, Any] | None = None,
+):
+    """Equivalent to exec, but allows for the code to be introspected by,
+    for example, `pdb` or `inspect`"""
     import ast
     import linecache
 
@@ -26,4 +32,5 @@ def patched_getlines(filename: str, module_globals: Any = None):
     exec(
         compile(ast.parse(source), filename=f"<exec#{len(sources) - 1}>", mode="exec"),
         globals,
+        locals,
     )
diff --git a/transformer_engine/pytorch/sequential/readme.md b/transformer_engine/pytorch/sequential/readme.md
index a1d394d080..6eb0d4dea9 100644
--- a/transformer_engine/pytorch/sequential/readme.md
+++ b/transformer_engine/pytorch/sequential/readme.md
@@ -79,3 +79,4 @@ Given any `m: te.Sequential`, it can be invoked in one of three ways:
 
 ## Notes
 * The GELU activation function is implemented as an approximation. For numerical results equivalent to PyTorch, use `nn.GELU(approximate="tanh")`.
+* Due to limitations of TorchDynamo, some standard modules cannot be used. Some compatible replacements are provided in `utils.py`. Examples include `contextmanager` (replacement for `contextlib.contextmanager`) and `cache` (replacement for `functools.cache`).
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index 0404faa4b8..d3104329a2 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -57,6 +57,8 @@ def __exit__(
 
 
 class contextmanager(Generic[PS, T]):
+    "TorchDynamo-compatible replacement for `contextlib.contextmanager`"
+
     def __init__(self, func: Callable[PS, Generator[T, None, None]]):
         self.func = func
 
@@ -65,6 +67,7 @@ def __call__(self, *args: PS.args, **kwargs: PS.kwargs):
 
 
 def cache(func: Callable[[], T]) -> Callable[[], T]:
+    "TorchDynamo-compatible replacement for `functools.cache`"
     result = func()
 
     def wrapper():
@@ -170,7 +173,10 @@ def get_return_type(f: Callable[..., T]) -> type[T]:
     import typing
     import ast
 
-    return_annotation = typing.get_type_hints(f)["return"]
+    try:
+        return_annotation = typing.get_type_hints(f)["return"]
+    except KeyError as e:
+        raise ValueError(f"{f} must have an annotated return type") from e
 
     return_type = (
         ast.literal_eval(return_annotation)
@@ -240,6 +246,7 @@ def decorator(
 
 
 def get_globals(o: object) -> dict[str, Any]:
+    "Returns the same object that `globals()` would return inside the provided object."
     try:
         return o.__globals__  # type: ignore
     except:
@@ -254,6 +261,8 @@ def get_globals(o: object) -> dict[str, Any]:
 
 
 class MacroVar(Generic[T]):
+    "A `TypeVar`-like object representing a `macro`'s parameter."
+
     def __new__(cls, name: str, type_: type[T] = object) -> T:
         return (name, type_)  # type: ignore
 
@@ -293,6 +302,47 @@ def visit_Name(self, node: ast.Name):
 def macro(
     *substitutions: Unpack[Ts], textual: bool = True
 ) -> Callable[[T], Callable[[Unpack[Ts]], T]]:
+    """
+    This decorator functions like a C-like macro definition.
+    It can be applied to a function or class definition.
+    It is to be used together with `MacroVar`s - `TypeVar`-like
+    objects representing the macro's parameters.
+
+    Example declaration:
+    ```
+    X = MacroVar("X", int)
+    @macro(X)
+    def f():
+        return X
+    ```
+    The above macro can then be used like this:
+    ```
+    f1 = f(1)
+    assert f1() == 1
+    ```
+
+    The `textual` (default `True`) argument controls if the
+    instantiations of the macro should have their ASTs modified
+    in place (textual) or if they should have the same source,
+    and instead have the provided values injected as constant
+    globals into their namespace.
+
+    For example, with `textual=True`, `inspect.getsource(f1)` outputs:
+    ```
+    def f():
+        return 1
+    ```
+    With `textual=False`, `inspect.getsource(f1)` outputs:
+    ```
+    def f():
+        return X
+    ```
+    The `textual=False` mode is needed when `eval(repr(X))` fails.
+    In this mode, the substituted values `are` (Python `is`) the
+    original provided values.
+
+    It can be used, for example, to sidestep some limitations of TorchDynamo.
+    """
     names: list[str] = [name for name, _ in substitutions]  # type: ignore
     for name in names:
         assert name.isidentifier()
@@ -366,6 +416,11 @@ def is_generic(t: GenericAlias) -> Literal[True]:
 
 
 def is_generic(t: type | GenericAlias):
+    """
+    Returns True if the type is a generic type, False otherwise.
+    This is useful for checking if `isinstance` would fail with
+    a `TypeError` when called with a generic type.
+    """
     from types import GenericAlias
     from typing import _SpecialGenericAlias, _GenericAlias  # type: ignore
 

From 987ca1ccbcc06e82aa3fc9c2e4342b3522dcc766 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 11:35:39 +0200
Subject: [PATCH 509/535] cleanup

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/ARCHITECTURE.md        |  5 +++++
 transformer_engine/pytorch/sequential/TODO.md |  2 ++
 .../pytorch/sequential/__init__.py            |  3 ++-
 .../sequential/compute_pipeline/__init__.py   |  9 +++++++++
 .../compute_pipeline.py                       |  9 ++++++---
 .../fusions/__init__.py                       |  4 +++-
 .../{ => compute_pipeline}/fusions/_common.py |  7 +++++--
 .../fusions/_storage.py                       |  3 +++
 .../fusions/interface.py                      |  5 ++++-
 .../{ => compute_pipeline}/fusions/mmt.py     |  6 ++++--
 .../{ => compute_pipeline}/ops/__init__.py    |  3 +++
 .../{ => compute_pipeline}/ops/activation.py  |  5 ++++-
 .../{ => compute_pipeline}/ops/add.py         |  5 ++++-
 .../{ => compute_pipeline}/ops/attention.py   |  5 ++++-
 .../{ => compute_pipeline}/ops/layernorm.py   |  5 ++++-
 .../{ => compute_pipeline}/ops/mmt.py         |  5 ++++-
 .../{ => compute_pipeline}/ops/op.py          |  5 ++++-
 .../{ => compute_pipeline}/ops/rmsnorm.py     |  5 ++++-
 .../{ => compute_pipeline}/ops_types.py       |  2 +-
 .../sequential/compute_pipeline_function.py   |  4 ++--
 .../sequential/cpp_extensions/__init__.py     |  2 +-
 .../pytorch/sequential/module/activation.py   |  2 +-
 .../pytorch/sequential/module/base.py         |  6 ++----
 .../module/dot_product_attention.py           |  2 +-
 .../pytorch/sequential/module/linear.py       |  2 +-
 .../sequential/module/normalization.py        |  2 +-
 .../pytorch/sequential/nvte/_common.py        |  3 ---
 .../pytorch/sequential/readme.md              | 10 +++++++---
 .../pytorch/sequential/utils.py               | 19 +++++++++++++++++++
 29 files changed, 110 insertions(+), 35 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/ARCHITECTURE.md
 create mode 100644 transformer_engine/pytorch/sequential/compute_pipeline/__init__.py
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/compute_pipeline.py (97%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/fusions/__init__.py (69%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/fusions/_common.py (90%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/fusions/_storage.py (78%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/fusions/interface.py (97%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/fusions/mmt.py (98%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/ops/__init__.py (86%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/ops/activation.py (95%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/ops/add.py (94%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/ops/attention.py (88%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/ops/layernorm.py (96%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/ops/mmt.py (95%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/ops/op.py (94%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/ops/rmsnorm.py (95%)
 rename transformer_engine/pytorch/sequential/{ => compute_pipeline}/ops_types.py (96%)

diff --git a/transformer_engine/pytorch/sequential/ARCHITECTURE.md b/transformer_engine/pytorch/sequential/ARCHITECTURE.md
new file mode 100644
index 0000000000..8145081599
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/ARCHITECTURE.md
@@ -0,0 +1,5 @@
+The provided modules are a PyTorch interface to a framework-oblivious implementation present in `ops`. All modules are decomposed into `Op`s. An `Op` models a practically atomic operation. For example, a `Linear` layer is split into either an `MMT` (MatMulTranspose) and `Add` `Op` or into just an `MMT` `Op`. Such an `Op` can be thought of as a combination of an `nn.Module` and an `autograd.Function`, in the sense that it:
+1. Stores its trainable parameters (exposed through `require_grad`), like an `nn.Module`.
+2. Provides a `forward`, `backward` (and `inference`) method, like an `autograd.Function`.
+This is done to reduce the amount of needless boilerplate code. This allows for `Op` implementations to remain short, clean, and simple.
+The `Sequential` module itself is just a wrapper around a `ComputePipeline` object that is actually responsible for executing its constituent `Op`s, as well as managing the interaction between them, such as type inference or model parallelism.
diff --git a/transformer_engine/pytorch/sequential/TODO.md b/transformer_engine/pytorch/sequential/TODO.md
index b406da1fd4..62da80a1a7 100644
--- a/transformer_engine/pytorch/sequential/TODO.md
+++ b/transformer_engine/pytorch/sequential/TODO.md
@@ -11,4 +11,6 @@
 - _default_scaling_factor_compute_method
 - Make the sources saved by `exec_saving_source` be garbage collected when there are no references to objects from within the source.
 - Cleanup `compute_pipeline_function.py` and `base.py`. Currently they are both a mess full of hacks around Torch Dynamo issues.
+- Maybe cleanup `nvte/_common.py`??? It has a complicated implementation of `nvte.torch_op`. Though, maybe it is that's just how this has to be implemented.
+- Maybe rename some files and move some code??? Files like `_common.py` or `_storage.py` were supposed to be internal to a folder, but static type chackers complain about them being private. They also export some things...
 - ..? Other things supported by current implementation
diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index b07faf4e8e..fef1cdf231 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -1,3 +1,4 @@
+from .compute_pipeline import fusions, ops
 from .module import (
     Activation,
     ReLU,
@@ -10,7 +11,7 @@
     Linear,
     Sequential,
 )
-from . import nvte, ops, fusions, module
+from . import nvte, module
 from .recipe import Recipe
 
 __all__ = [
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/__init__.py b/transformer_engine/pytorch/sequential/compute_pipeline/__init__.py
new file mode 100644
index 0000000000..3487b0e9aa
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/__init__.py
@@ -0,0 +1,9 @@
+from .ops import Op, Context, Grads
+from .compute_pipeline import ComputePipeline
+
+__all__ = [
+    "Op",
+    "Context",
+    "Grads",
+    "ComputePipeline",
+]
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py
similarity index 97%
rename from transformer_engine/pytorch/sequential/compute_pipeline.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py
index 2f12b0f1f8..9643a5fa37 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py
@@ -1,11 +1,14 @@
 from __future__ import annotations
+from ..utils import prevent_import
+
+prevent_import("torch")
 from functools import reduce
 import operator
-from . import nvte
+from .. import nvte
 from .ops import Op, Grads, Context
 from .fusions import FusedOp, get_fused_op_list
-from .recipe import Recipe
-from .meta import PersistentFP8Meta
+from ..recipe import Recipe
+from ..meta import PersistentFP8Meta
 
 
 class SelfContainedOp(Op):
diff --git a/transformer_engine/pytorch/sequential/fusions/__init__.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/__init__.py
similarity index 69%
rename from transformer_engine/pytorch/sequential/fusions/__init__.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/fusions/__init__.py
index ff8398f261..66c8ba9c29 100644
--- a/transformer_engine/pytorch/sequential/fusions/__init__.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/__init__.py
@@ -1,5 +1,7 @@
+from ...utils import prevent_import
+
+prevent_import("torch")
 from .interface import FusedOp, get_fused_op_list
-from ..utils import import_file_as_module
 from . import mmt  # only for side effects
 
 __all__ = ["FusedOp", "get_fused_op_list"]
diff --git a/transformer_engine/pytorch/sequential/fusions/_common.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_common.py
similarity index 90%
rename from transformer_engine/pytorch/sequential/fusions/_common.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/fusions/_common.py
index 8759ea1af6..b690653c38 100644
--- a/transformer_engine/pytorch/sequential/fusions/_common.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_common.py
@@ -1,10 +1,13 @@
 from __future__ import annotations
+from ...utils import prevent_import
+
+prevent_import("torch")
 from typing import Callable
 from typing_extensions import TypeVarTuple, Unpack
 from ..ops import Context, Grads
-from .. import nvte
+from ... import nvte
 from ._storage import FUSIONS_FWD, FUSIONS_BWD, FUSIONS_INF
-from ..utils import get_arg_types
+from ...utils import get_arg_types
 
 _Ops = TypeVarTuple("_Ops")
 _OpsAndCtxs = TypeVarTuple("_OpsAndCtxs")
diff --git a/transformer_engine/pytorch/sequential/fusions/_storage.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_storage.py
similarity index 78%
rename from transformer_engine/pytorch/sequential/fusions/_storage.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/fusions/_storage.py
index d6442c78c5..b6851f3f25 100644
--- a/transformer_engine/pytorch/sequential/fusions/_storage.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_storage.py
@@ -1,3 +1,6 @@
+from ...utils import prevent_import
+
+prevent_import("torch")
 from typing import Callable, Any
 
 FUSIONS_INF: dict[tuple[type, ...], Callable[..., Any]] = {}
diff --git a/transformer_engine/pytorch/sequential/fusions/interface.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py
similarity index 97%
rename from transformer_engine/pytorch/sequential/fusions/interface.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py
index 6db8b979c1..ceb8e6cc6d 100644
--- a/transformer_engine/pytorch/sequential/fusions/interface.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py
@@ -1,8 +1,11 @@
 from __future__ import annotations
+from ...utils import prevent_import
+
+prevent_import("torch")
 from functools import partial
 from ..ops import Op
 from typing import Literal
-from .. import nvte
+from ... import nvte
 from ..ops_types import (
     BackwardFused,
     ForwardFused,
diff --git a/transformer_engine/pytorch/sequential/fusions/mmt.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/mmt.py
similarity index 98%
rename from transformer_engine/pytorch/sequential/fusions/mmt.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/fusions/mmt.py
index 6ed3fce78c..f661af8777 100644
--- a/transformer_engine/pytorch/sequential/fusions/mmt.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/mmt.py
@@ -1,8 +1,10 @@
 from __future__ import annotations
+from ...utils import prevent_import
 
-from .. import nvte
+prevent_import("torch")
+from ... import nvte
 from ..ops import Context, Grads, MMT, Add, GELU, GeGLU
-from .. import nvte
+from ... import nvte
 from ._common import (
     register_fusion_inference,
     register_fusion_backward,
diff --git a/transformer_engine/pytorch/sequential/ops/__init__.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py
similarity index 86%
rename from transformer_engine/pytorch/sequential/ops/__init__.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py
index cb0372bd1d..f2bcfec616 100644
--- a/transformer_engine/pytorch/sequential/ops/__init__.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py
@@ -1,3 +1,6 @@
+from ...utils import prevent_import
+
+prevent_import("torch")
 from .op import Op, Context, Grads
 from .activation import Activation, ReLU, GELU, ReGLU, GeGLU, SwiGLU
 from .layernorm import LayerNorm
diff --git a/transformer_engine/pytorch/sequential/ops/activation.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/activation.py
similarity index 95%
rename from transformer_engine/pytorch/sequential/ops/activation.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/ops/activation.py
index 4f87c6f954..409cd1b392 100644
--- a/transformer_engine/pytorch/sequential/ops/activation.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/activation.py
@@ -1,7 +1,10 @@
 from __future__ import annotations
+from ...utils import prevent_import
+
+prevent_import("torch")
 from typing import Callable
 from abc import ABC
-from .. import nvte
+from ... import nvte
 from .op import Grads, Op, Context
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/add.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/add.py
similarity index 94%
rename from transformer_engine/pytorch/sequential/ops/add.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/ops/add.py
index 50d020bf1d..f582ecfc1e 100644
--- a/transformer_engine/pytorch/sequential/ops/add.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/add.py
@@ -1,5 +1,8 @@
 from __future__ import annotations
-from .. import nvte
+from ...utils import prevent_import
+
+prevent_import("torch")
+from ... import nvte
 from .op import Op, Context
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/attention.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/attention.py
similarity index 88%
rename from transformer_engine/pytorch/sequential/ops/attention.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/ops/attention.py
index 78b3d92459..4849c702bc 100644
--- a/transformer_engine/pytorch/sequential/ops/attention.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/attention.py
@@ -1,7 +1,10 @@
 from __future__ import annotations
+from ...utils import prevent_import
+
+prevent_import("torch")
 from typing import Callable
 from abc import ABC
-from .. import nvte
+from ... import nvte
 from .op import Grads, Op, Context
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/layernorm.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/layernorm.py
similarity index 96%
rename from transformer_engine/pytorch/sequential/ops/layernorm.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/ops/layernorm.py
index b0515c0daa..4556352928 100644
--- a/transformer_engine/pytorch/sequential/ops/layernorm.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/layernorm.py
@@ -1,5 +1,8 @@
 from __future__ import annotations
-from .. import nvte
+from ...utils import prevent_import
+
+prevent_import("torch")
+from ... import nvte
 from .op import Op, Context
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/mmt.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/mmt.py
similarity index 95%
rename from transformer_engine/pytorch/sequential/ops/mmt.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/ops/mmt.py
index 5078b9dcd0..6495d80be6 100644
--- a/transformer_engine/pytorch/sequential/ops/mmt.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/mmt.py
@@ -1,5 +1,8 @@
 from __future__ import annotations
-from .. import nvte
+from ...utils import prevent_import
+
+prevent_import("torch")
+from ... import nvte
 from .op import Op, Context
 
 
diff --git a/transformer_engine/pytorch/sequential/ops/op.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py
similarity index 94%
rename from transformer_engine/pytorch/sequential/ops/op.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py
index 60fd44d5f3..524dd6e02b 100644
--- a/transformer_engine/pytorch/sequential/ops/op.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py
@@ -1,6 +1,9 @@
 from __future__ import annotations
+from ...utils import prevent_import
+
+prevent_import("torch")
 from abc import ABC, abstractmethod
-from .. import nvte
+from ... import nvte
 
 Context = dict[str, nvte.Tensor]
 Grads = list[nvte.Tensor]
diff --git a/transformer_engine/pytorch/sequential/ops/rmsnorm.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/rmsnorm.py
similarity index 95%
rename from transformer_engine/pytorch/sequential/ops/rmsnorm.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/ops/rmsnorm.py
index be12b654c1..dc5a6bbe28 100644
--- a/transformer_engine/pytorch/sequential/ops/rmsnorm.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/rmsnorm.py
@@ -1,5 +1,8 @@
 from __future__ import annotations
-from .. import nvte
+from ...utils import prevent_import
+
+prevent_import("torch")
+from ... import nvte
 from .op import Op, Context
 
 
diff --git a/transformer_engine/pytorch/sequential/ops_types.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops_types.py
similarity index 96%
rename from transformer_engine/pytorch/sequential/ops_types.py
rename to transformer_engine/pytorch/sequential/compute_pipeline/ops_types.py
index 4616bb1437..602eef8672 100644
--- a/transformer_engine/pytorch/sequential/ops_types.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops_types.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 from typing import Callable
 from typing_extensions import Unpack
-from . import nvte
+from .. import nvte
 from .ops import Context, Grads
 
 Forward = Callable[[nvte.Tensor], tuple[nvte.Tensor, Context]]
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 4bf7c02387..59876a6fd5 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -5,8 +5,8 @@
 from torch.autograd.function import FunctionCtx
 from .persistent import Persistent
 from . import nvte
-from .ops import Context, Op
-from .compute_pipeline import ComputePipeline, SelfContainedOp
+from .compute_pipeline.ops import Context, Op
+from .compute_pipeline.compute_pipeline import ComputePipeline, SelfContainedOp
 from .utils import macro, MacroVar
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
index be3e0a85e8..5a47f33547 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-from typing import TYPE_CHECKING, overload
+from typing import TYPE_CHECKING
 import torch
 from .dynamic_load import inject_real
 
diff --git a/transformer_engine/pytorch/sequential/module/activation.py b/transformer_engine/pytorch/sequential/module/activation.py
index b8124e1c2f..a26413db97 100644
--- a/transformer_engine/pytorch/sequential/module/activation.py
+++ b/transformer_engine/pytorch/sequential/module/activation.py
@@ -1,6 +1,6 @@
 from abc import ABC
 from .base import BaseModule
-from .. import ops
+from ..compute_pipeline import ops
 
 
 class Activation(BaseModule, ABC):
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 682cdeecda..ee82d2f8c1 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -1,12 +1,10 @@
 from __future__ import annotations
 from abc import ABC, abstractmethod
-from typing import Iterator
 import torch
 from torch import nn
-from torch.nn.parameter import Parameter
-from ..ops import Op
+from ..compute_pipeline.ops import Op
 from ..recipe import Recipe
-from ..compute_pipeline import ComputePipeline
+from ..compute_pipeline.compute_pipeline import ComputePipeline
 from ..compute_pipeline_function import make_loop
 from .. import nvte
 
diff --git a/transformer_engine/pytorch/sequential/module/dot_product_attention.py b/transformer_engine/pytorch/sequential/module/dot_product_attention.py
index b43d63be29..952237f13d 100644
--- a/transformer_engine/pytorch/sequential/module/dot_product_attention.py
+++ b/transformer_engine/pytorch/sequential/module/dot_product_attention.py
@@ -1,6 +1,6 @@
 from abc import abstractmethod, ABC
 from .base import BaseModule
-from .. import ops
+from ..compute_pipeline import ops
 
 class Attention(ABC):
     @abstractmethod
diff --git a/transformer_engine/pytorch/sequential/module/linear.py b/transformer_engine/pytorch/sequential/module/linear.py
index 2b74047533..ee69d43a77 100644
--- a/transformer_engine/pytorch/sequential/module/linear.py
+++ b/transformer_engine/pytorch/sequential/module/linear.py
@@ -2,7 +2,7 @@
 from math import sqrt
 import torch
 from torch import nn
-from .. import ops
+from ..compute_pipeline import ops
 from ..nvte import make_nvte_tensor
 from ._common import ParameterInitMethod
 from .base import BaseModule
diff --git a/transformer_engine/pytorch/sequential/module/normalization.py b/transformer_engine/pytorch/sequential/module/normalization.py
index 34e0afa6f5..484eff8875 100644
--- a/transformer_engine/pytorch/sequential/module/normalization.py
+++ b/transformer_engine/pytorch/sequential/module/normalization.py
@@ -2,7 +2,7 @@
 import torch
 from torch import nn
 from .base import BaseModule
-from .. import ops
+from ..compute_pipeline import ops
 from ..nvte import make_nvte_tensor
 
 
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 1f28d6614b..3bc7550204 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -10,10 +10,7 @@
 import torch
 from torch.autograd.function import FunctionCtx
 from .. import cpp_extensions as _nvte
-from .. import cpp_extensions
 from ..utils import (
-    PS,
-    T,
     get_arg_names,
     get_arg_types,
     get_return_type,
diff --git a/transformer_engine/pytorch/sequential/readme.md b/transformer_engine/pytorch/sequential/readme.md
index 6eb0d4dea9..2af973ebdf 100644
--- a/transformer_engine/pytorch/sequential/readme.md
+++ b/transformer_engine/pytorch/sequential/readme.md
@@ -1,5 +1,4 @@
 # `te.Sequential`
-
 While it originally started as just an implementation of an `nn.Sequential`-like module, `te.Sequential` is essentially becoming a reimplementation of the current PyTorch-side Transformer Engine API. The main goals of this refactoring are:
 - **Increased expressivity**. Instead of using configuration flags, you can declare different Transformer architectures, by declaring their structure directly, within a `te.Sequential` module:
     - _Old API:_
@@ -56,7 +55,6 @@ While it originally started as just an implementation of an `nn.Sequential`-like
 - **Improved performance**. Now, using `torch.compile(te.Sequential(...), fullgraph=True)`, you can fuse your model to a single FX graph for accelerated execution by PyTorch. **##NOT WORKING YET due to various issues in Torch Dynamo; see `compute_pipeline_function.py`##**
 
 ## Modules
-
 `Sequential` is meant to be used with Transformer-like models that operate on tokens. As such, provided are modules typically most used when implement such architectures:
 - `te.Linear` - a PyTorch-like linear layer supporting FP8 operations for accelerated performance on Hopper and Ada architectures.
 - `te.LayerNorm` - a PyTorch-like LayerNorm with custom FP8 kernels manually fine-tuned for best performance on Hopper and Ada architectures.
@@ -66,7 +64,6 @@ While it originally started as just an implementation of an `nn.Sequential`-like
 - `te.Residual` - models a residual connection with a model. Its function is analogous to `te.Sequential`, except it adds the incoming activation to its final output. **##NOT YET IMPLEMENTED##**
 
 ## Input format
-
 Usually, the input during the process of training of a Transformer model is composed of multiple sequences, forming a batch. The `te.Sequential` module accepts such a batch as input in one of a few formats.
 
 Usually, batches are processed as rank-3 tensors of the form `(batch_size, seq_len, hidden_dim)`.
@@ -80,3 +77,10 @@ Given any `m: te.Sequential`, it can be invoked in one of three ways:
 ## Notes
 * The GELU activation function is implemented as an approximation. For numerical results equivalent to PyTorch, use `nn.GELU(approximate="tanh")`.
 * Due to limitations of TorchDynamo, some standard modules cannot be used. Some compatible replacements are provided in `utils.py`. Examples include `contextmanager` (replacement for `contextlib.contextmanager`) and `cache` (replacement for `functools.cache`).
+
+## Idea
+The main idea behind `te.Sequential` is that it doesn't have to execute eagerly, contrary to how PyTorch usually works. This is thanks to the fact that usually, its constitutent modules are provided during initialization and do not change since. This allows for performing optimizations such as fusions.
+
+The main limitation of PyTorch that Transformer Engine is dealing with is that PyTorch does not have support for FP8 `dtype`s. Meanwhile, by taking advantage of these optimized formats, performance on the Hopper and Ada architectures can be significantly increased.
+
+`te.Sequential` allows for sidestepping this issue by encapsulating the communications between subsequent modules. A bare `Linear` layer cannot return an FP8 tensor, even if the next operation supports that as an input, as there is no way to express this is PyTorch user code. However, by encapsulating both layers inside the `Sequential`, the communication between them happens in a way oblivious to the user. Only the input and output of the whole `Sequential` need to be representible as PyTorch tensors.
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index d3104329a2..ba00f5aa89 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -405,6 +405,25 @@ def macro_impl(*values: Unpack[Ts]) -> T:
         return injection_decorator
 
 
+def prevent_import(*names: str):
+    prev_import = __builtins__.__dict__["__import__"]
+
+    def restricted_import(
+        name: str,
+        globals: dict[str, Any] | None = None,
+        locals: dict[str, Any] | None = None,
+        fromlist: tuple[str, ...] = (),
+        level: int = 0,
+    ):
+        assert (
+            name not in names
+        ), f"Cannot import {name} from this module. See `ARCHITECTURE.md` for more information."
+
+        return prev_import(name, globals, locals, fromlist, level)
+
+    __builtins__.__dict__["__import__"] = restricted_import
+
+
 @overload
 def is_generic(t: type) -> Literal[False]:
     ...

From 965490d45e8f77fb40a00228f296be787aa3d434 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 11:39:07 +0200
Subject: [PATCH 510/535] remove prevent_import

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../compute_pipeline/fusions/__init__.py      |  3 ---
 .../compute_pipeline/fusions/_common.py       |  2 --
 .../compute_pipeline/fusions/_storage.py      |  3 ---
 .../compute_pipeline/fusions/interface.py     |  2 --
 .../compute_pipeline/fusions/mmt.py           |  2 --
 .../compute_pipeline/ops/__init__.py          |  3 ---
 .../compute_pipeline/ops/activation.py        |  2 --
 .../sequential/compute_pipeline/ops/add.py    |  2 --
 .../compute_pipeline/ops/attention.py         |  2 --
 .../compute_pipeline/ops/layernorm.py         |  2 --
 .../sequential/compute_pipeline/ops/mmt.py    |  2 --
 .../sequential/compute_pipeline/ops/op.py     |  2 --
 .../compute_pipeline/ops/rmsnorm.py           |  2 --
 .../pytorch/sequential/utils.py               | 19 -------------------
 14 files changed, 48 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/__init__.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/__init__.py
index 66c8ba9c29..9bdb2c4edb 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/__init__.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/__init__.py
@@ -1,6 +1,3 @@
-from ...utils import prevent_import
-
-prevent_import("torch")
 from .interface import FusedOp, get_fused_op_list
 from . import mmt  # only for side effects
 
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_common.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_common.py
index b690653c38..e38675d65e 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_common.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_common.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from typing import Callable
 from typing_extensions import TypeVarTuple, Unpack
 from ..ops import Context, Grads
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_storage.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_storage.py
index b6851f3f25..d6442c78c5 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_storage.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/_storage.py
@@ -1,6 +1,3 @@
-from ...utils import prevent_import
-
-prevent_import("torch")
 from typing import Callable, Any
 
 FUSIONS_INF: dict[tuple[type, ...], Callable[..., Any]] = {}
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py
index ceb8e6cc6d..3c770c3bae 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from functools import partial
 from ..ops import Op
 from typing import Literal
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/mmt.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/mmt.py
index f661af8777..4367afd437 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/mmt.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/mmt.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from ... import nvte
 from ..ops import Context, Grads, MMT, Add, GELU, GeGLU
 from ... import nvte
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py
index f2bcfec616..cb0372bd1d 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py
@@ -1,6 +1,3 @@
-from ...utils import prevent_import
-
-prevent_import("torch")
 from .op import Op, Context, Grads
 from .activation import Activation, ReLU, GELU, ReGLU, GeGLU, SwiGLU
 from .layernorm import LayerNorm
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/activation.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/activation.py
index 409cd1b392..059448dc74 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/activation.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/activation.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from typing import Callable
 from abc import ABC
 from ... import nvte
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/add.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/add.py
index f582ecfc1e..3a93939b42 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/add.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/add.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from ... import nvte
 from .op import Op, Context
 
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/attention.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/attention.py
index 4849c702bc..a44a6bdb8c 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/attention.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/attention.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from typing import Callable
 from abc import ABC
 from ... import nvte
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/layernorm.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/layernorm.py
index 4556352928..5d4f1aff93 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/layernorm.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/layernorm.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from ... import nvte
 from .op import Op, Context
 
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/mmt.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/mmt.py
index 6495d80be6..b326b7e9a0 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/mmt.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/mmt.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from ... import nvte
 from .op import Op, Context
 
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py
index 524dd6e02b..750562fec0 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from abc import ABC, abstractmethod
 from ... import nvte
 
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/rmsnorm.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/rmsnorm.py
index dc5a6bbe28..de56741fe7 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/rmsnorm.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/rmsnorm.py
@@ -1,7 +1,5 @@
 from __future__ import annotations
-from ...utils import prevent_import
 
-prevent_import("torch")
 from ... import nvte
 from .op import Op, Context
 
diff --git a/transformer_engine/pytorch/sequential/utils.py b/transformer_engine/pytorch/sequential/utils.py
index ba00f5aa89..d3104329a2 100644
--- a/transformer_engine/pytorch/sequential/utils.py
+++ b/transformer_engine/pytorch/sequential/utils.py
@@ -405,25 +405,6 @@ def macro_impl(*values: Unpack[Ts]) -> T:
         return injection_decorator
 
 
-def prevent_import(*names: str):
-    prev_import = __builtins__.__dict__["__import__"]
-
-    def restricted_import(
-        name: str,
-        globals: dict[str, Any] | None = None,
-        locals: dict[str, Any] | None = None,
-        fromlist: tuple[str, ...] = (),
-        level: int = 0,
-    ):
-        assert (
-            name not in names
-        ), f"Cannot import {name} from this module. See `ARCHITECTURE.md` for more information."
-
-        return prev_import(name, globals, locals, fromlist, level)
-
-    __builtins__.__dict__["__import__"] = restricted_import
-
-
 @overload
 def is_generic(t: type) -> Literal[False]:
     ...

From 11e2e12be5e0ab4d04cb2c4e106045d66fa46404 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 11:40:02 +0200
Subject: [PATCH 511/535] remove prevent_import

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline/compute_pipeline.py    | 3 ---
 1 file changed, 3 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py
index 9643a5fa37..2f9579819b 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py
@@ -1,7 +1,4 @@
 from __future__ import annotations
-from ..utils import prevent_import
-
-prevent_import("torch")
 from functools import reduce
 import operator
 from .. import nvte

From d8b774938c73b06e5c94a03e0580598d8d378593 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 11:46:57 +0200
Subject: [PATCH 512/535] reorganize file structure

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 setup.py                                                      | 2 +-
 transformer_engine/pytorch/sequential/RECIPES.md              | 2 +-
 transformer_engine/pytorch/sequential/nvte/__init__.py        | 2 +-
 transformer_engine/pytorch/sequential/nvte/_common.py         | 2 +-
 transformer_engine/pytorch/sequential/nvte/activation.py      | 2 +-
 transformer_engine/pytorch/sequential/nvte/add.py             | 2 +-
 transformer_engine/pytorch/sequential/nvte/attention.py       | 2 +-
 transformer_engine/pytorch/sequential/nvte/cast_transpose.py  | 2 +-
 .../pytorch/sequential/{ => nvte}/cpp_extensions/__init__.py  | 0
 .../pytorch/sequential/{ => nvte}/cpp_extensions/__init__.pyi | 0
 .../sequential/{ => nvte}/cpp_extensions/all_fp8_values.py    | 0
 .../sequential/{ => nvte}/cpp_extensions/dynamic_load.py      | 2 +-
 .../pytorch/sequential/{ => nvte}/cpp_extensions/py.typed     | 0
 .../pytorch/sequential/{ => nvte}/cppsrc/pybind.cpp           | 0
 .../pytorch/sequential/{ => nvte}/cppsrc/type_list.h          | 0
 transformer_engine/pytorch/sequential/nvte/dtype.py           | 4 ++--
 transformer_engine/pytorch/sequential/nvte/empty.py           | 2 +-
 transformer_engine/pytorch/sequential/nvte/misc_fusions.py    | 2 +-
 transformer_engine/pytorch/sequential/nvte/mmt.py             | 2 +-
 transformer_engine/pytorch/sequential/nvte/normalization.py   | 2 +-
 20 files changed, 15 insertions(+), 15 deletions(-)
 rename transformer_engine/pytorch/sequential/{ => nvte}/cpp_extensions/__init__.py (100%)
 rename transformer_engine/pytorch/sequential/{ => nvte}/cpp_extensions/__init__.pyi (100%)
 rename transformer_engine/pytorch/sequential/{ => nvte}/cpp_extensions/all_fp8_values.py (100%)
 rename transformer_engine/pytorch/sequential/{ => nvte}/cpp_extensions/dynamic_load.py (97%)
 rename transformer_engine/pytorch/sequential/{ => nvte}/cpp_extensions/py.typed (100%)
 rename transformer_engine/pytorch/sequential/{ => nvte}/cppsrc/pybind.cpp (100%)
 rename transformer_engine/pytorch/sequential/{ => nvte}/cppsrc/type_list.h (100%)

diff --git a/setup.py b/setup.py
index 4f0628fded..640cb19adb 100644
--- a/setup.py
+++ b/setup.py
@@ -538,7 +538,7 @@ def setup_pytorch_extension() -> setuptools.Extension:
 
 def setup_sequential_extension() -> setuptools.Extension:
     # Source files
-    src_dir = root_path / "transformer_engine" / "pytorch" / "sequential" / "cppsrc"
+    src_dir = root_path / "transformer_engine" / "pytorch" / "sequential" / "nvte" / "cppsrc"
     sources = [
         src_dir / "pybind.cpp"
     ]
diff --git a/transformer_engine/pytorch/sequential/RECIPES.md b/transformer_engine/pytorch/sequential/RECIPES.md
index ba56baeacd..91e30abee8 100644
--- a/transformer_engine/pytorch/sequential/RECIPES.md
+++ b/transformer_engine/pytorch/sequential/RECIPES.md
@@ -164,7 +164,7 @@ Let's say you're adding support for `nvte_xyz`.
         * Manually implement a C++ wrapper over `nvte_xyz`
         * Register the wrapper to pybind using `m.def`.
     * In `nvte`/`_nvte.pyi` describe the Python-side interface to `nvte_xyz`, by replacing the C++ types with their Python-side equivalents - either types defined in `nvte`/`_nvte.pyi` or according to [builtin Pybind11 conversions](https://pybind11.readthedocs.io/en/stable/advanced/cast/overview.html#conversion-table), and template specializations of `wrapped_arg`.
-2. In `nvte` create `xyz.py` importing `_nvte` using `from .. import cpp_extensions as _nvte`.
+2. In `nvte` create `xyz.py` importing `_nvte` using `from . import cpp_extensions as _nvte`.
 3. In `nvte`/`xyz.py` implement function `xyz`.
     * Note: usually, if `nvtexyz` requires temporary tensors, such as `workspace` or `barrier`, construct them inside of `xyz`, rather than take them as parameters.
     * Note: allow the user to specify the type of the output, if `nvte_xyz` supports that.
diff --git a/transformer_engine/pytorch/sequential/nvte/__init__.py b/transformer_engine/pytorch/sequential/nvte/__init__.py
index af71301f03..dc9d679af8 100644
--- a/transformer_engine/pytorch/sequential/nvte/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/__init__.py
@@ -1,5 +1,5 @@
 from ._common import make_nvte_tensor, torch_op
-from ..cpp_extensions import (
+from .cpp_extensions import (
     QKVLayout,
     BiasType,
     MaskType,
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 3bc7550204..9bd158beb2 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -9,7 +9,7 @@
 
 import torch
 from torch.autograd.function import FunctionCtx
-from .. import cpp_extensions as _nvte
+from . import cpp_extensions as _nvte
 from ..utils import (
     get_arg_names,
     get_arg_types,
diff --git a/transformer_engine/pytorch/sequential/nvte/activation.py b/transformer_engine/pytorch/sequential/nvte/activation.py
index ed0b8e254a..4595ed1656 100644
--- a/transformer_engine/pytorch/sequential/nvte/activation.py
+++ b/transformer_engine/pytorch/sequential/nvte/activation.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-from .. import cpp_extensions as _nvte
+from . import cpp_extensions as _nvte
 from .empty import empty
 from ._common import torch_op
 
diff --git a/transformer_engine/pytorch/sequential/nvte/add.py b/transformer_engine/pytorch/sequential/nvte/add.py
index de33a3d135..e3ea3e357f 100644
--- a/transformer_engine/pytorch/sequential/nvte/add.py
+++ b/transformer_engine/pytorch/sequential/nvte/add.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 import torch
-from .. import cpp_extensions as _nvte
+from . import cpp_extensions as _nvte
 
 from ._common import make_nvte_tensor
 from .dtype import is_fp8, te_to_torch_dtype
diff --git a/transformer_engine/pytorch/sequential/nvte/attention.py b/transformer_engine/pytorch/sequential/nvte/attention.py
index a71d177a4d..faef9305b8 100644
--- a/transformer_engine/pytorch/sequential/nvte/attention.py
+++ b/transformer_engine/pytorch/sequential/nvte/attention.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-from .. import cpp_extensions as _nvte
+from . import cpp_extensions as _nvte
 from .empty import empty
 
 
diff --git a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
index 6aa2ef5302..0d5ef504e6 100644
--- a/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
+++ b/transformer_engine/pytorch/sequential/nvte/cast_transpose.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 
-from .. import cpp_extensions as _nvte
+from . import cpp_extensions as _nvte
 from ._common import torch_op
 
 from .dtype import is_fp8
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
similarity index 100%
rename from transformer_engine/pytorch/sequential/cpp_extensions/__init__.py
rename to transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.pyi
similarity index 100%
rename from transformer_engine/pytorch/sequential/cpp_extensions/__init__.pyi
rename to transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.pyi
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/all_fp8_values.py b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/all_fp8_values.py
similarity index 100%
rename from transformer_engine/pytorch/sequential/cpp_extensions/all_fp8_values.py
rename to transformer_engine/pytorch/sequential/nvte/cpp_extensions/all_fp8_values.py
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/dynamic_load.py
similarity index 97%
rename from transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
rename to transformer_engine/pytorch/sequential/nvte/cpp_extensions/dynamic_load.py
index 218a0ea74c..b468e78972 100644
--- a/transformer_engine/pytorch/sequential/cpp_extensions/dynamic_load.py
+++ b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/dynamic_load.py
@@ -2,7 +2,7 @@
 import functools
 import inspect
 from typing import Any, Callable, TypeVar
-from ..utils import import_file_as_module
+from ...utils import import_file_as_module
 import torch
 import transformer_engine_cuda  # type: ignore
 
diff --git a/transformer_engine/pytorch/sequential/cpp_extensions/py.typed b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/py.typed
similarity index 100%
rename from transformer_engine/pytorch/sequential/cpp_extensions/py.typed
rename to transformer_engine/pytorch/sequential/nvte/cpp_extensions/py.typed
diff --git a/transformer_engine/pytorch/sequential/cppsrc/pybind.cpp b/transformer_engine/pytorch/sequential/nvte/cppsrc/pybind.cpp
similarity index 100%
rename from transformer_engine/pytorch/sequential/cppsrc/pybind.cpp
rename to transformer_engine/pytorch/sequential/nvte/cppsrc/pybind.cpp
diff --git a/transformer_engine/pytorch/sequential/cppsrc/type_list.h b/transformer_engine/pytorch/sequential/nvte/cppsrc/type_list.h
similarity index 100%
rename from transformer_engine/pytorch/sequential/cppsrc/type_list.h
rename to transformer_engine/pytorch/sequential/nvte/cppsrc/type_list.h
diff --git a/transformer_engine/pytorch/sequential/nvte/dtype.py b/transformer_engine/pytorch/sequential/nvte/dtype.py
index 687ef17380..060f57c25f 100644
--- a/transformer_engine/pytorch/sequential/nvte/dtype.py
+++ b/transformer_engine/pytorch/sequential/nvte/dtype.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
-from .. import cpp_extensions as _nvte
-from ..cpp_extensions import te_to_torch_dtype, torch_to_te_dtype, dtype_name, bit_width
+from . import cpp_extensions as _nvte
+from .cpp_extensions import te_to_torch_dtype, torch_to_te_dtype, dtype_name, bit_width
 
 
 def is_fp8(t: _nvte.Tensor | _nvte.DType):
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 272499bd01..068137a6a9 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 from typing import Sequence
 import torch
-from .. import cpp_extensions as _nvte
+from . import cpp_extensions as _nvte
 from .dtype import te_to_torch_dtype, is_fp8
 from . import execution_state
 
diff --git a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
index 578e352406..6226c96330 100644
--- a/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
+++ b/transformer_engine/pytorch/sequential/nvte/misc_fusions.py
@@ -1,5 +1,5 @@
 from __future__ import annotations
-from .. import cpp_extensions as _nvte
+from . import cpp_extensions as _nvte
 from ._common import torch_op
 from .dtype import is_fp8
 from .cast_transpose import cast_transpose_checked
diff --git a/transformer_engine/pytorch/sequential/nvte/mmt.py b/transformer_engine/pytorch/sequential/nvte/mmt.py
index 5bedcd2e29..b871e6e7f4 100644
--- a/transformer_engine/pytorch/sequential/nvte/mmt.py
+++ b/transformer_engine/pytorch/sequential/nvte/mmt.py
@@ -1,6 +1,6 @@
 from __future__ import annotations
 import subprocess
-from .. import cpp_extensions as _nvte
+from . import cpp_extensions as _nvte
 from ..utils import cache
 from ._common import torch_op
 import torch
diff --git a/transformer_engine/pytorch/sequential/nvte/normalization.py b/transformer_engine/pytorch/sequential/nvte/normalization.py
index 23aee64792..2d7ff0b497 100644
--- a/transformer_engine/pytorch/sequential/nvte/normalization.py
+++ b/transformer_engine/pytorch/sequential/nvte/normalization.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 import os
 import torch
-from .. import cpp_extensions as _nvte
+from . import cpp_extensions as _nvte
 from ..utils import contextmanager, cache
 from ._common import torch_op
 from . import execution_state

From 2933a6a8bd083de869f2020dba88e0b979c12c18 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 11:51:30 +0200
Subject: [PATCH 513/535] fix import

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/recipe.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/recipe.py b/transformer_engine/pytorch/sequential/recipe.py
index 7cbe70049b..3d7b47b40e 100644
--- a/transformer_engine/pytorch/sequential/recipe.py
+++ b/transformer_engine/pytorch/sequential/recipe.py
@@ -1,7 +1,7 @@
 from __future__ import annotations
 from typing import Callable, TypeVar, NamedTuple
 from types import TracebackType
-from .cpp_extensions import DType
+from .nvte import DType
 import torch
 
 T = TypeVar("T")

From 77f7e7efa2768af24e6b75ecd8b345aec6cb2de9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 11:53:49 +0200
Subject: [PATCH 514/535] fix import

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 9bd158beb2..3d9650c39b 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -247,7 +247,7 @@ def {func.__name__}_wrap{outer_sig}:
 def _run_full_code(*codes: str, **namespace: Any):
     source = """\
 import torch
-from .. import cpp_extensions
+from . import cpp_extensions
 import typing
 
 def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:

From 73ffe0d8236596037c25ebfa6d677efb3a7a1794 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 11:58:19 +0200
Subject: [PATCH 515/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 3d9650c39b..c4a2e1a9d5 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -27,7 +27,7 @@ def _type_name(t: type) -> str:
 
     return (
         result.replace("builtins.", "")
-        .replace("transformer_engine.pytorch.sequential.", "")
+        .replace("transformer_engine.pytorch.sequential.nvte.", "")
         .replace("collections.abc", "typing")
         .replace("__init__.pyi", "cpp_extensions")
         .replace("NoneType", "None")

From e2ea0566b1c052c10d382b9f60ca406567742537 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 13:23:19 +0200
Subject: [PATCH 516/535] further improve docs

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/ARCHITECTURE.md        |   33 +
 transformer_engine/pytorch/sequential/TODO.md |    2 +-
 .../pytorch/sequential/__init__.py            |    7 -
 .../pytorch/sequential/import_diagram.svg     | 1313 +++++++++++++++++
 4 files changed, 1347 insertions(+), 8 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/import_diagram.svg

diff --git a/transformer_engine/pytorch/sequential/ARCHITECTURE.md b/transformer_engine/pytorch/sequential/ARCHITECTURE.md
index 8145081599..5af5fe9bad 100644
--- a/transformer_engine/pytorch/sequential/ARCHITECTURE.md
+++ b/transformer_engine/pytorch/sequential/ARCHITECTURE.md
@@ -1,5 +1,38 @@
+# Architecure
+![Module dependency diagram](import_diagram.svg)
+_Generated with `pydeps .\transformer_engine\pytorch\sequential\ --only transformer_engine.pytorch.sequential --rmprefix transformer_engine.pytorch.sequential.`_
+
+## `ComputePipeline` and `Op`s
+
 The provided modules are a PyTorch interface to a framework-oblivious implementation present in `ops`. All modules are decomposed into `Op`s. An `Op` models a practically atomic operation. For example, a `Linear` layer is split into either an `MMT` (MatMulTranspose) and `Add` `Op` or into just an `MMT` `Op`. Such an `Op` can be thought of as a combination of an `nn.Module` and an `autograd.Function`, in the sense that it:
 1. Stores its trainable parameters (exposed through `require_grad`), like an `nn.Module`.
 2. Provides a `forward`, `backward` (and `inference`) method, like an `autograd.Function`.
 This is done to reduce the amount of needless boilerplate code. This allows for `Op` implementations to remain short, clean, and simple.
+
 The `Sequential` module itself is just a wrapper around a `ComputePipeline` object that is actually responsible for executing its constituent `Op`s, as well as managing the interaction between them, such as type inference or model parallelism.
+
+## Fusions
+
+Fusions of `Op`s are declared separately from them, making individual `Op`s self-contained and oblivious to the existence of other `Op`s.
+
+## Commands
+
+The implementations of the `forward`, `backward`, and `inference` passes for `Op`s and fusions use types and functions defined in `nvte`. This makes them oblivious to the framework, as instead of using `torch.Tensor`s, they use `nvte.Tensor`s, which, contrary to `torch.Tensor`s support FP8 `dtype`s.
+
+## Dependencies
+
+Currently, the code is structured in such a way, to maintain separation of concerns and the principle of least knowledge. While writing new code, maintain the current dependency graph:
+
+* `nvte` depends on `cpp_extensions`
+* `cpp_extensions` depends on `cppsrc`
+* `ops` depends on `nvte`
+* `fusions` depends on `nvte`
+* `fusions` depends on `ops`
+* `compute_pipeline` depends on `ops`
+* `compute_pipeline` depends on `fusions`
+* `module` depends on `compute_pipeline`
+
+For example:
+* `torch` **must not** be imported anywhere inside of the `compute_pipeline` folder
+* `cpp_extensions` **must not** be imported anywhere, except for inside `nvte`
+* `fusions` **must not** be imported anywhere, except for `compute_pipeline.py`
diff --git a/transformer_engine/pytorch/sequential/TODO.md b/transformer_engine/pytorch/sequential/TODO.md
index 62da80a1a7..232bd3e5ad 100644
--- a/transformer_engine/pytorch/sequential/TODO.md
+++ b/transformer_engine/pytorch/sequential/TODO.md
@@ -2,7 +2,7 @@
 - Inplace operations:
     - inplace `nvte.***` for use during inference
     - using those commands in `training` methods of `Op`s
-- Torch compile fullgraph support
+- Torch compile fullgraph support - requires Meta to first fix
 - Attention
 - Residual
 - Type inference
diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index fef1cdf231..262e26c5c7 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -1,4 +1,3 @@
-from .compute_pipeline import fusions, ops
 from .module import (
     Activation,
     ReLU,
@@ -11,7 +10,6 @@
     Linear,
     Sequential,
 )
-from . import nvte, module
 from .recipe import Recipe
 
 __all__ = [
@@ -26,11 +24,6 @@
     "RMSNorm",
     "Linear",
     "Sequential",
-    # Python modules
-    "nvte",
-    "ops",
-    "fusions",
-    "module",
     # Recipe context manager
     "Recipe",
 ]
diff --git a/transformer_engine/pytorch/sequential/import_diagram.svg b/transformer_engine/pytorch/sequential/import_diagram.svg
new file mode 100644
index 0000000000..e3fb549f58
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/import_diagram.svg
@@ -0,0 +1,1313 @@
+<?xml version="1.0" encoding="UTF-8" standalone="no"?>
+<!DOCTYPE svg PUBLIC "-//W3C//DTD SVG 1.1//EN"
+ "http://www.w3.org/Graphics/SVG/1.1/DTD/svg11.dtd">
+<!-- Generated by graphviz version 8.1.0 (20230707.0739)
+ -->
+<!-- Title: G Pages: 1 -->
+<svg width="4054pt" height="708pt"
+ viewBox="0.00 0.00 4053.78 707.93" xmlns="http://www.w3.org/2000/svg" xmlns:xlink="http://www.w3.org/1999/xlink">
+<g id="graph0" class="graph" transform="scale(1 1) rotate(0) translate(4 703.93)">
+<title>G</title><style>.edge>path:hover{stroke-width:8}</style>
+<polygon fill="white" stroke="none" points="-4,4 -4,-703.93 4049.78,-703.93 4049.78,4 -4,4"/>
+<!-- transformer_engine_pytorch_sequential -->
+<g id="node1" class="node">
+<title>transformer_engine_pytorch_sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#d10505" stroke="black" cx="1843.1" cy="-31.11" rx="71.77" ry="31.11"/>
+<text text-anchor="middle" x="1843.1" y="-39.61" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">transformer_engine.</text>
+<text text-anchor="middle" x="1843.1" y="-27.61" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">pytorch.</text>
+<text text-anchor="middle" x="1843.1" y="-15.61" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">sequential</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline -->
+<g id="node2" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#e50505" stroke="black" cx="3158.1" cy="-282.59" rx="55.17" ry="18"/>
+<text text-anchor="middle" x="3158.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_function -->
+<g id="node21" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_function</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#813737" stroke="black" cx="1434.1" cy="-197.48" rx="78.62" ry="18"/>
+<text text-anchor="middle" x="1434.1" y="-193.98" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline_function</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function -->
+<g id="edge1" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M3131.91,-266.29C3120.66,-260.51 3107.12,-254.59 3094.1,-251.48 2961.66,-219.83 2005.19,-220.14 1869.1,-215.48 1748.86,-211.36 1609.95,-205.79 1522.09,-202.17"/>
+<polygon fill="#e50505" stroke="black" points="1522.24,-198.63 1512.1,-201.71 1521.95,-205.62 1522.24,-198.63"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_Activation -->
+<g id="node25" class="node">
+<title>transformer_engine_pytorch_sequential_module_Activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="1843.1" cy="-120.85" rx="41.01" ry="22.63"/>
+<text text-anchor="middle" x="1843.1" y="-123.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module.</text>
+<text text-anchor="middle" x="1843.1" y="-111.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">Activation</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_Activation -->
+<g id="edge2" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_Activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M3131.88,-266.42C3120.62,-260.67 3107.09,-254.73 3094.1,-251.48 2867.89,-194.88 2264.38,-280.53 2046.1,-198.48"/>
+<path fill="none" stroke="black" d="M2046.1,-196.48C2033.87,-191.88 2033.91,-185.1 2022.1,-179.48 1968.36,-153.9 1949.22,-163.34 1893.1,-143.48 1890.18,-142.44 1887.18,-141.32 1884.18,-140.14"/>
+<polygon fill="#e50505" stroke="black" points="1885.63,-136.55 1875.05,-136.01 1882.99,-143.03 1885.63,-136.55"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_Linear -->
+<g id="node26" class="node">
+<title>transformer_engine_pytorch_sequential_module_Linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#964040" stroke="black" cx="2046.1" cy="-120.85" rx="46.15" ry="18"/>
+<text text-anchor="middle" x="2046.1" y="-117.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module.Linear</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_Linear -->
+<g id="edge3" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_Linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2046.1,-196.48C2028.87,-190 2030.77,-167.72 2035.87,-149.18"/>
+<polygon fill="#e50505" stroke="black" points="2039.46,-150.43 2039.12,-139.84 2032.78,-148.32 2039.46,-150.43"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_activation -->
+<g id="node29" class="node">
+<title>transformer_engine_pytorch_sequential_module_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="1942.1" cy="-120.85" rx="39.95" ry="22.63"/>
+<text text-anchor="middle" x="1942.1" y="-123.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module.</text>
+<text text-anchor="middle" x="1942.1" y="-111.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">activation</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_activation -->
+<g id="edge4" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2046.1,-196.48C2045.58,-196.29 2005.22,-167.28 1974.94,-145.49"/>
+<polygon fill="#e50505" stroke="black" points="1977.48,-142.29 1967.32,-139.29 1973.39,-147.97 1977.48,-142.29"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_base -->
+<g id="node30" class="node">
+<title>transformer_engine_pytorch_sequential_module_base</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#b30404" stroke="black" cx="1401.1" cy="-120.85" rx="43" ry="18"/>
+<text text-anchor="middle" x="1401.1" y="-117.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module.base</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_base -->
+<g id="edge5" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_base</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M3131.91,-266.29C3120.66,-260.52 3107.12,-254.6 3094.1,-251.48 2835.29,-189.54 2152.47,-290.36 1897.1,-215.48 1867.26,-206.73 1866.65,-189.17 1837.1,-179.48 1674.23,-126.06 1619.45,-184.86 1453.1,-143.48 1448.39,-142.31 1443.54,-140.77 1438.79,-139.06"/>
+<polygon fill="#e50505" stroke="black" points="1440.24,-135.48 1429.65,-135.11 1437.69,-142 1440.24,-135.48"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_linear -->
+<g id="node31" class="node">
+<title>transformer_engine_pytorch_sequential_module_linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#964040" stroke="black" cx="1740.1" cy="-120.85" rx="44.35" ry="18"/>
+<text text-anchor="middle" x="1740.1" y="-117.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module.linear</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_linear -->
+<g id="edge6" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M3131.9,-266.32C3120.65,-260.55 3107.12,-254.62 3094.1,-251.48 2864.56,-196.08 2265.1,-253.86 2032.1,-215.48 1977.37,-206.47 1845.4,-161.98 1793.1,-143.48 1788.84,-141.97 1784.41,-140.31 1780.01,-138.61"/>
+<polygon fill="#e50505" stroke="black" points="1781.49,-135.03 1770.9,-134.59 1778.91,-141.54 1781.49,-135.03"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_normalization -->
+<g id="node32" class="node">
+<title>transformer_engine_pytorch_sequential_module_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#9d4343" stroke="black" cx="2268.1" cy="-120.85" rx="52.15" ry="22.63"/>
+<text text-anchor="middle" x="2268.1" y="-123.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module.</text>
+<text text-anchor="middle" x="2268.1" y="-111.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">normalization</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_normalization -->
+<g id="edge7" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M4039.1,-196.48C4035.89,-152.95 2646.7,-127.95 2331.29,-122.84"/>
+<polygon fill="#e50505" stroke="black" points="2331.58,-119.33 2321.52,-122.66 2331.46,-126.32 2331.58,-119.33"/>
+<path fill="none" stroke="black" d="M3184.67,-266.36C3195.86,-260.67 3209.26,-254.79 3222.1,-251.48 3310.19,-228.77 4045.81,-289.2 4039.1,-198.48"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline -->
+<g id="node3" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#9b2626" stroke="black" cx="1194.1" cy="-282.59" rx="67" ry="22.63"/>
+<text text-anchor="middle" x="1194.1" y="-285.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="1194.1" y="-273.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline -->
+<g id="edge8" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1243.37,-298.29C1283.27,-310.14 1341.18,-325.39 1393.1,-331.71 1486.42,-343.05 2995.2,-359.14 3085.1,-331.71 3101.72,-326.64 3117.99,-316.37 3130.93,-306.54"/>
+<polygon fill="#9b2626" stroke="black" points="3132.67,-308.83 3138.32,-299.86 3128.32,-303.35 3132.67,-308.83"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function -->
+<g id="edge9" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1237.72,-265.07C1249.8,-260.57 1262.94,-255.77 1275.1,-251.48 1309.87,-239.23 1349.16,-226.12 1379.99,-216.01"/>
+<polygon fill="#9b2626" stroke="black" points="1380.68,-219.14 1389.1,-212.7 1378.51,-212.49 1380.68,-219.14"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_base -->
+<g id="edge10" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline&#45;&gt;transformer_engine_pytorch_sequential_module_base</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1228.92,-262.83C1256.65,-247.2 1295.87,-223.51 1327.1,-198.48"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions -->
+<g id="node4" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a13535" stroke="black" cx="3602.1" cy="-282.59" rx="67" ry="22.63"/>
+<text text-anchor="middle" x="3602.1" y="-285.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="3602.1" y="-273.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">fusions</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline -->
+<g id="edge11" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M3574.65,-303.42C3558.76,-314.16 3537.85,-326.14 3517.1,-331.71 3403.13,-362.27 1510.24,-345.95 1393.1,-331.71 1345.54,-325.92 1292.95,-312.64 1253.79,-301.34"/>
+<polygon fill="#a13535" stroke="black" points="1254.95,-297.74 1244.37,-298.29 1252.98,-304.46 1254.95,-297.74"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions__common -->
+<g id="node5" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions__common</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#964040" stroke="black" cx="1612.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="1612.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="1612.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">fusions.</text>
+<text text-anchor="middle" x="1612.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">_common</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt -->
+<g id="node8" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#8f3d3d" stroke="black" cx="3298.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="3298.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="3298.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">fusions.</text>
+<text text-anchor="middle" x="3298.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">mmt</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions__common&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt -->
+<g id="edge12" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions__common&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1649.76,-308.61C1665.25,-317.82 1683.82,-327.04 1702.1,-331.71 1783.44,-352.45 3132.02,-353.45 3213.1,-331.71 3226.75,-328.05 3240.46,-321.61 3252.78,-314.58"/>
+<polygon fill="#964040" stroke="black" points="3254.11,-317.26 3260.9,-309.12 3250.52,-311.25 3254.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions__storage -->
+<g id="node6" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions__storage</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#c24747" stroke="black" cx="1460.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="1460.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="1460.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">fusions.</text>
+<text text-anchor="middle" x="1460.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">_storage</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions__storage&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions__common -->
+<g id="edge13" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions__storage&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions__common</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1527.49,-282.59C1529.64,-282.59 1531.79,-282.59 1533.94,-282.59"/>
+<polygon fill="#c24747" stroke="black" points="1533.68,-286.09 1543.68,-282.59 1533.68,-279.09 1533.68,-286.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface -->
+<g id="node7" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#8f3d3d" stroke="black" cx="3450.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="3450.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="3450.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">fusions.</text>
+<text text-anchor="middle" x="3450.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">interface</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions__storage&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface -->
+<g id="edge14" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions__storage&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1496.31,-309.12C1510.75,-318.15 1527.98,-327.12 1545.1,-331.71 1593.93,-344.8 3316.27,-344.8 3365.1,-331.71 3378.75,-328.05 3392.46,-321.61 3404.78,-314.58"/>
+<polygon fill="#c24747" stroke="black" points="3406.11,-317.26 3412.9,-309.12 3402.52,-311.25 3406.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions -->
+<g id="edge15" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M3517.49,-282.59C3519.64,-282.59 3521.79,-282.59 3523.94,-282.59"/>
+<polygon fill="#8f3d3d" stroke="black" points="3523.68,-286.09 3533.68,-282.59 3523.68,-279.09 3523.68,-286.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions -->
+<g id="edge16" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M3334.31,-309.12C3348.75,-318.15 3365.98,-327.12 3383.1,-331.71 3440.63,-347.13 3459.58,-347.13 3517.1,-331.71 3534.12,-327.14 3551.25,-318.26 3565.63,-309.29"/>
+<polygon fill="#8f3d3d" stroke="black" points="3567.18,-311.81 3573.65,-303.42 3563.36,-305.94 3567.18,-311.81"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops -->
+<g id="node9" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#c70505" stroke="black" cx="1802.1" cy="-282.59" rx="67" ry="22.63"/>
+<text text-anchor="middle" x="1802.1" y="-285.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="1802.1" y="-273.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline -->
+<g id="edge17" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1829.55,-303.42C1845.45,-314.16 1866.36,-326.14 1887.1,-331.71 1951.39,-348.94 3021.45,-351.13 3085.1,-331.71 3101.72,-326.64 3117.99,-316.37 3130.93,-306.54"/>
+<polygon fill="#c70505" stroke="black" points="3132.67,-308.83 3138.32,-299.86 3128.32,-303.35 3132.67,-308.83"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline -->
+<g id="edge18" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1772.86,-303.44C1755.98,-314.18 1733.84,-326.16 1712.1,-331.71 1550.12,-373.03 1351.63,-328.94 1254.07,-301.33"/>
+<polygon fill="#c70505" stroke="black" points="1255.11,-297.7 1244.53,-298.31 1253.17,-304.43 1255.11,-297.7"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions__common -->
+<g id="edge19" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions__common</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1734.93,-282.59C1720,-282.59 1705.07,-282.59 1690.14,-282.59"/>
+<polygon fill="#c70505" stroke="black" points="1690.27,-279.09 1680.27,-282.59 1690.27,-286.09 1690.27,-279.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface -->
+<g id="edge20" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1829.55,-303.42C1845.45,-314.16 1866.36,-326.14 1887.1,-331.71 1966.41,-352.97 3285.79,-352.97 3365.1,-331.71 3378.75,-328.05 3392.46,-321.61 3404.78,-314.58"/>
+<polygon fill="#c70505" stroke="black" points="3406.11,-317.26 3412.9,-309.12 3402.52,-311.25 3406.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt -->
+<g id="edge21" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1829.55,-303.42C1845.45,-314.16 1866.36,-326.14 1887.1,-331.71 1958.26,-350.78 3141.95,-350.78 3213.1,-331.71 3226.75,-328.05 3240.46,-321.61 3252.78,-314.58"/>
+<polygon fill="#c70505" stroke="black" points="3254.11,-317.26 3260.9,-309.12 3250.52,-311.25 3254.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_types -->
+<g id="node20" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_types</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="2562.1" cy="-282.59" rx="67" ry="22.63"/>
+<text text-anchor="middle" x="2562.1" y="-285.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="2562.1" y="-273.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops_types</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_types -->
+<g id="edge22" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_types</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1829.55,-303.42C1845.45,-314.16 1866.36,-326.14 1887.1,-331.71 1950.42,-348.68 2413.79,-348.68 2477.1,-331.71 2494.12,-327.14 2511.25,-318.26 2525.63,-309.29"/>
+<polygon fill="#c70505" stroke="black" points="2527.18,-311.81 2533.65,-303.42 2523.36,-305.94 2527.18,-311.81"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function -->
+<g id="edge23" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1760.52,-264.56C1748,-259.86 1734.12,-255.07 1721.1,-251.48 1651.1,-232.16 1569.52,-217.86 1511.27,-209.02"/>
+<polygon fill="#c70505" stroke="black" points="1512.08,-205.45 1501.67,-207.43 1511.04,-212.37 1512.08,-205.45"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_Activation -->
+<g id="edge24" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_Activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1823.1,-196.48C1822.02,-181.91 1825.48,-166.24 1829.81,-153.03"/>
+<polygon fill="#c70505" stroke="black" points="1833.31,-154.63 1833.4,-144.04 1826.73,-152.26 1833.31,-154.63"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_Linear -->
+<g id="edge25" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_Linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2008.1,-196.48C2026.24,-188.09 2035.86,-167.19 2040.87,-149.64"/>
+<polygon fill="#c70505" stroke="black" points="2044.43,-150.83 2043.44,-140.28 2037.64,-149.15 2044.43,-150.83"/>
+<path fill="none" stroke="black" d="M1844.42,-264.78C1900.07,-242.63 1992.62,-205.65 2008.1,-198.48"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_activation -->
+<g id="edge26" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1820.69,-260.38C1845.69,-231.87 1890.16,-181.12 1917.78,-149.6"/>
+<polygon fill="#c70505" stroke="black" points="1920.8,-152.47 1924.76,-142.64 1915.54,-147.86 1920.8,-152.47"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_base -->
+<g id="edge27" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_base</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1759.03,-264.82C1693.03,-239.07 1563,-188.07 1453.1,-143.48 1449.14,-141.87 1445.01,-140.18 1440.89,-138.48"/>
+<polygon fill="#c70505" stroke="black" points="1442.34,-134.88 1431.77,-134.29 1439.67,-141.35 1442.34,-134.88"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_linear -->
+<g id="edge28" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1811.69,-259.71C1817.94,-243.15 1824.68,-219.7 1823.1,-198.48"/>
+<path fill="none" stroke="black" d="M1823.1,-196.48C1821.23,-171.18 1799.55,-152.23 1778.83,-139.76"/>
+<polygon fill="#c70505" stroke="black" points="1780.88,-136.34 1770.45,-134.49 1777.45,-142.44 1780.88,-136.34"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_normalization -->
+<g id="edge29" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops&#45;&gt;transformer_engine_pytorch_sequential_module_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2008.1,-196.48C2019.97,-190.99 2020.11,-184.69 2032.1,-179.48 2104.94,-147.86 2130.61,-164.8 2207.1,-143.48 2211.13,-142.36 2215.27,-141.11 2219.41,-139.79"/>
+<polygon fill="#c70505" stroke="black" points="2220.25,-142.86 2228.64,-136.39 2218.04,-136.22 2220.25,-142.86"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_Add -->
+<g id="node10" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_Add</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="2866.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="2866.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="2866.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="2866.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">Add</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_Add&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt -->
+<g id="edge30" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_Add&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2902.31,-309.12C2916.75,-318.15 2933.98,-327.12 2951.1,-331.71 3007.34,-346.78 3156.87,-346.78 3213.1,-331.71 3226.75,-328.05 3240.46,-321.61 3252.78,-314.58"/>
+<polygon fill="#a44646" stroke="black" points="3254.11,-317.26 3260.9,-309.12 3250.52,-311.25 3254.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_MMT -->
+<g id="node11" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_MMT</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="3018.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="3018.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="3018.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="3018.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">MMT</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_MMT&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt -->
+<g id="edge31" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_MMT&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M3054.31,-309.12C3068.75,-318.15 3085.98,-327.12 3103.1,-331.71 3150.32,-344.37 3165.88,-344.37 3213.1,-331.71 3226.75,-328.05 3240.46,-321.61 3252.78,-314.58"/>
+<polygon fill="#a44646" stroke="black" points="3254.11,-317.26 3260.9,-309.12 3250.52,-311.25 3254.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_Op -->
+<g id="node12" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_Op</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#dd1818" stroke="black" cx="1042.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="1042.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="1042.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="1042.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">Op</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline -->
+<g id="edge32" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1078.31,-309.12C1092.75,-318.15 1109.98,-327.12 1127.1,-331.71 1179.64,-345.79 3033.08,-347.58 3085.1,-331.71 3101.72,-326.64 3117.99,-316.37 3130.93,-306.54"/>
+<polygon fill="#dd1818" stroke="black" points="3132.67,-308.83 3138.32,-299.86 3128.32,-303.35 3132.67,-308.83"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline -->
+<g id="edge33" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1109.49,-282.59C1111.64,-282.59 1113.79,-282.59 1115.94,-282.59"/>
+<polygon fill="#dd1818" stroke="black" points="1115.68,-286.09 1125.68,-282.59 1115.68,-279.09 1115.68,-286.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface -->
+<g id="edge34" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1078.31,-309.12C1092.75,-318.15 1109.98,-327.12 1127.1,-331.71 1187.15,-347.81 3305.06,-347.81 3365.1,-331.71 3378.75,-328.05 3392.46,-321.61 3404.78,-314.58"/>
+<polygon fill="#dd1818" stroke="black" points="3406.11,-317.26 3412.9,-309.12 3402.52,-311.25 3406.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function -->
+<g id="edge35" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1090.22,-260.72C1099.36,-257.27 1108.94,-254 1118.1,-251.48 1214.9,-224.83 1242.16,-232.51 1341.1,-215.48 1348.47,-214.21 1356.16,-212.86 1363.82,-211.49"/>
+<polygon fill="#dd1818" stroke="black" points="1364.38,-214.76 1373.6,-209.55 1363.14,-207.87 1364.38,-214.76"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_module_base -->
+<g id="edge36" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_Op&#45;&gt;transformer_engine_pytorch_sequential_module_base</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1327.1,-196.48C1337.76,-187.94 1361.24,-163.89 1378.91,-145.38"/>
+<polygon fill="#dd1818" stroke="black" points="1380.72,-148.5 1385.07,-138.84 1375.65,-143.68 1380.72,-148.5"/>
+<path fill="none" stroke="black" d="M1091.24,-261.06C1100.11,-257.66 1109.33,-254.32 1118.1,-251.48 1209.28,-221.99 1252.33,-258.41 1327.1,-198.48"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_activation -->
+<g id="node13" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="2714.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="2714.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="2714.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="2714.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">activation</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_activation&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops -->
+<g id="edge37" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_activation&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2677.9,-309.12C2663.46,-318.15 2646.22,-327.12 2629.1,-331.71 2549.47,-353.06 1966.74,-353.06 1887.1,-331.71 1870.09,-327.14 1852.96,-318.26 1838.58,-309.29"/>
+<polygon fill="#a44646" stroke="black" points="1840.85,-305.94 1830.55,-303.42 1837.03,-311.81 1840.85,-305.94"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_add -->
+<g id="node14" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_add</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="3944.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="3944.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="3944.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="3944.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">add</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_add&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops -->
+<g id="edge38" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_add&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M3907.9,-309.12C3893.46,-318.15 3876.22,-327.12 3859.1,-331.71 3806.2,-345.89 1940.01,-345.89 1887.1,-331.71 1870.09,-327.14 1852.96,-318.26 1838.58,-309.29"/>
+<polygon fill="#a44646" stroke="black" points="1840.85,-305.94 1830.55,-303.42 1837.03,-311.81 1840.85,-305.94"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_attention -->
+<g id="node15" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_attention</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#995252" stroke="black" cx="3792.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="3792.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="3792.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="3792.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">attention</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_layernorm -->
+<g id="node16" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_layernorm</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="2106.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="2106.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="2106.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="2106.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">layernorm</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_layernorm&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops -->
+<g id="edge39" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_layernorm&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2069.9,-309.12C2055.46,-318.15 2038.22,-327.12 2021.1,-331.71 1963.58,-347.13 1944.63,-347.13 1887.1,-331.71 1870.09,-327.14 1852.96,-318.26 1838.58,-309.29"/>
+<polygon fill="#a44646" stroke="black" points="1840.85,-305.94 1830.55,-303.42 1837.03,-311.81 1840.85,-305.94"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_mmt -->
+<g id="node17" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="2258.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="2258.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="2258.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="2258.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">mmt</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_mmt&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops -->
+<g id="edge40" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_mmt&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2221.9,-309.12C2207.46,-318.15 2190.22,-327.12 2173.1,-331.71 2111.72,-348.17 1948.49,-348.17 1887.1,-331.71 1870.09,-327.14 1852.96,-318.26 1838.58,-309.29"/>
+<polygon fill="#a44646" stroke="black" points="1840.85,-305.94 1830.55,-303.42 1837.03,-311.81 1840.85,-305.94"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op -->
+<g id="node18" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#ef0606" stroke="black" cx="1954.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="1954.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="1954.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="1954.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">op</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops -->
+<g id="edge41" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1886.68,-282.59C1884.53,-282.59 1882.38,-282.59 1880.24,-282.59"/>
+<polygon fill="#ef0606" stroke="black" points="1880.49,-279.09 1870.49,-282.59 1880.49,-286.09 1880.49,-279.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_Add -->
+<g id="edge42" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_Add</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1990.31,-309.12C2004.75,-318.15 2021.98,-327.12 2039.1,-331.71 2118.74,-353.06 2701.47,-353.06 2781.1,-331.71 2794.75,-328.05 2808.46,-321.61 2820.78,-314.58"/>
+<polygon fill="#ef0606" stroke="black" points="2822.11,-317.26 2828.9,-309.12 2818.52,-311.25 2822.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_MMT -->
+<g id="edge43" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_MMT</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1990.31,-309.12C2004.75,-318.15 2021.98,-327.12 2039.1,-331.71 2087.08,-344.57 2885.13,-344.57 2933.1,-331.71 2946.75,-328.05 2960.46,-321.61 2972.78,-314.58"/>
+<polygon fill="#ef0606" stroke="black" points="2974.11,-317.26 2980.9,-309.12 2970.52,-311.25 2974.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_activation -->
+<g id="edge44" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1990.31,-309.12C2004.75,-318.15 2021.98,-327.12 2039.1,-331.71 2102.42,-348.68 2565.79,-348.68 2629.1,-331.71 2642.75,-328.05 2656.46,-321.61 2668.78,-314.58"/>
+<polygon fill="#ef0606" stroke="black" points="2670.11,-317.26 2676.9,-309.12 2666.52,-311.25 2670.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_add -->
+<g id="edge45" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_add</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1990.31,-309.12C2004.75,-318.15 2021.98,-327.12 2039.1,-331.71 2087.93,-344.8 3810.27,-344.8 3859.1,-331.71 3872.75,-328.05 3886.46,-321.61 3898.78,-314.58"/>
+<polygon fill="#ef0606" stroke="black" points="3900.11,-317.26 3906.9,-309.12 3896.52,-311.25 3900.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_attention -->
+<g id="edge46" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_attention</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1990.31,-309.12C2004.75,-318.15 2021.98,-327.12 2039.1,-331.71 2128.34,-355.63 3612.58,-354.54 3702.1,-331.71 3716.82,-327.95 3731.72,-321.25 3745.04,-313.98"/>
+<polygon fill="#ef0606" stroke="black" points="3746.49,-316.61 3753.45,-308.61 3743.03,-310.53 3746.49,-316.61"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_layernorm -->
+<g id="edge47" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_layernorm</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2021.49,-282.59C2023.64,-282.59 2025.79,-282.59 2027.94,-282.59"/>
+<polygon fill="#ef0606" stroke="black" points="2027.68,-286.09 2037.68,-282.59 2027.68,-279.09 2027.68,-286.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_mmt -->
+<g id="edge48" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1990.31,-309.12C2004.75,-318.15 2021.98,-327.12 2039.1,-331.71 2096.63,-347.13 2115.58,-347.13 2173.1,-331.71 2186.75,-328.05 2200.46,-321.61 2212.78,-314.58"/>
+<polygon fill="#ef0606" stroke="black" points="2214.11,-317.26 2220.9,-309.12 2210.52,-311.25 2214.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_rmsnorm -->
+<g id="node19" class="node">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_rmsnorm</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="2410.1" cy="-282.59" rx="67" ry="31.11"/>
+<text text-anchor="middle" x="2410.1" y="-291.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">compute_pipeline.</text>
+<text text-anchor="middle" x="2410.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">ops.</text>
+<text text-anchor="middle" x="2410.1" y="-267.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">rmsnorm</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_rmsnorm -->
+<g id="edge49" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_op&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_rmsnorm</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1990.31,-309.12C2004.75,-318.15 2021.98,-327.12 2039.1,-331.71 2100.49,-348.17 2263.72,-348.17 2325.1,-331.71 2338.75,-328.05 2352.46,-321.61 2364.78,-314.58"/>
+<polygon fill="#ef0606" stroke="black" points="2366.11,-317.26 2372.9,-309.12 2362.52,-311.25 2366.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_rmsnorm&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops -->
+<g id="edge50" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_rmsnorm&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2373.9,-309.12C2359.46,-318.15 2342.22,-327.12 2325.1,-331.71 2278.1,-344.31 1934.11,-344.31 1887.1,-331.71 1870.09,-327.14 1852.96,-318.26 1838.58,-309.29"/>
+<polygon fill="#a44646" stroke="black" points="1840.85,-305.94 1830.55,-303.42 1837.03,-311.81 1840.85,-305.94"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_ops_types&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface -->
+<g id="edge51" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_ops_types&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2589.55,-303.42C2605.45,-314.16 2626.36,-326.14 2647.1,-331.71 2724.16,-352.37 3288.05,-352.37 3365.1,-331.71 3378.75,-328.05 3392.46,-321.61 3404.78,-314.58"/>
+<polygon fill="#a44646" stroke="black" points="3406.11,-317.26 3412.9,-309.12 3402.52,-311.25 3406.11,-317.26"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_compute_pipeline_function&#45;&gt;transformer_engine_pytorch_sequential_module_base -->
+<g id="edge52" class="edge">
+<title>transformer_engine_pytorch_sequential_compute_pipeline_function&#45;&gt;transformer_engine_pytorch_sequential_module_base</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1426.45,-179.17C1422.47,-170.16 1417.5,-158.94 1413.03,-148.82"/>
+<polygon fill="#813737" stroke="black" points="1415.85,-147.54 1408.6,-139.81 1409.45,-150.37 1415.85,-147.54"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_exec_saving_source -->
+<g id="node22" class="node">
+<title>transformer_engine_pytorch_sequential_exec_saving_source</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#b65353" stroke="black" cx="420.1" cy="-681.93" rx="62.39" ry="18"/>
+<text text-anchor="middle" x="420.1" y="-678.43" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">exec_saving_source</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_utils -->
+<g id="node52" class="node">
+<title>transformer_engine_pytorch_sequential_utils</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#f90606" stroke="black" cx="420.1" cy="-609.93" rx="27" ry="18"/>
+<text text-anchor="middle" x="420.1" y="-606.43" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">utils</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_exec_saving_source&#45;&gt;transformer_engine_pytorch_sequential_utils -->
+<g id="edge53" class="edge">
+<title>transformer_engine_pytorch_sequential_exec_saving_source&#45;&gt;transformer_engine_pytorch_sequential_utils</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M420.1,-663.63C420.1,-656.17 420.1,-647.25 420.1,-638.9"/>
+<polygon fill="#b65353" stroke="black" points="423.6,-639.04 420.1,-629.04 416.6,-639.04 423.6,-639.04"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_meta -->
+<g id="node23" class="node">
+<title>transformer_engine_pytorch_sequential_meta</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#b83d3d" stroke="black" cx="964.1" cy="-367.71" rx="27" ry="18"/>
+<text text-anchor="middle" x="964.1" y="-364.21" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">meta</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_meta&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline -->
+<g id="edge54" class="edge">
+<title>transformer_engine_pytorch_sequential_meta&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M987.97,-358.87C1018.34,-348.81 1072.36,-330.63 1118.1,-313.71 1125.87,-310.83 1134.05,-307.7 1142.04,-304.59"/>
+<polygon fill="#b83d3d" stroke="black" points="1143,-307.58 1151.03,-300.66 1140.44,-301.06 1143,-307.58"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_execution_state -->
+<g id="node46" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_execution_state</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#c82323" stroke="black" cx="60.1" cy="-282.59" rx="60.1" ry="22.63"/>
+<text text-anchor="middle" x="60.1" y="-285.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.</text>
+<text text-anchor="middle" x="60.1" y="-273.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">execution_state</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_meta&#45;&gt;transformer_engine_pytorch_sequential_nvte_execution_state -->
+<g id="edge55" class="edge">
+<title>transformer_engine_pytorch_sequential_meta&#45;&gt;transformer_engine_pytorch_sequential_nvte_execution_state</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M937.54,-363.33C906.71,-359.52 854.3,-353.38 809.1,-349.71 507.45,-325.2 423.63,-383.35 129.1,-313.71 120.88,-311.76 112.4,-308.88 104.33,-305.65"/>
+<polygon fill="#b83d3d" stroke="black" points="105.94,-302.11 95.37,-301.43 103.21,-308.55 105.94,-302.11"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module -->
+<g id="node24" class="node">
+<title>transformer_engine_pytorch_sequential_module</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#9d4343" stroke="black" cx="1311.1" cy="-120.85" rx="28.56" ry="18"/>
+<text text-anchor="middle" x="1311.1" y="-117.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_module&#45;&gt;transformer_engine_pytorch_sequential -->
+<g id="edge56" class="edge">
+<title>transformer_engine_pytorch_sequential_module&#45;&gt;transformer_engine_pytorch_sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1330.15,-107.12C1336.01,-103.73 1342.63,-100.41 1349.1,-98.23 1488.39,-51.26 1660.36,-37.51 1760.29,-33.58"/>
+<polygon fill="#9d4343" stroke="black" points="1760.36,-37.04 1770.22,-33.18 1760.1,-30.05 1760.36,-37.04"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_Activation&#45;&gt;transformer_engine_pytorch_sequential -->
+<g id="edge57" class="edge">
+<title>transformer_engine_pytorch_sequential_module_Activation&#45;&gt;transformer_engine_pytorch_sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1843.1,-98.16C1843.1,-90.6 1843.1,-81.84 1843.1,-73.23"/>
+<polygon fill="#a44646" stroke="black" points="1846.6,-73.49 1843.1,-63.49 1839.6,-73.49 1846.6,-73.49"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_Linear&#45;&gt;transformer_engine_pytorch_sequential -->
+<g id="edge58" class="edge">
+<title>transformer_engine_pytorch_sequential_module_Linear&#45;&gt;transformer_engine_pytorch_sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2016.15,-106.91C1986.49,-94.09 1940.23,-74.09 1903.01,-58"/>
+<polygon fill="#964040" stroke="black" points="1904.83,-54.55 1894.26,-53.79 1902.05,-60.97 1904.83,-54.55"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_Sequential -->
+<g id="node27" class="node">
+<title>transformer_engine_pytorch_sequential_module_Sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#b34c4c" stroke="black" cx="2154.1" cy="-120.85" rx="43.66" ry="22.63"/>
+<text text-anchor="middle" x="2154.1" y="-123.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module.</text>
+<text text-anchor="middle" x="2154.1" y="-111.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">Sequential</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_Sequential&#45;&gt;transformer_engine_pytorch_sequential -->
+<g id="edge59" class="edge">
+<title>transformer_engine_pytorch_sequential_module_Sequential&#45;&gt;transformer_engine_pytorch_sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2121.29,-105.65C2114.67,-103.01 2107.71,-100.41 2101.1,-98.23 2040.11,-78.07 1969.33,-60.32 1917.35,-48.3"/>
+<polygon fill="#b34c4c" stroke="black" points="1918.42,-44.72 1907.89,-45.9 1916.85,-51.55 1918.42,-44.72"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module__common -->
+<g id="node28" class="node">
+<title>transformer_engine_pytorch_sequential_module__common</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#c24747" stroke="black" cx="1622.1" cy="-120.85" rx="56.07" ry="18"/>
+<text text-anchor="middle" x="1622.1" y="-117.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module._common</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_module__common&#45;&gt;transformer_engine_pytorch_sequential_module_Linear -->
+<g id="edge60" class="edge">
+<title>transformer_engine_pytorch_sequential_module__common&#45;&gt;transformer_engine_pytorch_sequential_module_Linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1645.48,-137.67C1659.43,-146.66 1677.93,-156.82 1696.1,-161.48 1757.67,-177.27 1921.07,-179.22 1982.1,-161.48 1994.71,-157.82 2007.22,-150.84 2017.78,-143.68"/>
+<polygon fill="#c24747" stroke="black" points="2019.42,-146.1 2025.52,-137.43 2015.35,-140.4 2019.42,-146.1"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module__common&#45;&gt;transformer_engine_pytorch_sequential_module_linear -->
+<g id="edge61" class="edge">
+<title>transformer_engine_pytorch_sequential_module__common&#45;&gt;transformer_engine_pytorch_sequential_module_linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1678.34,-120.85C1680.51,-120.85 1682.68,-120.85 1684.85,-120.85"/>
+<polygon fill="#c24747" stroke="black" points="1684.71,-124.35 1694.71,-120.85 1684.71,-117.35 1684.71,-124.35"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_activation&#45;&gt;transformer_engine_pytorch_sequential_module -->
+<g id="edge62" class="edge">
+<title>transformer_engine_pytorch_sequential_module_activation&#45;&gt;transformer_engine_pytorch_sequential_module</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1920.97,-140.38C1910.66,-148.6 1897.59,-157.23 1884.1,-161.48 1828.37,-179.06 1412.88,-181.87 1358.1,-161.48 1348.45,-157.89 1339.47,-151.32 1331.99,-144.51"/>
+<polygon fill="#a44646" stroke="black" points="1335.08,-142.66 1325.5,-138.14 1330.17,-147.65 1335.08,-142.66"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_Activation -->
+<g id="edge63" class="edge">
+<title>transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_Activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1419.65,-137.42C1431.03,-146.45 1446.39,-156.73 1462.1,-161.48 1530.59,-182.2 1715.78,-182.73 1784.1,-161.48 1794.24,-158.33 1804.18,-152.76 1812.92,-146.74"/>
+<polygon fill="#b30404" stroke="black" points="1814.57,-149.13 1820.55,-140.39 1810.43,-143.49 1814.57,-149.13"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_Linear -->
+<g id="edge64" class="edge">
+<title>transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_Linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1419.65,-137.42C1431.03,-146.45 1446.39,-156.73 1462.1,-161.48 1517.41,-178.21 1926.62,-177.6 1982.1,-161.48 1994.71,-157.82 2007.22,-150.84 2017.78,-143.68"/>
+<polygon fill="#b30404" stroke="black" points="2019.42,-146.1 2025.52,-137.43 2015.35,-140.4 2019.42,-146.1"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_Sequential -->
+<g id="edge65" class="edge">
+<title>transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_Sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1419.65,-137.42C1431.03,-146.45 1446.39,-156.73 1462.1,-161.48 1529.11,-181.75 2025.03,-181.5 2092.1,-161.48 2102.74,-158.31 2113.25,-152.66 2122.5,-146.57"/>
+<polygon fill="#b30404" stroke="black" points="2124.12,-149 2130.3,-140.4 2120.11,-143.27 2124.12,-149"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_activation -->
+<g id="edge66" class="edge">
+<title>transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1419.65,-137.42C1431.03,-146.45 1446.39,-156.73 1462.1,-161.48 1506.98,-175.06 1839.39,-175.58 1884.1,-161.48 1894.01,-158.36 1903.69,-152.87 1912.21,-146.93"/>
+<polygon fill="#b30404" stroke="black" points="1914.06,-149.17 1919.97,-140.38 1909.87,-143.56 1914.06,-149.17"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_linear -->
+<g id="edge67" class="edge">
+<title>transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1419.65,-137.42C1431.03,-146.45 1446.39,-156.73 1462.1,-161.48 1508.05,-175.38 1632.11,-175.21 1678.1,-161.48 1690.28,-157.85 1702.29,-150.97 1712.45,-143.89"/>
+<polygon fill="#b30404" stroke="black" points="1714.25,-146.18 1720.21,-137.42 1710.09,-140.55 1714.25,-146.18"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_normalization -->
+<g id="edge68" class="edge">
+<title>transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1419.65,-137.42C1431.03,-146.45 1446.39,-156.73 1462.1,-161.48 1540.38,-185.16 2119.14,-182.74 2198.1,-161.48 2209.95,-158.29 2221.85,-152.56 2232.4,-146.38"/>
+<polygon fill="#b30404" stroke="black" points="2234,-148.88 2240.66,-140.64 2230.32,-142.93 2234,-148.88"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_sequential -->
+<g id="node33" class="node">
+<title>transformer_engine_pytorch_sequential_module_sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#b34c4c" stroke="black" cx="1505.1" cy="-120.85" rx="42.6" ry="22.63"/>
+<text text-anchor="middle" x="1505.1" y="-123.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">module.</text>
+<text text-anchor="middle" x="1505.1" y="-111.35" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">sequential</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_sequential -->
+<g id="edge69" class="edge">
+<title>transformer_engine_pytorch_sequential_module_base&#45;&gt;transformer_engine_pytorch_sequential_module_sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1444.57,-120.85C1446.76,-120.85 1448.95,-120.85 1451.13,-120.85"/>
+<polygon fill="#b30404" stroke="black" points="1451.07,-124.35 1461.07,-120.85 1451.07,-117.35 1451.07,-124.35"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_linear&#45;&gt;transformer_engine_pytorch_sequential_module -->
+<g id="edge70" class="edge">
+<title>transformer_engine_pytorch_sequential_module_linear&#45;&gt;transformer_engine_pytorch_sequential_module</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1721.21,-137.42C1709.63,-146.45 1694.01,-156.73 1678.1,-161.48 1609.96,-181.82 1424.75,-186.29 1358.1,-161.48 1348.45,-157.89 1339.47,-151.32 1331.99,-144.51"/>
+<polygon fill="#964040" stroke="black" points="1335.08,-142.66 1325.5,-138.14 1330.17,-147.65 1335.08,-142.66"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_normalization&#45;&gt;transformer_engine_pytorch_sequential_module -->
+<g id="edge71" class="edge">
+<title>transformer_engine_pytorch_sequential_module_normalization&#45;&gt;transformer_engine_pytorch_sequential_module</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2241.66,-140.64C2229.15,-148.8 2213.57,-157.32 2198.1,-161.48 2153.04,-173.61 1401.84,-177.76 1358.1,-161.48 1348.45,-157.89 1339.47,-151.32 1331.99,-144.51"/>
+<polygon fill="#9d4343" stroke="black" points="1335.08,-142.66 1325.5,-138.14 1330.17,-147.65 1335.08,-142.66"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_module_sequential&#45;&gt;transformer_engine_pytorch_sequential_module -->
+<g id="edge72" class="edge">
+<title>transformer_engine_pytorch_sequential_module_sequential&#45;&gt;transformer_engine_pytorch_sequential_module</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1482.72,-140.39C1471.84,-148.61 1458.11,-157.24 1444.1,-161.48 1407.52,-172.55 1393.92,-174.82 1358.1,-161.48 1348.45,-157.89 1339.47,-151.32 1331.99,-144.51"/>
+<polygon fill="#b34c4c" stroke="black" points="1335.08,-142.66 1325.5,-138.14 1330.17,-147.65 1335.08,-142.66"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte -->
+<g id="node34" class="node">
+<title>transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#950303" stroke="black" cx="986.1" cy="-524.82" rx="27" ry="18"/>
+<text text-anchor="middle" x="986.1" y="-521.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline -->
+<g id="edge73" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1013.41,-522.98C1182.61,-517.62 2081.91,-487 2115.1,-440.71"/>
+<path fill="none" stroke="black" d="M2115.1,-438.71C2118.25,-434.32 1479.88,-330.06 1264.25,-294.99"/>
+<polygon fill="#950303" stroke="black" points="1265.13,-291.42 1254.7,-293.27 1264.01,-298.33 1265.13,-291.42"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions__common -->
+<g id="edge74" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions__common</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2115.1,-438.71C2196.47,-418.65 2819.83,-438.58 2866.1,-368.71"/>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2902.13,-312.32 1757.03,-326.7 1693.1,-313.71 1685.81,-312.22 1678.3,-310.18 1670.93,-307.86"/>
+<polygon fill="#950303" stroke="black" points="1672.24,-304.27 1661.65,-304.41 1670.02,-310.91 1672.24,-304.27"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface -->
+<g id="edge75" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_interface</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2928.78,-272.08 3263.87,-340.75 3374.1,-313.71 3380.11,-312.23 3386.27,-310.39 3392.36,-308.34"/>
+<polygon fill="#950303" stroke="black" points="3393.25,-311.38 3401.51,-304.74 3390.91,-304.79 3393.25,-311.38"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt -->
+<g id="edge76" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2910.27,-300.02 3144.86,-334.46 3222.1,-313.71 3227.99,-312.12 3234.03,-310.23 3240.02,-308.16"/>
+<polygon fill="#950303" stroke="black" points="3240.79,-311.25 3249.01,-304.56 3238.42,-304.66 3240.79,-311.25"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_Add -->
+<g id="edge77" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_Add</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2874.17,-354.53 2875.86,-338.99 2874.95,-324.65"/>
+<polygon fill="#950303" stroke="black" points="2878.35,-324.57 2873.81,-315 2871.39,-325.31 2878.35,-324.57"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_MMT -->
+<g id="edge78" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_MMT</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2877.69,-349.21 2921.8,-326.1 2959.54,-308.69"/>
+<polygon fill="#950303" stroke="black" points="2960.83,-311.49 2968.48,-304.16 2957.93,-305.12 2960.83,-311.49"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_Op -->
+<g id="edge79" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_Op</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1012.57,-519.99C1070.56,-510.02 1208.23,-477.31 1265.1,-385.71 1326.76,-286.38 1165.78,-328.91 1118.1,-313.71 1112.61,-311.95 1106.95,-310 1101.31,-307.95"/>
+<polygon fill="#950303" stroke="black" points="1102.81,-304.4 1092.22,-304.19 1100.36,-310.96 1102.81,-304.4"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_activation -->
+<g id="edge80" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2872.41,-357.19 2817.75,-329.71 2772.23,-308.94"/>
+<polygon fill="#950303" stroke="black" points="2773.94,-305.42 2763.39,-304.48 2771.06,-311.8 2773.94,-305.42"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_add -->
+<g id="edge81" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_add</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2927.67,-273.76 3759.18,-337.5 3868.1,-313.71 3874.23,-312.37 3880.51,-310.59 3886.7,-308.57"/>
+<polygon fill="#950303" stroke="black" points="3887.72,-311.58 3896.01,-304.98 3885.41,-304.97 3887.72,-311.58"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_attention -->
+<g id="edge82" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_attention</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2918.05,-288.28 3619.08,-333.25 3711.1,-313.71 3718.39,-312.16 3725.89,-310.08 3733.25,-307.74"/>
+<polygon fill="#950303" stroke="black" points="3734.17,-310.78 3742.53,-304.27 3731.94,-304.15 3734.17,-310.78"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_layernorm -->
+<g id="edge83" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_layernorm</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2908.2,-303.15 2256.37,-330.88 2182.1,-313.71 2176.08,-312.31 2169.91,-310.52 2163.81,-308.51"/>
+<polygon fill="#950303" stroke="black" points="2165.25,-304.95 2154.65,-304.94 2162.93,-311.56 2165.25,-304.95"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_mmt -->
+<g id="edge84" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2898.91,-317.18 2391.83,-327.73 2334.1,-313.71 2328.1,-312.25 2321.93,-310.41 2315.84,-308.37"/>
+<polygon fill="#950303" stroke="black" points="2317.29,-304.82 2306.69,-304.78 2314.95,-311.42 2317.29,-304.82"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_op -->
+<g id="edge85" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_op</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2917.5,-289.11 2120.93,-334.04 2030.1,-313.71 2023.98,-312.33 2017.71,-310.54 2011.52,-308.51"/>
+<polygon fill="#950303" stroke="black" points="2012.81,-304.9 2002.22,-304.9 2010.5,-311.51 2012.81,-304.9"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_rmsnorm -->
+<g id="edge86" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_rmsnorm</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2913.19,-295.62 2568.55,-335.45 2486.1,-313.71 2480.21,-312.15 2474.16,-310.27 2468.17,-308.22"/>
+<polygon fill="#950303" stroke="black" points="2469.77,-304.72 2459.18,-304.63 2467.41,-311.31 2469.77,-304.72"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_types -->
+<g id="edge87" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_ops_types</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2923.55,-279.97 2737.41,-344.73 2638.1,-313.71 2629.82,-311.12 2621.16,-308.05 2612.77,-304.88"/>
+<polygon fill="#950303" stroke="black" points="2614.31,-301.33 2603.72,-300.98 2611.78,-307.86 2614.31,-301.33"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function -->
+<g id="edge88" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1707.1,-281.59C1692.06,-276.68 1701.1,-260.5 1688.1,-251.48 1673.21,-241.14 1576.6,-222.85 1506.94,-210.69"/>
+<polygon fill="#950303" stroke="black" points="1507.89,-207.13 1497.44,-208.87 1506.7,-214.03 1507.89,-207.13"/>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2936.13,-260.99 1835.69,-377.5 1726.1,-313.71 1712.43,-305.74 1722.15,-288.5 1707.1,-283.59"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_module_Linear -->
+<g id="edge89" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_module_Linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2916.03,-291.33 3616.29,-379.69 3678.1,-313.71 3697.01,-293.52 3696.98,-271.69 3678.1,-251.48 3558.23,-123.12 2272.45,-182.07 2101.1,-143.48 2095.99,-142.33 2090.73,-140.78 2085.59,-139.03"/>
+<polygon fill="#950303" stroke="black" points="2086.86,-135.4 2076.27,-135.23 2084.44,-141.97 2086.86,-135.4"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_module_base -->
+<g id="edge90" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_module_base</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M970.06,-509.98C956.77,-497.61 938.45,-478.31 928.1,-457.71 909.96,-421.56 909.1,-409.15 909.1,-368.71 909.1,-368.71 909.1,-368.71 909.1,-281.59 909.1,-252.94 939.5,-262.12 966.1,-251.48 1130.32,-185.81 1182.05,-201.54 1349.1,-143.48 1353.36,-142 1357.78,-140.35 1362.15,-138.64"/>
+<polygon fill="#950303" stroke="black" points="1363.22,-141.58 1371.19,-134.6 1360.6,-135.09 1363.22,-141.58"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_module_linear -->
+<g id="edge91" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_module_linear</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1707.1,-281.59C1681.98,-273.4 1711.02,-192.27 1728.61,-148.89"/>
+<polygon fill="#950303" stroke="black" points="1732.11,-150.57 1732.69,-139.99 1725.64,-147.9 1732.11,-150.57"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_module_normalization -->
+<g id="edge92" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_module_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M2866.1,-366.71C2936.56,-259.41 3924.17,-398.98 4020.1,-313.71 4058.9,-279.22 4042.93,-250.24 4039.1,-198.48"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_recipe -->
+<g id="node51" class="node">
+<title>transformer_engine_pytorch_sequential_recipe</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#d02424" stroke="black" cx="1052.1" cy="-439.71" rx="27" ry="18"/>
+<text text-anchor="middle" x="1052.1" y="-436.21" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">recipe</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_recipe -->
+<g id="edge93" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte&#45;&gt;transformer_engine_pytorch_sequential_recipe</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M998.21,-508.57C1008.01,-496.23 1021.99,-478.63 1033.25,-464.45"/>
+<polygon fill="#950303" stroke="black" points="1036.37,-467.14 1039.85,-457.13 1030.89,-462.79 1036.37,-467.14"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_DType -->
+<g id="node35" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_DType</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a44646" stroke="black" cx="865.1" cy="-524.82" rx="38.49" ry="18"/>
+<text text-anchor="middle" x="865.1" y="-521.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.DType</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_DType&#45;&gt;transformer_engine_pytorch_sequential_recipe -->
+<g id="edge94" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_DType&#45;&gt;transformer_engine_pytorch_sequential_recipe</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M887.42,-509.74C896.45,-504.35 907.08,-498.38 917.1,-493.71 959.53,-473.9 972.89,-475.72 1016.1,-457.71 1017.77,-457.01 1019.47,-456.28 1021.18,-455.53"/>
+<polygon fill="#a44646" stroke="black" points="1022.27,-458.43 1029.93,-451.1 1019.38,-452.05 1022.27,-458.43"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte__common -->
+<g id="node36" class="node">
+<title>transformer_engine_pytorch_sequential_nvte__common</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#db0505" stroke="black" cx="643.1" cy="-524.82" rx="47.51" ry="18"/>
+<text text-anchor="middle" x="643.1" y="-521.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte._common</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge95" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M659.79,-542.06C672.16,-553.54 690.12,-567.64 709.1,-573.93 756.99,-589.79 889.41,-593.03 936.1,-573.93 948.35,-568.92 959.21,-559.31 967.66,-549.91"/>
+<polygon fill="#db0505" stroke="black" points="970.98,-552.39 974.7,-542.47 965.61,-547.9 970.98,-552.39"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_activation -->
+<g id="node37" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a13535" stroke="black" cx="500.1" cy="-282.59" rx="39.95" ry="22.63"/>
+<text text-anchor="middle" x="500.1" y="-285.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.</text>
+<text text-anchor="middle" x="500.1" y="-273.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">activation</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_activation -->
+<g id="edge96" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M567.1,-438.71C541.66,-398.98 521.74,-347.95 510.45,-315.5"/>
+<polygon fill="#db0505" stroke="black" points="513.5,-314.59 506.96,-306.25 506.87,-316.84 513.5,-314.59"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_add -->
+<g id="node38" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_add</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#a13535" stroke="black" cx="740.1" cy="-524.82" rx="31.27" ry="18"/>
+<text text-anchor="middle" x="740.1" y="-521.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.add</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_add -->
+<g id="edge97" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_add</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M690.85,-524.82C693.15,-524.82 695.46,-524.82 697.76,-524.82"/>
+<polygon fill="#db0505" stroke="black" points="697.55,-528.32 707.55,-524.82 697.55,-521.32 697.55,-528.32"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cast_transpose -->
+<g id="node40" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_cast_transpose</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#993333" stroke="black" cx="616.1" cy="-282.59" rx="58.51" ry="22.63"/>
+<text text-anchor="middle" x="616.1" y="-285.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.</text>
+<text text-anchor="middle" x="616.1" y="-273.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">cast_transpose</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_cast_transpose -->
+<g id="edge98" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_cast_transpose</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M567.1,-438.71C564.85,-432.79 589.77,-359.14 604.92,-315.48"/>
+<polygon fill="#db0505" stroke="black" points="608.46,-316.95 608.44,-306.35 601.85,-314.65 608.46,-316.95"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_misc_fusions -->
+<g id="node47" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_misc_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#793434" stroke="black" cx="744.1" cy="-282.59" rx="51.62" ry="22.63"/>
+<text text-anchor="middle" x="744.1" y="-285.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.</text>
+<text text-anchor="middle" x="744.1" y="-273.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">misc_fusions</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions -->
+<g id="edge99" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M637.33,-506.72C632.28,-488.24 627.87,-459.01 643.1,-440.71"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_mmt -->
+<g id="node48" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#883a3a" stroke="black" cx="847.1" cy="-282.59" rx="33.52" ry="18"/>
+<text text-anchor="middle" x="847.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.mmt</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt -->
+<g id="edge100" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M646,-506.43C650.19,-487.12 659.9,-456.59 681.1,-440.71"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_normalization -->
+<g id="node49" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#813737" stroke="black" cx="390.1" cy="-282.59" rx="52.15" ry="22.63"/>
+<text text-anchor="middle" x="390.1" y="-285.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.</text>
+<text text-anchor="middle" x="390.1" y="-273.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">normalization</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization -->
+<g id="edge101" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte__common&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M626.26,-507.55C610.06,-491.43 585.4,-465.6 567.1,-440.71"/>
+<path fill="none" stroke="black" d="M567.1,-438.71C545.56,-409.38 468.3,-345.77 423.29,-309.78"/>
+<polygon fill="#db0505" stroke="black" points="425.75,-306.46 415.75,-302.97 421.39,-311.94 425.75,-306.46"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_activation&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge102" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_activation&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M525.34,-300.43C532.56,-304.97 540.53,-309.72 548.1,-313.71 668.69,-377.14 722.17,-356.11 828.36,-432.3"/>
+<polygon fill="#a13535" stroke="black" points="825.97,-435.62 836.1,-438.71 830.11,-429.97 825.97,-435.62"/>
+<path fill="none" stroke="black" d="M837.1,-440.71C879.93,-472.72 899.38,-465.99 945.1,-493.71 953.41,-498.74 962.15,-505.01 969.42,-510.52"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_activation&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions -->
+<g id="edge103" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_activation&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M517.34,-303.29C527.63,-313.99 541.68,-325.98 557.1,-331.71 606.27,-349.96 625.15,-347.67 675.1,-331.71 689.03,-327.26 702.55,-318.85 713.87,-310.24"/>
+<polygon fill="#a13535" stroke="black" points="715.84,-312.35 721.45,-303.36 711.46,-306.89 715.84,-312.35"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_add&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge104" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_add&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M752.71,-541.5C762.54,-553.04 777.32,-567.44 794.1,-573.93 852.97,-596.7 877.69,-597.82 936.1,-573.93 948.35,-568.92 959.21,-559.31 967.66,-549.91"/>
+<polygon fill="#a13535" stroke="black" points="970.98,-552.39 974.7,-542.47 965.61,-547.9 970.98,-552.39"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_add&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions -->
+<g id="edge105" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_add&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M722.04,-509.83C693.07,-487.2 639.79,-444.69 643.1,-440.71"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_attention -->
+<g id="node39" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_attention</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#924e4e" stroke="black" cx="276.1" cy="-282.59" rx="44.35" ry="18"/>
+<text text-anchor="middle" x="276.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.attention</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cast_transpose&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge106" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cast_transpose&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M795.1,-368.71C819.32,-395.72 808.05,-416.98 837.1,-438.71"/>
+<path fill="none" stroke="black" d="M653.39,-300.46C695.39,-319.51 760.99,-349.44 785.5,-361.54"/>
+<polygon fill="#993333" stroke="black" points="783.64,-365.05 794.1,-366.71 786.96,-358.88 783.64,-365.05"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cast_transpose&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions -->
+<g id="edge107" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cast_transpose&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M675.1,-282.59C677.14,-282.59 679.17,-282.59 681.21,-282.59"/>
+<polygon fill="#993333" stroke="black" points="681.08,-286.09 691.08,-282.59 681.08,-279.09 681.08,-286.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions -->
+<g id="node41" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#d10505" stroke="black" cx="427.1" cy="-524.82" rx="59.57" ry="22.63"/>
+<text text-anchor="middle" x="427.1" y="-527.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.</text>
+<text text-anchor="middle" x="427.1" y="-515.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">cpp_extensions</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge108" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M452.03,-545.62C466.53,-556.36 485.73,-568.34 505.1,-573.93 551.12,-587.21 891.78,-592.06 936.1,-573.93 948.35,-568.92 959.21,-559.31 967.66,-549.91"/>
+<polygon fill="#d10505" stroke="black" points="970.98,-552.39 974.7,-542.47 965.61,-547.9 970.98,-552.39"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_DType -->
+<g id="edge109" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_DType</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M452.03,-545.62C466.53,-556.36 485.73,-568.34 505.1,-573.93 561.9,-590.32 713.7,-588.02 771.1,-573.93 793.58,-568.41 816.66,-556.47 834.31,-545.74"/>
+<polygon fill="#d10505" stroke="black" points="835.92,-548.24 842.53,-539.96 832.2,-542.31 835.92,-548.24"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte__common -->
+<g id="edge110" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte__common</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M452.03,-545.62C466.53,-556.36 485.73,-568.34 505.1,-573.93 535.85,-582.8 546.73,-583.99 577.1,-573.93 592.23,-568.92 606.71,-558.95 618.23,-549.29"/>
+<polygon fill="#d10505" stroke="black" points="620.24,-552.3 625.42,-543.06 615.61,-547.05 620.24,-552.3"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_activation -->
+<g id="edge111" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M432.96,-501.99C441.92,-468.89 459.84,-404.11 477.1,-349.71 480.66,-338.5 484.81,-326.32 488.6,-315.5"/>
+<polygon fill="#d10505" stroke="black" points="492.2,-316.82 492.24,-306.23 485.6,-314.49 492.2,-316.82"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_add -->
+<g id="edge112" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_add</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M452.03,-545.62C466.53,-556.36 485.73,-568.34 505.1,-573.93 544.82,-585.39 652.93,-589.77 691.1,-573.93 703.03,-568.98 713.56,-559.57 721.77,-550.3"/>
+<polygon fill="#d10505" stroke="black" points="724.98,-552.9 728.63,-542.95 719.58,-548.45 724.98,-552.9"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_attention -->
+<g id="edge113" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_attention</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M390.33,-506.73C380.29,-502.28 369.35,-497.64 359.1,-493.71 299.31,-470.75 267.09,-489.06 225.1,-440.71"/>
+<path fill="none" stroke="black" d="M225.1,-438.71C198.85,-408.47 195.94,-386.76 211.1,-349.71 218.27,-332.19 232.57,-316.81 245.94,-305.31"/>
+<polygon fill="#d10505" stroke="black" points="247.54,-307.7 253.07,-298.66 243.11,-302.28 247.54,-307.7"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_cast_transpose -->
+<g id="edge114" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_cast_transpose</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M529.1,-438.71C529.12,-389.53 562.8,-341.5 588.24,-312.23"/>
+<polygon fill="#d10505" stroke="black" points="590.43,-314.91 594.49,-305.12 585.21,-310.24 590.43,-314.91"/>
+<path fill="none" stroke="black" d="M463.18,-506.45C487.33,-492.51 516.86,-470.37 529.1,-440.71"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_dtype -->
+<g id="node44" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_dtype</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#df0b0b" stroke="black" cx="541.1" cy="-524.82" rx="36.23" ry="18"/>
+<text text-anchor="middle" x="541.1" y="-521.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.dtype</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_dtype -->
+<g id="edge115" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_dtype</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M486.78,-524.82C489.1,-524.82 491.42,-524.82 493.74,-524.82"/>
+<polygon fill="#d10505" stroke="black" points="493.6,-528.32 503.6,-524.82 493.6,-521.32 493.6,-528.32"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_empty -->
+<g id="node45" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_empty</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#d10505" stroke="black" cx="176.1" cy="-282.59" rx="38.03" ry="18"/>
+<text text-anchor="middle" x="176.1" y="-279.09" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.empty</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_empty -->
+<g id="edge116" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_empty</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M391.23,-506.5C381,-501.96 369.74,-497.32 359.1,-493.71 295.01,-471.91 258,-506.53 211.1,-457.71 173.26,-418.31 171.04,-350.05 173.25,-311.75"/>
+<polygon fill="#d10505" stroke="black" points="176.81,-312.12 174.05,-301.89 169.83,-311.6 176.81,-312.12"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions -->
+<g id="edge117" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M643.1,-438.71C676.54,-398.53 708.27,-346.78 726.95,-314.39"/>
+<polygon fill="#d10505" stroke="black" points="730.4,-316.41 732.32,-305.99 724.32,-312.94 730.4,-316.41"/>
+<path fill="none" stroke="black" d="M464.52,-506.96C474.71,-502.51 485.78,-497.81 496.1,-493.71 560.63,-468.02 604.12,-498.18 643.1,-440.71"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt -->
+<g id="edge118" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M681.1,-438.71C710.65,-416.57 785.74,-343.87 823.97,-306.39"/>
+<polygon fill="#d10505" stroke="black" points="825.86,-309.46 830.54,-299.96 820.95,-304.47 825.86,-309.46"/>
+<path fill="none" stroke="black" d="M463.12,-506.55C473.6,-501.95 485.17,-497.28 496.1,-493.71 565.8,-470.94 590.1,-487.48 657.1,-457.71 669.05,-452.4 670.52,-448.38 681.1,-440.71"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization -->
+<g id="edge119" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M225.1,-438.71C204.71,-415.21 205.63,-392.97 225.1,-368.71"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions_all_fp8_values -->
+<g id="node42" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions_all_fp8_values</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#b65353" stroke="black" cx="288.1" cy="-524.82" rx="61.7" ry="31.11"/>
+<text text-anchor="middle" x="288.1" y="-533.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.</text>
+<text text-anchor="middle" x="288.1" y="-521.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">cpp_extensions.</text>
+<text text-anchor="middle" x="288.1" y="-509.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">all_fp8_values</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions_all_fp8_values&#45;&gt;transformer_engine_pytorch_sequential_nvte_cpp_extensions -->
+<g id="edge120" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions_all_fp8_values&#45;&gt;transformer_engine_pytorch_sequential_nvte_cpp_extensions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M350.27,-524.82C352.29,-524.82 354.3,-524.82 356.31,-524.82"/>
+<polygon fill="#b65353" stroke="black" points="356.08,-528.32 366.08,-524.82 356.08,-521.32 356.08,-528.32"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions_dynamic_load -->
+<g id="node43" class="node">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions_dynamic_load</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#b34c4c" stroke="black" cx="108.1" cy="-524.82" rx="61.7" ry="31.11"/>
+<text text-anchor="middle" x="108.1" y="-533.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">nvte.</text>
+<text text-anchor="middle" x="108.1" y="-521.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">cpp_extensions.</text>
+<text text-anchor="middle" x="108.1" y="-509.32" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">dynamic_load</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_cpp_extensions_dynamic_load&#45;&gt;transformer_engine_pytorch_sequential_nvte_cpp_extensions -->
+<g id="edge121" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_cpp_extensions_dynamic_load&#45;&gt;transformer_engine_pytorch_sequential_nvte_cpp_extensions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M151.07,-547.52C172.89,-557.78 200.21,-568.76 226.1,-573.93 280.15,-584.73 297.2,-589.37 350.1,-573.93 365.54,-569.43 380.82,-560.79 393.66,-551.99"/>
+<polygon fill="#b34c4c" stroke="black" points="395.46,-554.3 401.54,-545.62 391.37,-548.61 395.46,-554.3"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge122" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M554.13,-541.99C563.96,-553.44 578.56,-567.53 595.1,-573.93 630.44,-587.6 901.03,-588.27 936.1,-573.93 948.35,-568.92 959.21,-559.31 967.66,-549.91"/>
+<polygon fill="#df0b0b" stroke="black" points="970.98,-552.39 974.7,-542.47 965.61,-547.9 970.98,-552.39"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_add -->
+<g id="edge123" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_add</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M554.13,-541.99C563.96,-553.44 578.56,-567.53 595.1,-573.93 634.9,-589.32 651.69,-590.28 691.1,-573.93 703.03,-568.98 713.56,-559.57 721.77,-550.3"/>
+<polygon fill="#df0b0b" stroke="black" points="724.98,-552.9 728.63,-542.95 719.58,-548.45 724.98,-552.9"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_cast_transpose -->
+<g id="edge124" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_cast_transpose</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M537.17,-506.73C533.67,-490 529.1,-463.74 529.1,-440.71"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_empty -->
+<g id="edge125" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_empty</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M520.07,-509.69C512.52,-504.63 503.94,-498.9 496.1,-493.71 390.11,-423.44 263.79,-340.83 206.74,-303.58"/>
+<polygon fill="#df0b0b" stroke="black" points="209.16,-300.33 198.88,-297.79 205.34,-306.19 209.16,-300.33"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions -->
+<g id="edge126" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M562.69,-509.93C584.87,-494.88 619.43,-469.15 643.1,-440.71"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization -->
+<g id="edge127" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_dtype&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M527.81,-507.93C507.27,-482.94 467.23,-432.44 439.1,-385.71 425.4,-362.93 412.51,-335.74 403.39,-315.15"/>
+<polygon fill="#df0b0b" stroke="black" points="406.31,-314.09 399.11,-306.33 399.9,-316.89 406.31,-314.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge128" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M196.64,-297.99C204.68,-303.3 214.12,-309.13 223.1,-313.71 262.22,-333.65 275.27,-331.24 315.1,-349.71 406.76,-392.19 418.28,-428.88 515.1,-457.71 698.91,-512.42 765.52,-426.42 945.1,-493.71 951.14,-495.97 957.07,-499.39 962.47,-503.13"/>
+<polygon fill="#d10505" stroke="black" points="959.87,-506.31 969.96,-509.56 964.1,-500.73 959.87,-506.31"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_activation -->
+<g id="edge129" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_activation</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M189.74,-299.78C200,-311.24 215.16,-325.33 232.1,-331.71 275.78,-348.14 398.29,-347.76 442.1,-331.71 454.18,-327.28 465.46,-319.11 474.81,-310.68"/>
+<polygon fill="#d10505" stroke="black" points="476.71,-313.75 481.5,-304.3 471.86,-308.7 476.71,-313.75"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_attention -->
+<g id="edge130" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_attention</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M214.39,-282.59C216.41,-282.59 218.43,-282.59 220.45,-282.59"/>
+<polygon fill="#d10505" stroke="black" points="220.26,-286.09 230.26,-282.59 220.26,-279.09 220.26,-286.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_cast_transpose -->
+<g id="edge131" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_cast_transpose</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M189.74,-299.78C200,-311.24 215.16,-325.33 232.1,-331.71 296.16,-355.82 474.46,-351.07 540.1,-331.71 555.38,-327.2 570.48,-318.56 583.14,-309.76"/>
+<polygon fill="#d10505" stroke="black" points="584.87,-312.11 590.9,-303.39 580.76,-306.45 584.87,-312.11"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions -->
+<g id="edge132" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_misc_fusions</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M189.74,-299.78C200,-311.24 215.16,-325.33 232.1,-331.71 278.17,-349.04 628.22,-346.69 675.1,-331.71 689.03,-327.26 702.55,-318.85 713.87,-310.24"/>
+<polygon fill="#d10505" stroke="black" points="715.84,-312.35 721.45,-303.36 711.46,-306.89 715.84,-312.35"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt -->
+<g id="edge133" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M189.74,-299.78C200,-311.24 215.16,-325.33 232.1,-331.71 290.75,-353.78 737.98,-355.14 796.1,-331.71 808.45,-326.73 819.47,-317.17 828.09,-307.81"/>
+<polygon fill="#d10505" stroke="black" points="831.15,-310.61 835.01,-300.74 825.84,-306.05 831.15,-310.61"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization -->
+<g id="edge134" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_empty&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M189.74,-299.78C200,-311.24 215.16,-325.33 232.1,-331.71 268.71,-345.48 282.81,-343.48 320.1,-331.71 334.32,-327.22 348.15,-318.69 359.71,-309.99"/>
+<polygon fill="#d10505" stroke="black" points="361.41,-312.32 367.08,-303.37 357.07,-306.83 361.41,-312.32"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_execution_state&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge135" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_execution_state&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M90.3,-302.6C151.58,-340.05 296.14,-422.81 430.1,-457.71 652.14,-515.54 729.7,-414.68 945.1,-493.71 951.16,-495.93 957.1,-499.33 962.49,-503.06"/>
+<polygon fill="#c82323" stroke="black" points="959.9,-506.25 969.98,-509.5 964.13,-500.67 959.9,-506.25"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_execution_state&#45;&gt;transformer_engine_pytorch_sequential_nvte_empty -->
+<g id="edge136" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_execution_state&#45;&gt;transformer_engine_pytorch_sequential_nvte_empty</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M120.37,-282.59C122.55,-282.59 124.72,-282.59 126.9,-282.59"/>
+<polygon fill="#c82323" stroke="black" points="126.79,-286.09 136.79,-282.59 126.79,-279.09 126.79,-286.09"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_execution_state&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt -->
+<g id="edge137" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_execution_state&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M85.03,-303.4C99.53,-314.13 118.73,-326.11 138.1,-331.71 208.35,-351.98 728.3,-359.05 796.1,-331.71 808.45,-326.73 819.47,-317.17 828.09,-307.81"/>
+<polygon fill="#c82323" stroke="black" points="831.15,-310.61 835.01,-300.74 825.84,-306.05 831.15,-310.61"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_execution_state&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization -->
+<g id="edge138" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_execution_state&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M85.03,-303.4C99.53,-314.13 118.73,-326.11 138.1,-331.71 215.82,-354.13 242.97,-356.07 320.1,-331.71 334.32,-327.22 348.15,-318.69 359.71,-309.99"/>
+<polygon fill="#c82323" stroke="black" points="361.41,-312.32 367.08,-303.37 357.07,-306.83 361.41,-312.32"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_misc_fusions&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge139" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_misc_fusions&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M754.56,-305.17C762.46,-320.36 774.29,-341.02 788.15,-358.45"/>
+<polygon fill="#793434" stroke="black" points="785.98,-360.31 795.1,-365.71 791.34,-355.8 785.98,-360.31"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_mmt&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge140" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_mmt&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M848.09,-300.98C849.01,-321.34 849.88,-356.05 847.1,-385.71 845.31,-404.91 827.75,-417.9 830.76,-429.99"/>
+<polygon fill="#883a3a" stroke="black" points="828.39,-431.68 837.1,-437.71 834.05,-427.56 828.39,-431.68"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_nvte_normalization&#45;&gt;transformer_engine_pytorch_sequential_nvte -->
+<g id="edge141" class="edge">
+<title>transformer_engine_pytorch_sequential_nvte_normalization&#45;&gt;transformer_engine_pytorch_sequential_nvte</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M424.09,-300.12C448.33,-312.5 481.25,-330.54 508.1,-349.71 537.44,-370.64 596.21,-442.97 629.1,-457.71 758.11,-515.48 813.49,-442.13 945.1,-493.71 951.11,-496.06 957.03,-499.52 962.41,-503.27"/>
+<polygon fill="#813737" stroke="black" points="959.82,-506.45 969.91,-509.69 964.04,-500.87 959.82,-506.45"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_persistent -->
+<g id="node50" class="node">
+<title>transformer_engine_pytorch_sequential_persistent</title><style>.edge>path:hover{stroke-width:8}</style>
+<ellipse fill="#ce3b3b" stroke="black" cx="972.1" cy="-439.71" rx="35.33" ry="18"/>
+<text text-anchor="middle" x="972.1" y="-436.21" font-family="Helvetica,sans-Serif" font-size="10.00" fill="#ffffff">persistent</text>
+</g>
+<!-- transformer_engine_pytorch_sequential_persistent&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function -->
+<g id="edge142" class="edge">
+<title>transformer_engine_pytorch_sequential_persistent&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M999.16,-427.82C1067.81,-400.14 1245.15,-328.2 1270.1,-313.71 1309.36,-290.91 1313.94,-277.55 1351.1,-251.48 1366.15,-240.93 1383.18,-229.9 1397.89,-220.65"/>
+<polygon fill="#ce3b3b" stroke="black" points="1399.55,-223.12 1406.18,-214.85 1395.84,-217.18 1399.55,-223.12"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_persistent&#45;&gt;transformer_engine_pytorch_sequential_meta -->
+<g id="edge143" class="edge">
+<title>transformer_engine_pytorch_sequential_persistent&#45;&gt;transformer_engine_pytorch_sequential_meta</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M970.13,-421.4C969.27,-413.94 968.26,-405.03 967.3,-396.67"/>
+<polygon fill="#ce3b3b" stroke="black" points="970.67,-396.35 966.06,-386.81 963.72,-397.14 970.67,-396.35"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_persistent&#45;&gt;transformer_engine_pytorch_sequential_nvte_execution_state -->
+<g id="edge144" class="edge">
+<title>transformer_engine_pytorch_sequential_persistent&#45;&gt;transformer_engine_pytorch_sequential_nvte_execution_state</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M938.26,-433.94C785.86,-412.46 168.97,-325.14 129.1,-313.71 121.33,-311.48 113.28,-308.56 105.55,-305.43"/>
+<polygon fill="#ce3b3b" stroke="black" points="107.18,-301.9 96.61,-301.22 104.45,-308.34 107.18,-301.9"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_recipe&#45;&gt;transformer_engine_pytorch_sequential -->
+<g id="edge145" class="edge">
+<title>transformer_engine_pytorch_sequential_recipe&#45;&gt;transformer_engine_pytorch_sequential</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1043.94,-422.26C1034.49,-403.85 1017.91,-373.48 1000.1,-349.71 986.91,-332.09 974.23,-334.16 966.1,-313.71 955.89,-288.01 951.56,-275 966.1,-251.48 1046.32,-121.78 1126.94,-141.72 1273.1,-98.23 1441.28,-48.18 1647.87,-35.7 1760.39,-32.79"/>
+<polygon fill="#d02424" stroke="black" points="1760.4,-36.27 1770.32,-32.53 1760.24,-29.27 1760.4,-36.27"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_recipe&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline -->
+<g id="edge146" class="edge">
+<title>transformer_engine_pytorch_sequential_recipe&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_compute_pipeline</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1077.6,-433.29C1126.17,-422.42 1229.12,-396.61 1251.1,-368.71"/>
+<path fill="none" stroke="black" d="M1251.1,-366.71C1265.51,-348.43 1249.56,-326.71 1230.91,-310.06"/>
+<polygon fill="#d02424" stroke="black" points="1233.74,-307.02 1223.83,-303.26 1229.23,-312.37 1233.74,-307.02"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_recipe&#45;&gt;transformer_engine_pytorch_sequential_meta -->
+<g id="edge147" class="edge">
+<title>transformer_engine_pytorch_sequential_recipe&#45;&gt;transformer_engine_pytorch_sequential_meta</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1035.14,-425.21C1022.23,-414.94 1004.26,-400.65 989.63,-389.01"/>
+<polygon fill="#d02424" stroke="black" points="992.02,-385.65 982.02,-382.16 987.67,-391.13 992.02,-385.65"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_recipe&#45;&gt;transformer_engine_pytorch_sequential_module_base -->
+<g id="edge148" class="edge">
+<title>transformer_engine_pytorch_sequential_recipe&#45;&gt;transformer_engine_pytorch_sequential_module_base</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M1251.1,-366.71C1301.88,-302.27 1263.08,-249.79 1327.1,-198.48"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions__common -->
+<g id="edge149" class="edge">
+<title>transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_fusions__common</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M931.1,-523.82C946.58,-520.49 936.85,-502.34 950.1,-493.71 1041.58,-434.1 1087.54,-485.58 1193.1,-457.71 1278.81,-435.07 1297.16,-419.5 1379.1,-385.71 1439.58,-360.76 1508.09,-330.49 1555.08,-309.42"/>
+<polygon fill="#f90606" stroke="black" points="1556.37,-312.22 1564.06,-304.93 1553.5,-305.84 1556.37,-312.22"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function -->
+<g id="edge150" class="edge">
+<title>transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_compute_pipeline_function</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M931.1,-523.82C946.51,-520.22 937.33,-503.05 950.1,-493.71 1001.26,-456.28 1027.95,-477.69 1088.1,-457.71 1128.4,-444.32 1230.44,-410.24 1265.1,-385.71 1330.18,-339.65 1330.3,-310.31 1384.1,-251.48 1392.6,-242.19 1402.05,-232.11 1410.42,-223.26"/>
+<polygon fill="#f90606" stroke="black" points="1412.41,-226.2 1416.76,-216.54 1407.33,-221.38 1412.41,-226.2"/>
+<path fill="none" stroke="black" d="M447.57,-609.05C539.29,-608.98 833.65,-604.86 912.1,-555.93 925.53,-547.56 915.73,-529.59 931.1,-525.82"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte__common -->
+<g id="edge151" class="edge">
+<title>transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte__common</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M445.07,-602.45C477.98,-593.57 537.43,-576.37 586.1,-555.93 593.41,-552.86 601.04,-549.19 608.25,-545.48"/>
+<polygon fill="#f90606" stroke="black" points="609.55,-548.22 616.75,-540.45 606.27,-542.03 609.55,-548.22"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte_cpp_extensions_dynamic_load -->
+<g id="edge152" class="edge">
+<title>transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte_cpp_extensions_dynamic_load</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M393.91,-604.44C349.99,-596.59 258.94,-579.01 184.1,-555.93 177.78,-553.98 171.25,-551.75 164.78,-549.39"/>
+<polygon fill="#f90606" stroke="black" points="166.32,-545.85 155.72,-545.62 163.86,-552.41 166.32,-545.85"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte_execution_state -->
+<g id="edge153" class="edge">
+<title>transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte_execution_state</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M392.79,-609.55C313.1,-610.71 83.57,-609.27 37.1,-555.93 -22.17,-487.9 19.31,-370.66 44.56,-314.86"/>
+<polygon fill="#f90606" stroke="black" points="48.02,-316.73 49.06,-306.19 41.67,-313.78 48.02,-316.73"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt -->
+<g id="edge154" class="edge">
+<title>transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte_mmt</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M447.38,-608.71C522.72,-607.55 731.32,-600.29 780.1,-555.93 798.41,-539.29 829.88,-377.42 842.07,-311.4"/>
+<polygon fill="#f90606" stroke="black" points="845.63,-312.42 843.99,-301.96 838.74,-311.16 845.63,-312.42"/>
+</g>
+<!-- transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization -->
+<g id="edge155" class="edge">
+<title>transformer_engine_pytorch_sequential_utils&#45;&gt;transformer_engine_pytorch_sequential_nvte_normalization</title><style>.edge>path:hover{stroke-width:8}</style>
+<path fill="none" stroke="black" d="M393.33,-605.81C343.47,-599.42 239.43,-583.08 217.1,-555.93 164.2,-491.6 172.97,-433.66 225.1,-368.71"/>
+<path fill="none" stroke="black" d="M225.1,-366.71C226.17,-365.38 298.41,-329.25 346.94,-305.06"/>
+<polygon fill="#f90606" stroke="black" points="348.21,-307.84 355.61,-300.25 345.09,-301.58 348.21,-307.84"/>
+</g>
+</g>
+</svg>

From ed0fe63cad95f1d4192465abd23d22603710d4d5 Mon Sep 17 00:00:00 2001
From: Jan Bielak <janekb04@icloud.com>
Date: Fri, 1 Sep 2023 13:26:48 +0200
Subject: [PATCH 517/535] Rename readme.md to README.md

Signed-off-by: Jan Bielak <janekb04@icloud.com>
Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/{readme.md => README.md} | 0
 1 file changed, 0 insertions(+), 0 deletions(-)
 rename transformer_engine/pytorch/sequential/{readme.md => README.md} (100%)

diff --git a/transformer_engine/pytorch/sequential/readme.md b/transformer_engine/pytorch/sequential/README.md
similarity index 100%
rename from transformer_engine/pytorch/sequential/readme.md
rename to transformer_engine/pytorch/sequential/README.md

From df74c0e861569f020045ad0765bcdae5cf76e52a Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 14:05:08 +0200
Subject: [PATCH 518/535] scaling factor updates

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/README.md              |  2 +
 transformer_engine/pytorch/sequential/TODO.md |  2 +-
 .../sequential/compute_pipeline/__init__.py   |  3 +-
 .../compute_pipeline/compute_pipeline.py      |  2 +-
 .../sequential/compute_pipeline_function.py   |  8 +--
 .../pytorch/sequential/exec_saving_source.py  | 62 ++++++++++---------
 .../sequential/{meta.py => metatensors.py}    | 31 ++++++++--
 .../pytorch/sequential/nvte/empty.py          |  7 ++-
 .../sequential/nvte/execution_state.py        |  7 ++-
 .../pytorch/sequential/persistent.py          | 16 +++--
 .../pytorch/sequential/recipe.py              | 13 +++-
 11 files changed, 102 insertions(+), 51 deletions(-)
 rename transformer_engine/pytorch/sequential/{meta.py => metatensors.py} (67%)

diff --git a/transformer_engine/pytorch/sequential/README.md b/transformer_engine/pytorch/sequential/README.md
index 2af973ebdf..6b2eb4eebf 100644
--- a/transformer_engine/pytorch/sequential/README.md
+++ b/transformer_engine/pytorch/sequential/README.md
@@ -77,6 +77,8 @@ Given any `m: te.Sequential`, it can be invoked in one of three ways:
 ## Notes
 * The GELU activation function is implemented as an approximation. For numerical results equivalent to PyTorch, use `nn.GELU(approximate="tanh")`.
 * Due to limitations of TorchDynamo, some standard modules cannot be used. Some compatible replacements are provided in `utils.py`. Examples include `contextmanager` (replacement for `contextlib.contextmanager`) and `cache` (replacement for `functools.cache`).
+* For optimized execution (removed assertions, self consistency checks, decreased memory usage) invoke `python` with the `-O` flag.
+* The first iteration cannot be run inside of `torch.compile`, as during it, the FP8 metatensors are created.
 
 ## Idea
 The main idea behind `te.Sequential` is that it doesn't have to execute eagerly, contrary to how PyTorch usually works. This is thanks to the fact that usually, its constitutent modules are provided during initialization and do not change since. This allows for performing optimizations such as fusions.
diff --git a/transformer_engine/pytorch/sequential/TODO.md b/transformer_engine/pytorch/sequential/TODO.md
index 232bd3e5ad..2fd0dbe5de 100644
--- a/transformer_engine/pytorch/sequential/TODO.md
+++ b/transformer_engine/pytorch/sequential/TODO.md
@@ -8,7 +8,7 @@
 - Type inference
 - Model parallelism
 - User buffers
-- _default_scaling_factor_compute_method
+- Margin used for scaling factor calculation is currently hardcoded to be 1.0
 - Make the sources saved by `exec_saving_source` be garbage collected when there are no references to objects from within the source.
 - Cleanup `compute_pipeline_function.py` and `base.py`. Currently they are both a mess full of hacks around Torch Dynamo issues.
 - Maybe cleanup `nvte/_common.py`??? It has a complicated implementation of `nvte.torch_op`. Though, maybe it is that's just how this has to be implemented.
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/__init__.py b/transformer_engine/pytorch/sequential/compute_pipeline/__init__.py
index 3487b0e9aa..3f88897336 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/__init__.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/__init__.py
@@ -1,9 +1,10 @@
 from .ops import Op, Context, Grads
-from .compute_pipeline import ComputePipeline
+from .compute_pipeline import ComputePipeline, SelfContainedOp
 
 __all__ = [
     "Op",
     "Context",
     "Grads",
     "ComputePipeline",
+    "SelfContainedOp",
 ]
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py b/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py
index 2f9579819b..e1748f94ac 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/compute_pipeline.py
@@ -5,7 +5,7 @@
 from .ops import Op, Grads, Context
 from .fusions import FusedOp, get_fused_op_list
 from ..recipe import Recipe
-from ..meta import PersistentFP8Meta
+from ..metatensors import PersistentFP8Meta
 
 
 class SelfContainedOp(Op):
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 59876a6fd5..bcafe2ca04 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,12 +1,12 @@
 from __future__ import annotations
-from typing import Callable, TypedDict
+from typing import Callable
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
 from .persistent import Persistent
 from . import nvte
-from .compute_pipeline.ops import Context, Op
-from .compute_pipeline.compute_pipeline import ComputePipeline, SelfContainedOp
+from .compute_pipeline import Context, Op
+from .compute_pipeline import ComputePipeline, SelfContainedOp
 from .utils import macro, MacroVar
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
@@ -88,7 +88,7 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
             nvte_grad = preceding_backward.nvte_grad_output
         del grad_output
 
-        meta_tensor_provider: Persistent[FP8Meta] = getattr(
+        meta_tensor_provider: Persistent[nvte.DType, FP8Meta] = getattr(
             ctx, "nvte_meta_tensor_provider_bwd"
         )
         nvte.set_execution_state("backward", meta_tensor_provider)
diff --git a/transformer_engine/pytorch/sequential/exec_saving_source.py b/transformer_engine/pytorch/sequential/exec_saving_source.py
index d2fbf1cebf..1d6d9da16b 100644
--- a/transformer_engine/pytorch/sequential/exec_saving_source.py
+++ b/transformer_engine/pytorch/sequential/exec_saving_source.py
@@ -1,36 +1,42 @@
 # Need to be in seperate file as it cannot have
 # from __future__ import annotations
 
-from typing import Any
+from typing import TYPE_CHECKING, Any
 
+if __debug__ or TYPE_CHECKING:
 
-def exec_saving_source(
-    source: str,
-    globals: dict[str, Any] | None = None,
-    locals: dict[str, Any] | None = None,
-):
-    """Equivalent to exec, but allows for the code to be introspected by,
-    for example, `pdb` or `inspect`"""
-    import ast
-    import linecache
+    def exec_saving_source(
+        source: str,
+        globals: dict[str, Any] | None = None,
+        locals: dict[str, Any] | None = None,
+    ):
+        """Equivalent to exec, but allows for the code to be introspected by,
+        for example, `pdb` or `inspect`"""
+        import ast
+        import linecache
 
-    if not hasattr(exec_saving_source, "sources"):
-        old_getlines = linecache.getlines
-        sources: list[str] = []
+        if not hasattr(exec_saving_source, "sources"):
+            old_getlines = linecache.getlines
+            sources: list[str] = []
 
-        def patched_getlines(filename: str, module_globals: Any = None):
-            if "<exec#" in filename:
-                index = int(filename.split("#")[1].split(">")[0])
-                return sources[index].splitlines(True)
-            else:
-                return old_getlines(filename, module_globals)
+            def patched_getlines(filename: str, module_globals: Any = None):
+                if "<exec#" in filename:
+                    index = int(filename.split("#")[1].split(">")[0])
+                    return sources[index].splitlines(True)
+                else:
+                    return old_getlines(filename, module_globals)
 
-        linecache.getlines = patched_getlines
-        setattr(exec_saving_source, "sources", sources)
-    sources: list[str] = getattr(exec_saving_source, "sources")
-    sources.append(source)
-    exec(
-        compile(ast.parse(source), filename=f"<exec#{len(sources) - 1}>", mode="exec"),
-        globals,
-        locals,
-    )
+            linecache.getlines = patched_getlines
+            setattr(exec_saving_source, "sources", sources)
+        sources: list[str] = getattr(exec_saving_source, "sources")
+        sources.append(source)
+        exec(
+            compile(
+                ast.parse(source), filename=f"<exec#{len(sources) - 1}>", mode="exec"
+            ),
+            globals,
+            locals,
+        )
+
+else:
+    exec_saving_source = exec
diff --git a/transformer_engine/pytorch/sequential/meta.py b/transformer_engine/pytorch/sequential/metatensors.py
similarity index 67%
rename from transformer_engine/pytorch/sequential/meta.py
rename to transformer_engine/pytorch/sequential/metatensors.py
index c15d82b3dd..f97c42b34f 100644
--- a/transformer_engine/pytorch/sequential/meta.py
+++ b/transformer_engine/pytorch/sequential/metatensors.py
@@ -1,24 +1,29 @@
 from __future__ import annotations
 import torch
+
+from .nvte import DType
 from .persistent import Persistent
 from .recipe import Recipe
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
 
-class PersistentFP8Meta(Persistent[FP8Meta]):
+class PersistentFP8Meta(Persistent[DType, FP8Meta]):
     amaxes: torch.Tensor  # (amax_history_len, num_tensors)
     scaling_factors: torch.Tensor  # (num_tensors,)
     scaling_factors_inversed: torch.Tensor  # (num_tensors,)
+    scaling_factor_type_maximums: torch.Tensor  # (num_tensors,)
 
-    def _generate(self):
+    def _generate(self, fp8_dtype: DType):
         if self._iteration() == 1:
             if self._is_new_iteration():
                 # Allocate first iteration metatensors
                 self._one = torch.ones(1, device="cuda")
                 self._first_iteration_amaxes: list[torch.Tensor] = []
+                self._fp8_dtypes: list[DType] = []
             amax = torch.zeros(1, device="cuda")
             self._first_iteration_amaxes.append(amax)
+            self._fp8_dtypes.append(fp8_dtype)
             self._index_within_iteration()  # increment tensor index
             return (amax, self._one, self._one)
         else:
@@ -34,18 +39,34 @@ def _generate(self):
                 )
                 # Copy amaxes from first iteration
                 self.amaxes[0] = torch.cat(self._first_iteration_amaxes)
-                # Delete first iteration amaxes
+                # Set scaling factor type maximums
+                FP8E4M3_MAX = 448.0
+                FP8E5M2_MAX = 57344.0
+                self.scaling_factor_type_maximums = torch.Tensor(
+                    [
+                        (FP8E4M3_MAX if dtype == DType.Float8E4M3 else FP8E5M2_MAX)
+                        for dtype in self._fp8_dtypes
+                    ],
+                    device="cuda",
+                )
+                # Delete first iteration data
+                del self._one
                 del self._first_iteration_amaxes
+                del self._fp8_dtypes
             if self._iteration() % Recipe.current().amax_reduction_period == 0:
                 amaxes_t = self.amaxes.T  # (num_tensors, amax_history_len)
                 reduced = Recipe.current().amax_reduction_method(
                     amaxes_t
                 )  # (num_tensors,)
                 Recipe.current().scaling_factor_compute_method(
-                    reduced, self.scaling_factors
+                    reduced,
+                    self.scaling_factor_type_maximums,
+                    torch.zeros_like(reduced),
+                    self.scaling_factors,
                 )
                 torch.reciprocal(
-                    self.scaling_factors, out=self.scaling_factors_inversed
+                    self.scaling_factors,
+                    out=self.scaling_factors_inversed,
                 )
             tensor_idx = self._index_within_iteration()
             return (
diff --git a/transformer_engine/pytorch/sequential/nvte/empty.py b/transformer_engine/pytorch/sequential/nvte/empty.py
index 068137a6a9..fc8b660a02 100644
--- a/transformer_engine/pytorch/sequential/nvte/empty.py
+++ b/transformer_engine/pytorch/sequential/nvte/empty.py
@@ -16,7 +16,12 @@ def empty_like(t: _nvte.Tensor):
 
 def multi_empty_share_metadata(*shapes_dtypes: tuple[Sequence[int], _nvte.DType]):
     if any(is_fp8(dtype) for _, dtype in shapes_dtypes):
-        amax, scale, scale_inv = execution_state.meta_tensor_provider()
+        if len({dtype for _, dtype in shapes_dtypes if is_fp8(dtype)}) != 1:
+            raise ValueError(
+                "All FP8 tensors that share the same metatensors must have the same dtype."
+            )
+        fp8_dtype = next(dtype for _, dtype in shapes_dtypes if is_fp8(dtype))
+        amax, scale, scale_inv = execution_state.meta_tensor_provider(fp8_dtype)
     return tuple(
         _nvte.Tensor(
             torch.empty(shape, dtype=te_to_torch_dtype(dtype), device="cuda")
diff --git a/transformer_engine/pytorch/sequential/nvte/execution_state.py b/transformer_engine/pytorch/sequential/nvte/execution_state.py
index a43d417b6c..e58d4d2ff2 100644
--- a/transformer_engine/pytorch/sequential/nvte/execution_state.py
+++ b/transformer_engine/pytorch/sequential/nvte/execution_state.py
@@ -3,7 +3,8 @@
 import torch
 from ..utils import contextmanager
 from ..persistent import Persistent
-from ..meta import PersistentFP8Meta
+from ..metatensors import PersistentFP8Meta
+from .cpp_extensions import DType
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
@@ -15,13 +16,13 @@ def _default_meta_tensor_provider():
 
 
 pass_: Literal["forward", "backward", "inference"] = "inference"
-meta_tensor_provider: Persistent[FP8Meta] = _default_meta_tensor_provider()
+meta_tensor_provider: Persistent[DType, FP8Meta] = _default_meta_tensor_provider()
 
 
 @contextmanager
 def set_execution_state(
     pass__: Literal["forward", "backward", "inference"],
-    meta_tensor_provider_: Persistent[FP8Meta],
+    meta_tensor_provider_: Persistent[DType, FP8Meta],
 ):
     global meta_tensor_provider
     global pass_
diff --git a/transformer_engine/pytorch/sequential/persistent.py b/transformer_engine/pytorch/sequential/persistent.py
index b55d0a014c..33c548be28 100644
--- a/transformer_engine/pytorch/sequential/persistent.py
+++ b/transformer_engine/pytorch/sequential/persistent.py
@@ -1,12 +1,14 @@
 from __future__ import annotations
 from abc import ABC, abstractmethod
 from typing import Generic, TypeVar
+from typing_extensions import TypeVarTuple, Unpack
 
 
 T = TypeVar("T")
+Ts = TypeVarTuple("Ts")
 
 
-class Persistent(Generic[T], ABC):
+class Persistent(Generic[Unpack[Ts], T], ABC):
     """
     Storage for data that is to be persisted between iterations.
     Examples include fp8 metatensors (during training)
@@ -15,12 +17,17 @@ class Persistent(Generic[T], ABC):
 
     # abstract
     @abstractmethod
-    def _generate(self) -> T:
+    def _generate(self, *args: Unpack[Ts]) -> T:
         ...
 
     # public
-    def __call__(self):
-        result = self._generate()
+    def __call__(self, *args: Unpack[Ts]) -> T:
+        if __debug__:
+            if self._iteration() == 1:
+                self.__arguments.append(args)
+            else:
+                assert self.__arguments[self.__index_within_iteration(False)] == args
+        result = self._generate(*args)
         if __debug__:
             if self._iteration() == 1:
                 self.__values.append(result)
@@ -53,6 +60,7 @@ def _max_index(self):
     __derived_seen_iteration: int = 0
     if __debug__:
         __values: list[T] = []
+        __arguments: list[tuple[Unpack[Ts]]] = []
 
     def __is_new_iteration(self, update: bool):
         if self.__derived_seen_iteration == self._iteration() - 1:
diff --git a/transformer_engine/pytorch/sequential/recipe.py b/transformer_engine/pytorch/sequential/recipe.py
index 3d7b47b40e..6b46aea2c7 100644
--- a/transformer_engine/pytorch/sequential/recipe.py
+++ b/transformer_engine/pytorch/sequential/recipe.py
@@ -14,9 +14,16 @@ def _default_amax_reduction_method(
 
 
 def _default_scaling_factor_compute_method(
-    per_tensor_amaxes: torch.Tensor, out: torch.Tensor
+    amax: torch.Tensor,
+    fp8_max: torch.Tensor,
+    margin: torch.Tensor,
+    out_scale: torch.Tensor,
 ):
-    out.fill_(1.0)  # TODO
+    exp = torch.floor(torch.log2(fp8_max / amax)) - margin
+    t = torch.round(torch.pow(2, torch.abs(exp)))
+    t = torch.where(amax > 0.0, t, out_scale)
+    t = torch.where(torch.isfinite(amax), t, out_scale)
+    torch.where(exp < 0, 1 / t, t, out=out_scale)
 
 
 _recipe_stack: list[Recipe] = []
@@ -29,7 +36,7 @@ class Recipe(NamedTuple):
         [torch.Tensor], torch.Tensor
     ] = _default_amax_reduction_method
     scaling_factor_compute_method: Callable[
-        [torch.Tensor, torch.Tensor], None
+        [torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor], None
     ] = _default_scaling_factor_compute_method
     lowp: DType = DType.Float32
     world_size: int = 1

From c880c9bafd66c770883cb83f0b4d137c74e3d0ba Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 14:07:19 +0200
Subject: [PATCH 519/535] don't expose precompiled_for

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 tests/sequential/simple_prec_compare.py              | 5 ++---
 transformer_engine/pytorch/sequential/module/base.py | 4 ++--
 2 files changed, 4 insertions(+), 5 deletions(-)

diff --git a/tests/sequential/simple_prec_compare.py b/tests/sequential/simple_prec_compare.py
index 49119323fb..dfae42f58d 100644
--- a/tests/sequential/simple_prec_compare.py
+++ b/tests/sequential/simple_prec_compare.py
@@ -14,11 +14,10 @@
 )
 torch.set_printoptions(precision=4, sci_mode=False)
 
-
-torch.compile(m.precompiled_for(x), fullgraph=True)(x)
+m(x)
 
 with seq.Recipe(lowp=seq.nvte.DType.Float8E4M3):
-    opt: nn.Module = torch.compile(m.precompiled_for(x), fullgraph=True, dynamic=True)
+    opt: nn.Module = torch.compile(m, fullgraph=True, dynamic=True)
     for _ in range(100):
         y: torch.Tensor = opt(x)
         y.sum().backward()
diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index ee82d2f8c1..8b1ee807c6 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -25,10 +25,10 @@ def __init__(self):
     def forward(
         self, x: torch.Tensor, seq_lens: torch.Tensor | None = None
     ) -> torch.Tensor:
-        self.precompiled_for(x, seq_lens)
+        self._precompiled_for(x, seq_lens)
         return self._run(x)
 
-    def precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None):
+    def _precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None):
         with torch.no_grad():
             assert x.is_cuda
             assert x.is_contiguous()

From 54fa882aaaacbc55e7f86b7e6e4395e85d79182e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 14:10:31 +0200
Subject: [PATCH 520/535] explain torch compile usage

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/README.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/README.md b/transformer_engine/pytorch/sequential/README.md
index 6b2eb4eebf..723a89625a 100644
--- a/transformer_engine/pytorch/sequential/README.md
+++ b/transformer_engine/pytorch/sequential/README.md
@@ -78,7 +78,7 @@ Given any `m: te.Sequential`, it can be invoked in one of three ways:
 * The GELU activation function is implemented as an approximation. For numerical results equivalent to PyTorch, use `nn.GELU(approximate="tanh")`.
 * Due to limitations of TorchDynamo, some standard modules cannot be used. Some compatible replacements are provided in `utils.py`. Examples include `contextmanager` (replacement for `contextlib.contextmanager`) and `cache` (replacement for `functools.cache`).
 * For optimized execution (removed assertions, self consistency checks, decreased memory usage) invoke `python` with the `-O` flag.
-* The first iteration cannot be run inside of `torch.compile`, as during it, the FP8 metatensors are created.
+* The first iteration cannot be run inside of `torch.compile`. As such, you can, for example, first run `m(x)`, and only then `opt = torch.compile(m, fullgraph=True); opt(x)`.
 
 ## Idea
 The main idea behind `te.Sequential` is that it doesn't have to execute eagerly, contrary to how PyTorch usually works. This is thanks to the fact that usually, its constitutent modules are provided during initialization and do not change since. This allows for performing optimizations such as fusions.

From f25b47a36cb8a6cda1532a4d3d83470d9b6f1d1c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 14:13:18 +0200
Subject: [PATCH 521/535] update docs

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/RECIPES.md | 10 +++++-----
 1 file changed, 5 insertions(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/RECIPES.md b/transformer_engine/pytorch/sequential/RECIPES.md
index 91e30abee8..c4c5a2c213 100644
--- a/transformer_engine/pytorch/sequential/RECIPES.md
+++ b/transformer_engine/pytorch/sequential/RECIPES.md
@@ -63,9 +63,9 @@ Let's say you're adding `XYZLayer`:
 ## Recipe: Adding a new `Op`
 
 Let's say you're adding `XYZLayer`:
-1. In `ops` create `xyz_layer.py`.
-2. In `ops`/`awesomelu.py` create `class XYZLayer(Op)`.
-3. In `ops`/`awesomelu.py` implement `XYZLayer`, analogically to existing operation implementations
+1. In `compute_pipeline`/`ops` create `xyz_layer.py`.
+2. In `compute_pipeline`/`ops`/`awesomelu.py` create `class XYZLayer(Op)`.
+3. In `compute_pipeline`/`ops`/`awesomelu.py` implement `XYZLayer`, analogically to existing operation implementations
     1. In `XYZLayer.__init__`:
         1. Take any secondary inputs to the forward pass as arguments:
             ```
@@ -128,8 +128,8 @@ Let's say you're adding `XYZLayer`:
         3. Return `dy` and a list of the gradients of all tensors returned by `XYZLayer.require_grad` in **the same order** (if `require_grad` returns `[weight, bias]`, `backward` **must** return `dy, [dweight, dbias]`).
         4. If `XYZLayer.require_grad` returns `[]`, return `dy, []`.
     6. Remember to use fused implementations, when possible. For example, in some cases, using a sequence of `nvte.cast_checked` calls may be suboptimal, when, for example, `nvte.multi_cast_transpose` could be used instead, if the tensors are to be later transposed.
-4. In `ops`/`__init__.py` add `from xyz_layer import XYZLayer`.
-5. In `ops`/`__init__.py` insert `XYZLayer` to the module's `__all__` list.
+4. In `compute_pipeline`/`ops`/`__init__.py` add `from xyz_layer import XYZLayer`.
+5. In `compute_pipeline`/`ops`/`__init__.py` insert `XYZLayer` to the module's `__all__` list.
 6. Remember to implement fusions concerning `XYZLayer`.
 
 ## Recipe: Adding a new `nvte.` function

From 3d65c67b5c3e33225a980a92ee61124c7a4f904f Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 14:27:05 +0200
Subject: [PATCH 522/535] clearer wording

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/TODO.md | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/transformer_engine/pytorch/sequential/TODO.md b/transformer_engine/pytorch/sequential/TODO.md
index 2fd0dbe5de..b0738850fe 100644
--- a/transformer_engine/pytorch/sequential/TODO.md
+++ b/transformer_engine/pytorch/sequential/TODO.md
@@ -2,7 +2,7 @@
 - Inplace operations:
     - inplace `nvte.***` for use during inference
     - using those commands in `training` methods of `Op`s
-- Torch compile fullgraph support - requires Meta to first fix
+- Torch compile fullgraph support - requires action from Meta side
 - Attention
 - Residual
 - Type inference

From 8cd6b59cbc2b2f0309db50fa36a162b68b471a3e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 15:20:46 +0200
Subject: [PATCH 523/535] add dropout

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/TODO.md |  2 +-
 .../compute_pipeline/fusions/interface.py     |  5 +-
 .../compute_pipeline/ops/__init__.py          |  3 +
 .../sequential/compute_pipeline/ops/op.py     |  8 ++
 .../compute_pipeline/ops/residual.py          | 85 +++++++++++++++++++
 .../pytorch/sequential/module/residual.py     | 10 +++
 6 files changed, 111 insertions(+), 2 deletions(-)
 create mode 100644 transformer_engine/pytorch/sequential/compute_pipeline/ops/residual.py
 create mode 100644 transformer_engine/pytorch/sequential/module/residual.py

diff --git a/transformer_engine/pytorch/sequential/TODO.md b/transformer_engine/pytorch/sequential/TODO.md
index b0738850fe..08a2bc36b2 100644
--- a/transformer_engine/pytorch/sequential/TODO.md
+++ b/transformer_engine/pytorch/sequential/TODO.md
@@ -4,7 +4,7 @@
     - using those commands in `training` methods of `Op`s
 - Torch compile fullgraph support - requires action from Meta side
 - Attention
-- Residual
+- Dropout
 - Type inference
 - Model parallelism
 - User buffers
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py
index 3c770c3bae..1e51f20382 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/fusions/interface.py
@@ -83,7 +83,10 @@ def get_fused_op_list(
     for cnt, arg_types, f in fusions:
         startPos = 0
         while startPos < len(ops) - cnt + 1:
-            if all(isinstance(ops[startPos + i], arg_types[i]) for i in range(cnt)):
+            if all(
+                ops[startPos + i].fusion_type[fuse_by] is arg_types[i]
+                for i in range(cnt)
+            ):
                 fused_ops = ops[startPos : startPos + cnt]
                 func = partial(f, *fused_ops)
                 fused_op = FusedOp(fused_ops, **{fuse_by: func})
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py
index cb0372bd1d..e94fc84096 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/__init__.py
@@ -4,6 +4,7 @@
 from .rmsnorm import RMSNorm
 from .mmt import MMT
 from .add import Add
+from .residual import ResidualBegin, ResidualEnd
 
 __all__ = [
     "Op",
@@ -19,4 +20,6 @@
     "RMSNorm",
     "MMT",
     "Add",
+    "ResidualBegin",
+    "ResidualEnd",
 ]
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py
index 750562fec0..2cfcc08676 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/op.py
@@ -58,5 +58,13 @@ def dx_dtype(self):
     _dy_dtype: nvte.DType | None
     _dx_dtype: nvte.DType | None
 
+    @property
+    def fusion_type(self):
+        return {
+            "forward": type(self),
+            "backward": type(self),
+            "inference": type(self),
+        }
+
 
 __all__ = ["Op", "Context", "Grads"]
diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/residual.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/residual.py
new file mode 100644
index 0000000000..b36ce604f4
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/residual.py
@@ -0,0 +1,85 @@
+from __future__ import annotations
+
+from transformer_engine.pytorch.sequential import nvte
+
+from . import Op, Grads, Context
+from . import Add
+from ... import nvte
+
+
+class ResidualBegin(Op):
+    end: ResidualEnd
+    residual_backward: nvte.Tensor
+
+    def __init__(
+        self,
+        *,
+        x_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dy_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        y_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
+    ):
+        self._x_dtype = x_dtype
+        self._dy_dtype = dy_dtype
+        self._y_dtype = y_dtype
+        self._dx_dtype = dx_dtype
+
+    def forward(self, x: nvte.Tensor) -> tuple[nvte.Tensor, Context]:
+        x = nvte.cast_checked(x, self.x_dtype)
+        self.end.residual_forward = x
+        y = nvte.cast_checked(x, self.y_dtype)
+        return y, {}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
+        del ctx
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+        dx = nvte.add(dy, self.residual_backward, self.dx_dtype or dy.dtype)
+        del self.residual_backward
+        return dx, []
+
+    def require_grad(self) -> list[nvte.Tensor]:
+        return []
+
+
+class ResidualEnd(Op):
+    begin: ResidualBegin
+    residual_forward: nvte.Tensor
+
+    def __init__(
+        self,
+        *,
+        x_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dy_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        y_dtype: nvte.DType | None = nvte.DType.BFloat16,
+        dx_dtype: nvte.DType | None = nvte.DType.BFloat16,
+    ):
+        self._x_dtype = x_dtype
+        self._dy_dtype = dy_dtype
+        self._y_dtype = y_dtype
+        self._dx_dtype = dx_dtype
+
+    def forward(self, x: nvte.Tensor) -> tuple[nvte.Tensor, Context]:
+        x = nvte.cast_checked(x, self.x_dtype)
+        y = nvte.add(x, self.residual_forward, self.y_dtype or x.dtype)
+        del self.residual_forward
+        return y, {}
+
+    def backward(self, ctx: Context, dy: nvte.Tensor) -> tuple[nvte.Tensor, Grads]:
+        del ctx
+        dy = nvte.cast_checked(dy, self.dy_dtype)
+        self.begin.residual_backward = dy
+        dx = nvte.cast_checked(dy, self.dx_dtype)
+        return dx, []
+
+    def require_grad(self) -> list[nvte.Tensor]:
+        return []
+
+    @property
+    def bias(self):
+        return self.residual_forward
+
+    @property
+    def fusion_type(self):
+        return super().fusion_type | {
+            "forward": Add,
+        }
diff --git a/transformer_engine/pytorch/sequential/module/residual.py b/transformer_engine/pytorch/sequential/module/residual.py
new file mode 100644
index 0000000000..972999fd0e
--- /dev/null
+++ b/transformer_engine/pytorch/sequential/module/residual.py
@@ -0,0 +1,10 @@
+from ..compute_pipeline import ops
+from .sequential import Sequential
+
+
+class Residual(Sequential):
+    def _ops(self):
+        begin, end = ops.ResidualBegin(), ops.ResidualEnd()
+        begin.end = end
+        end.begin = begin
+        return [begin] + super()._ops() + [end]

From d53c554784a314ebc415bb8d1b7551a545d6345e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 15:23:02 +0200
Subject: [PATCH 524/535] add Residual to import list

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/__init__.py        | 2 ++
 transformer_engine/pytorch/sequential/module/__init__.py | 2 ++
 2 files changed, 4 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/__init__.py b/transformer_engine/pytorch/sequential/__init__.py
index 262e26c5c7..e5d7e7d713 100644
--- a/transformer_engine/pytorch/sequential/__init__.py
+++ b/transformer_engine/pytorch/sequential/__init__.py
@@ -9,6 +9,7 @@
     RMSNorm,
     Linear,
     Sequential,
+    Residual,
 )
 from .recipe import Recipe
 
@@ -24,6 +25,7 @@
     "RMSNorm",
     "Linear",
     "Sequential",
+    "Residual",
     # Recipe context manager
     "Recipe",
 ]
diff --git a/transformer_engine/pytorch/sequential/module/__init__.py b/transformer_engine/pytorch/sequential/module/__init__.py
index 114a72479c..4956f3a727 100644
--- a/transformer_engine/pytorch/sequential/module/__init__.py
+++ b/transformer_engine/pytorch/sequential/module/__init__.py
@@ -2,6 +2,7 @@
 from .normalization import Normalization, LayerNorm, RMSNorm
 from .linear import Linear
 from .sequential import Sequential
+from .residual import Residual
 
 __all__ = [
     "Activation",
@@ -15,4 +16,5 @@
     "RMSNorm",
     "Linear",
     "Sequential",
+    "Residual",
 ]

From f5117d1c69ca94a02d0d1c56184c3aa3275a1199 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 15:25:45 +0200
Subject: [PATCH 525/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/compute_pipeline/ops/residual.py       | 4 ++++
 1 file changed, 4 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline/ops/residual.py b/transformer_engine/pytorch/sequential/compute_pipeline/ops/residual.py
index b36ce604f4..b43419c60f 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline/ops/residual.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline/ops/residual.py
@@ -78,6 +78,10 @@ def require_grad(self) -> list[nvte.Tensor]:
     def bias(self):
         return self.residual_forward
 
+    @property
+    def bias_dtype(self):
+        return None
+
     @property
     def fusion_type(self):
         return super().fusion_type | {

From 75696c7fb270462f847a8b262da9271eb00b2faf Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 15:43:49 +0200
Subject: [PATCH 526/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 37 +++++++++----------
 .../pytorch/sequential/nvte/_common.py        |  2 +-
 2 files changed, 19 insertions(+), 20 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index bcafe2ca04..42fa1cd550 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -128,24 +128,6 @@ def forward(  # type: ignore[arg-type]
         nvte_x = nvte.Tensor(*tensor_mess[-4:])
         del tensor_mess
 
-        nvte.set_execution_state("forward", PIPELINE.meta_fwd)
-        with torch.no_grad():
-            nvte_y, to_save = OP.forward(nvte_x)
-
-        # Expose backward context for tracing
-        bwd_ctx: list[torch.Tensor] = []
-        for _, tensor in to_save.items():
-            bwd_ctx.append(tensor.data)
-            bwd_ctx.append(tensor.amax)
-            bwd_ctx.append(tensor.scale)
-            bwd_ctx.append(tensor.scale_inv)
-        ctx.save_for_backward(*bwd_ctx)
-
-        # Save real context
-        setattr(ctx, "nvte_ctx", to_save)
-        setattr(ctx, "nvte_op", OP)
-        setattr(ctx, "nvte_meta_tensor_provider_bwd", PIPELINE.meta_bwd)
-
         # Pytorch will break the computation graph
         # if it will see an output tensor of an integer type.
         # As fp8 tensors internally have dtype int8,
@@ -155,7 +137,6 @@ def forward(  # type: ignore[arg-type]
         # the numel() gets smaller).
         # This doesn't work in TorchScript, but this code
         # won't run at inference anyway.
-
         # Unsquish x if needed:
         is_exposed_x_squished_now = exposed_x.dtype != nvte_x.data.dtype
         if is_exposed_x_squished_now:
@@ -175,6 +156,24 @@ def forward(  # type: ignore[arg-type]
         else:
             setattr(ctx, "nvte_squish_outgoing_dgrad", False)
 
+        nvte.set_execution_state("forward", PIPELINE.meta_fwd)
+        with torch.no_grad():
+            nvte_y, to_save = OP.forward(nvte_x)
+
+        # Expose backward context for tracing
+        bwd_ctx: list[torch.Tensor] = []
+        for _, tensor in to_save.items():
+            bwd_ctx.append(tensor.data)
+            bwd_ctx.append(tensor.amax)
+            bwd_ctx.append(tensor.scale)
+            bwd_ctx.append(tensor.scale_inv)
+        ctx.save_for_backward(*bwd_ctx)
+
+        # Save real context
+        setattr(ctx, "nvte_ctx", to_save)
+        setattr(ctx, "nvte_op", OP)
+        setattr(ctx, "nvte_meta_tensor_provider_bwd", PIPELINE.meta_bwd)
+
         # Expose result for Pytorch
         exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
 
diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index c4a2e1a9d5..5d22f0dce7 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -390,7 +390,7 @@ def torch_op(
 
 def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
     return _nvte.Tensor(
-        t,
+        t.data,
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),
         torch.Tensor().cuda(),

From de9b76396b702842b8c700407673fa827b333608 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 16:54:25 +0200
Subject: [PATCH 527/535] revert

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 321 ++++++++----------
 1 file changed, 148 insertions(+), 173 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 42fa1cd550..0c59f49cf6 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -1,13 +1,12 @@
 from __future__ import annotations
-from typing import Callable
 import torch
 from torch import autograd
 from torch.autograd.function import FunctionCtx
+from typing import Final
 from .persistent import Persistent
 from . import nvte
 from .compute_pipeline import Context, Op
-from .compute_pipeline import ComputePipeline, SelfContainedOp
-from .utils import macro, MacroVar
+from .compute_pipeline import ComputePipeline
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
@@ -16,50 +15,119 @@ class BackwardComm:
     nvte_grad_output: nvte.Tensor | None = None
 
 
-def get_exposed_y_saving_nvte_y_save_for_backward(
-    inputs: tuple[torch.Tensor, nvte.Tensor], output: torch.Tensor
-) -> None:
-    return None
+class ForwardArgs:
+    is_exposed_x_squished_now: Final[bool]
+    upcoming_backward: Final[BackwardComm | None]
+    next_upcoming_backward: Final[BackwardComm]
+    op: Final[Op]
+    meta_tensor_provider_fwd: Final[Persistent[nvte.DType, FP8Meta]]
+    meta_tensor_provider_bwd: Final[Persistent[nvte.DType, FP8Meta]]
 
+    def __init__(
+        self,
+        is_exposed_x_squished_now: bool,
+        upcoming_backward: BackwardComm | None,
+        op: Op,
+        meta_tensor_provider_fwd: Persistent[nvte.DType, FP8Meta],
+        meta_tensor_provider_bwd: Persistent[nvte.DType, FP8Meta],
+    ):
+        self.is_exposed_x_squished_now = is_exposed_x_squished_now
+        self.upcoming_backward = upcoming_backward
+        self.next_upcoming_backward = BackwardComm()
+        self.op = op
+        self.meta_tensor_provider_fwd = meta_tensor_provider_fwd
+        self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
 
-def get_exposed_y_saving_nvte_y_backward(
-    ctx: FunctionCtx, _: None, *grads: torch.Tensor
-) -> torch.Tensor:
-    return grads[0]
 
+_args: ForwardArgs
 
-@nvte.torch_op(
-    save_for_backward=get_exposed_y_saving_nvte_y_save_for_backward,
-    backward=get_exposed_y_saving_nvte_y_backward,
-)
-def get_exposed_y_saving_nvte_y(
-    exposed_x: torch.Tensor, nvte_y: nvte.Tensor
-) -> torch.Tensor:
-    global _saved
-    _saved = nvte_y
-    x_data = exposed_x.data
-    exposed_x.data = torch.Tensor().cuda()  # avoid copy
-    exposed_y = exposed_x.clone()  # copy history
-    exposed_x.data = x_data
-    exposed_y.data = nvte_y.data
-    return exposed_y
 
+class ComputePipelineFunction(autograd.Function):
+    args: ForwardArgs
 
-@nvte.torch_op
-def get_nvte_y(
-    _: torch.Tensor,
-) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-    return _saved.data, _saved.amax, _saved.scale, _saved.scale_inv
+    @staticmethod
+    def forward(  # type: ignore[arg-type]
+        ctx: FunctionCtx,
+        exposed_x: torch.Tensor,
+        *tensor_mess: torch.Tensor,
+    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+        nvte_x = nvte.Tensor(*tensor_mess[-4:])
+        del tensor_mess
+
+        nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
+        nvte_y, to_save = _args.op.forward(nvte_x)
+
+        # Expose backward context for tracing
+        bwd_ctx: list[torch.Tensor] = []
+        for _, tensor in to_save.items():
+            bwd_ctx.append(tensor.data)
+            bwd_ctx.append(tensor.amax)
+            bwd_ctx.append(tensor.scale)
+            bwd_ctx.append(tensor.scale_inv)
+        ctx.save_for_backward(*bwd_ctx)
+
+        # Save real context
+        setattr(ctx, "nvte_ctx", to_save)
+        setattr(ctx, "nvte_op", _args.op)
+        setattr(ctx, "nvte_meta_tensor_provider_bwd", _args.meta_tensor_provider_bwd)
+
+        # Pytorch will break the computation graph
+        # if it will see an output tensor of an integer type.
+        # As fp8 tensors internally have dtype int8,
+        # we need to pretend that this type is actually different
+        # by "squishing" it into a floating point dtype.
+        # ("Squishing" because, while the new dtype is larger,
+        # the numel() gets smaller).
+        # This doesn't work in TorchScript, but this code
+        # won't run at inference anyway.
+
+        # Unsquish x if needed:
+        if _args.is_exposed_x_squished_now:
+            # Intentionally commented out - _unsquish(exposed_x)
+            # We don't need to perform the unsquish itself, as this
+            # data will not be read anyway.
+            # It is only really neccesarry to notify
+            # the backward.
+            #
+            # If the input to the forward was squished,
+            # Pytorch will expect its gradient to be squished
+            # as well. The backward of this forward will be
+            # responsible for producing the gradient of
+            # this squished input, so it is responsible for
+            # squishing it.
+            setattr(ctx, "nvte_squish_outgoing_dgrad", True)
+        else:
+            setattr(ctx, "nvte_squish_outgoing_dgrad", False)
 
+        # Expose result for Pytorch
+        x_data = exposed_x.data
+        exposed_x.data = torch.Tensor().cuda()  # avoid copy
+        exposed_y = exposed_x.clone()  # copy history
+        exposed_x.data = x_data
+        exposed_y.data = nvte_y.data
+
+        # Squish y if fp8:
+        if exposed_y.data.dtype == torch.int8:
+            _squish(exposed_y)
+            # Because the output is squished, the gradient also needs to be.
+            # The backward of this forward recieves the gradient of the
+            # output as its input. So, the backward before it needs
+            # to squish it, while the backward coresponding to this
+            # forward needs to unsquish it.
+            setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
+        else:
+            setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
 
-PIPELINE = MacroVar("PIPELINE", ComputePipeline)
-OP = MacroVar("OP", SelfContainedOp)
-UPCOMING_BACKWARD: BackwardComm | None = MacroVar("UPCOMING_BACKWARD", BackwardComm | None)  # type: ignore[assignment]
-NEXT_UPCOMING_BACKWARD = MacroVar("NEXT_UPCOMING_BACKWARD", BackwardComm)
-AUTOGRAD_FUNC: type[autograd.Function] = MacroVar("AUTOGRAD_FUNC", type[autograd.Function])  # type: ignore[assignment]
+        # Save backward comm
+        # This object is allows for the current backward to
+        # pass data to the next backward (the backward of the
+        # preceding operation). This is needed to pass
+        # fp8 gradients properly.
+        setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
+        setattr(ctx, "nvte_preceding_backward_comm", _args.next_upcoming_backward)
 
+        return (exposed_y, nvte_y.data, nvte_y.amax, nvte_y.scale, nvte_y.scale_inv)
 
-class Backward:
     @staticmethod
     def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
         # The context needs to think that the tensors were read
@@ -92,8 +160,7 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
             ctx, "nvte_meta_tensor_provider_bwd"
         )
         nvte.set_execution_state("backward", meta_tensor_provider)
-        with torch.no_grad():
-            data_grad, param_grads = op.backward(saved, nvte_grad)
+        data_grad, param_grads = op.backward(saved, nvte_grad)
 
         # Store real gradient for next backward in pipeline
         if upcoming_backward is None:
@@ -117,141 +184,49 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
         return (*torch_grads, None, None, None)
 
 
-@macro(PIPELINE, OP, UPCOMING_BACKWARD, NEXT_UPCOMING_BACKWARD, textual=False)
-class ComputePipelineFunction(Backward, autograd.Function):  # type: ignore[misc]
-    @staticmethod
-    def forward(  # type: ignore[arg-type]
-        ctx: FunctionCtx,
-        exposed_x: torch.Tensor,
-        *tensor_mess: torch.Tensor,
-    ) -> torch.Tensor:
-        nvte_x = nvte.Tensor(*tensor_mess[-4:])
-        del tensor_mess
-
-        # Pytorch will break the computation graph
-        # if it will see an output tensor of an integer type.
-        # As fp8 tensors internally have dtype int8,
-        # we need to pretend that this type is actually different
-        # by "squishing" it into a floating point dtype.
-        # ("Squishing" because, while the new dtype is larger,
-        # the numel() gets smaller).
-        # This doesn't work in TorchScript, but this code
-        # won't run at inference anyway.
-        # Unsquish x if needed:
-        is_exposed_x_squished_now = exposed_x.dtype != nvte_x.data.dtype
-        if is_exposed_x_squished_now:
-            # Intentionally commented out - _unsquish(exposed_x)
-            # We don't need to perform the unsquish itself, as this
-            # data will not be read anyway.
-            # It is only really neccesarry to notify
-            # the backward.
-            #
-            # If the input to the forward was squished,
-            # Pytorch will expect its gradient to be squished
-            # as well. The backward of this forward will be
-            # responsible for producing the gradient of
-            # this squished input, so it is responsible for
-            # squishing it.
-            setattr(ctx, "nvte_squish_outgoing_dgrad", True)
-        else:
-            setattr(ctx, "nvte_squish_outgoing_dgrad", False)
-
-        nvte.set_execution_state("forward", PIPELINE.meta_fwd)
-        with torch.no_grad():
-            nvte_y, to_save = OP.forward(nvte_x)
-
-        # Expose backward context for tracing
-        bwd_ctx: list[torch.Tensor] = []
-        for _, tensor in to_save.items():
-            bwd_ctx.append(tensor.data)
-            bwd_ctx.append(tensor.amax)
-            bwd_ctx.append(tensor.scale)
-            bwd_ctx.append(tensor.scale_inv)
-        ctx.save_for_backward(*bwd_ctx)
-
-        # Save real context
-        setattr(ctx, "nvte_ctx", to_save)
-        setattr(ctx, "nvte_op", OP)
-        setattr(ctx, "nvte_meta_tensor_provider_bwd", PIPELINE.meta_bwd)
-
-        # Expose result for Pytorch
-        exposed_y = get_exposed_y_saving_nvte_y(exposed_x, nvte_y)
-
-        # Squish y if fp8:
-        if exposed_y.data.dtype == torch.int8:
-            _squish(exposed_y)
-            # Because the output is squished, the gradient also needs to be.
-            # The backward of this forward recieves the gradient of the
-            # output as its input. So, the backward before it needs
-            # to squish it, while the backward coresponding to this
-            # forward needs to unsquish it.
-            setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
-        else:
-            setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
-
-        # Save backward comm
-        # This object is allows for the current backward to
-        # pass data to the next backward (the backward of the
-        # preceding operation). This is needed to pass
-        # fp8 gradients properly.
-        setattr(ctx, "nvte_upcoming_backward_comm", UPCOMING_BACKWARD)
-        setattr(ctx, "nvte_preceding_backward_comm", NEXT_UPCOMING_BACKWARD)
-
-        return exposed_y
-
-
-@macro(OP, AUTOGRAD_FUNC, textual=False)
-def loop_iteration(
-    x_: torch.Tensor,
-    nvte_x_: nvte.Tensor,
-):
-    nvte_tensors = OP.require_grad()
-    exposed_tensors: list[torch.Tensor] = []
-    for nvte_tensor in nvte_tensors:
-        assert not nvte.is_fp8(
-            nvte_tensor
-        )  # TODO: change when fp8 optimizer comes along
-        exposed_tensors.append(nvte_tensor.data)
-
-    x_ = AUTOGRAD_FUNC.apply(  # type: ignore
-        x_,
-        *exposed_tensors,
-        *(nvte_x_.data, nvte_x_.amax, nvte_x_.scale, nvte_x_.scale_inv),
-    )
-    assert isinstance(x_, torch.Tensor)
-    with torch.no_grad():
-        (nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = get_nvte_y(x_)
-        nvte_x_ = nvte.Tensor(nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv)
-    return x_, nvte_x_
-
-
-def make_loop(pipeline: ComputePipeline):
-    upcoming_backward = None
-    next_upcoming_backward = BackwardComm()
-    iterations: list[
-        Callable[[torch.Tensor, nvte.Tensor], tuple[torch.Tensor, nvte.Tensor]]
-    ] = []
-    for i, op in enumerate(pipeline.functions):
-        upcoming_backward, next_upcoming_backward = (
-            (None, BackwardComm())
-            if i == 0
-            else (next_upcoming_backward, BackwardComm())
-        )
-        iterations.append(
-            loop_iteration(
-                op,
-                ComputePipelineFunction(
-                    pipeline, op, upcoming_backward, next_upcoming_backward
-                ),
+def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
+    nvte_x = nvte.make_nvte_tensor(x)
+    if not training:
+        y = pipeline.run_inference(nvte_x)
+        assert not nvte.is_fp8(y)
+        return y.data
+    else:
+        pipeline.next_iteration()
+        for i, contained_op in enumerate(pipeline.functions):
+            global _args
+            if i == 0:
+                _args = ForwardArgs(
+                    False,
+                    None,
+                    contained_op,
+                    pipeline.meta_fwd,
+                    pipeline.meta_bwd,
+                )
+            else:
+                _args = ForwardArgs(
+                    x.dtype != nvte_x.data.dtype,
+                    _args.next_upcoming_backward,
+                    contained_op,
+                    pipeline.meta_fwd,
+                    pipeline.meta_bwd,
+                )
+
+            nvte_tensors = contained_op.require_grad()
+            exposed_tensors: list[torch.Tensor] = []
+            for nvte_tensor in nvte_tensors:
+                assert not nvte.is_fp8(
+                    nvte_tensor
+                )  # TODO: change when fp8 optimizer comes along
+                exposed_tensors.append(nvte_tensor.data)
+
+            (x, nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = ComputePipelineFunction.apply(  # type: ignore
+                x,
+                *exposed_tensors,
+                *(nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),
             )
-        )
-
-    def loop(x: torch.Tensor, nvte_x: nvte.Tensor):
-        for iteration in iterations:
-            x, nvte_x = iteration(x, nvte_x)
-        return x, nvte_x
-
-    return loop
+            assert isinstance(x, torch.Tensor)
+            nvte_x = nvte.Tensor(nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv)  # type: ignore
+        return x
 
 
 # The squish needs to be invertible and

From 5e6d2cb0e763aafe641a683a157d12aba5a7103d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 16:56:11 +0200
Subject: [PATCH 528/535] revert

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/module/base.py               | 13 ++-----------
 1 file changed, 2 insertions(+), 11 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/module/base.py b/transformer_engine/pytorch/sequential/module/base.py
index 8b1ee807c6..b149661391 100644
--- a/transformer_engine/pytorch/sequential/module/base.py
+++ b/transformer_engine/pytorch/sequential/module/base.py
@@ -5,8 +5,7 @@
 from ..compute_pipeline.ops import Op
 from ..recipe import Recipe
 from ..compute_pipeline.compute_pipeline import ComputePipeline
-from ..compute_pipeline_function import make_loop
-from .. import nvte
+from ..compute_pipeline_function import apply
 
 
 class BaseModule(nn.Module, ABC):
@@ -43,14 +42,7 @@ def _precompiled_for(self, x: torch.Tensor, seq_lens: torch.Tensor | None = None
 
     def _run(self, x: torch.Tensor):
         assert self.pipeline is not None
-        nvte_x = nvte.make_nvte_tensor(x)
-        if not self.training:
-            y = self.pipeline.run_inference(nvte_x)
-            assert not nvte.is_fp8(y)
-            return y.data
-        else:
-            self.pipeline.next_iteration()
-            return self.loop(x, nvte_x)[0]
+        return apply(x, self.pipeline, self.training)
 
     @staticmethod
     def _create_seq_lens_tensor(x: torch.Tensor):
@@ -73,7 +65,6 @@ def _setup_pipeline(self, x: torch.Tensor, seq_lens: torch.Tensor):
                 [op for op in self._ops() if op is not None], env
             )
             self.compile_env = env
-            self.loop = make_loop(self.pipeline)
 
     def _current_env(self) -> Recipe:
         return Recipe.current()

From 9c655d2d6080f99d5e91e3f863bc5fe6f2c81d21 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 17:03:21 +0200
Subject: [PATCH 529/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 transformer_engine/pytorch/sequential/nvte/_common.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 5d22f0dce7..6ecff2fd81 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -388,6 +388,9 @@ def torch_op(
         return _make_wrapper(func, None, None)
 
 
+torch_op = lambda x: x
+
+
 def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor:
     return _nvte.Tensor(
         t.data,

From a4d68cd14a18616a6df8e7b0e07a9448d7376c4d Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 17:10:33 +0200
Subject: [PATCH 530/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../sequential/compute_pipeline_function.py   | 124 +++++++++---------
 1 file changed, 64 insertions(+), 60 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/compute_pipeline_function.py b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
index 0c59f49cf6..ae41ded206 100644
--- a/transformer_engine/pytorch/sequential/compute_pipeline_function.py
+++ b/transformer_engine/pytorch/sequential/compute_pipeline_function.py
@@ -5,71 +5,80 @@
 from typing import Final
 from .persistent import Persistent
 from . import nvte
-from .compute_pipeline import Context, Op
-from .compute_pipeline import ComputePipeline
+from .compute_pipeline import ComputePipeline, Context, Op
 
 FP8Meta = tuple[torch.Tensor, torch.Tensor, torch.Tensor]
 
 
-class BackwardComm:
-    nvte_grad_output: nvte.Tensor | None = None
-
-
 class ForwardArgs:
-    is_exposed_x_squished_now: Final[bool]
-    upcoming_backward: Final[BackwardComm | None]
-    next_upcoming_backward: Final[BackwardComm]
+    nvte_x: nvte.Tensor
+    is_exposed_x_squished_now: bool
+    upcoming_backward: BackwardComm | None
     op: Final[Op]
     meta_tensor_provider_fwd: Final[Persistent[nvte.DType, FP8Meta]]
     meta_tensor_provider_bwd: Final[Persistent[nvte.DType, FP8Meta]]
 
     def __init__(
         self,
+        nvte_x: nvte.Tensor,
         is_exposed_x_squished_now: bool,
         upcoming_backward: BackwardComm | None,
         op: Op,
         meta_tensor_provider_fwd: Persistent[nvte.DType, FP8Meta],
         meta_tensor_provider_bwd: Persistent[nvte.DType, FP8Meta],
     ):
+        self.nvte_x = nvte_x
         self.is_exposed_x_squished_now = is_exposed_x_squished_now
         self.upcoming_backward = upcoming_backward
-        self.next_upcoming_backward = BackwardComm()
         self.op = op
         self.meta_tensor_provider_fwd = meta_tensor_provider_fwd
         self.meta_tensor_provider_bwd = meta_tensor_provider_bwd
 
 
-_args: ForwardArgs
+class BackwardComm:
+    nvte_grad_output: nvte.Tensor | None = None
 
 
 class ComputePipelineFunction(autograd.Function):
-    args: ForwardArgs
-
     @staticmethod
     def forward(  # type: ignore[arg-type]
         ctx: FunctionCtx,
         exposed_x: torch.Tensor,
-        *tensor_mess: torch.Tensor,
-    ) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-        nvte_x = nvte.Tensor(*tensor_mess[-4:])
-        del tensor_mess
+        *exposed_args: torch.Tensor | ForwardArgs,
+    ):
+        """
+        exposed_x is used only to let autograd construct the computation graph
+        real input and output is in list, as nvte.Tensor is immutable
+        exposed_tensors are exposed for the optimizer to later apply gradients
+        """
+        exposed_tensors, args = exposed_args[:-1], exposed_args[-1]
+        del exposed_tensors
+        assert isinstance(args, ForwardArgs)
+
+        nvte_x = args.nvte_x
 
-        nvte.set_execution_state("forward", _args.meta_tensor_provider_fwd)
-        nvte_y, to_save = _args.op.forward(nvte_x)
+        nvte.set_execution_state("forward", args.meta_tensor_provider_fwd)
+        y, to_save = args.op.forward(nvte_x)
 
         # Expose backward context for tracing
-        bwd_ctx: list[torch.Tensor] = []
+        bwd_ctx = list[torch.Tensor]()
         for _, tensor in to_save.items():
             bwd_ctx.append(tensor.data)
-            bwd_ctx.append(tensor.amax)
-            bwd_ctx.append(tensor.scale)
-            bwd_ctx.append(tensor.scale_inv)
+            if tensor.amax.numel():
+                bwd_ctx.append(tensor.amax)
+            if tensor.scale.numel():
+                bwd_ctx.append(tensor.scale)
+            if tensor.scale_inv.numel():
+                bwd_ctx.append(tensor.scale_inv)
         ctx.save_for_backward(*bwd_ctx)
 
         # Save real context
         setattr(ctx, "nvte_ctx", to_save)
-        setattr(ctx, "nvte_op", _args.op)
-        setattr(ctx, "nvte_meta_tensor_provider_bwd", _args.meta_tensor_provider_bwd)
+        setattr(ctx, "nvte_op", args.op)
+        setattr(ctx, "nvte_meta_tensor_provider_bwd", args.meta_tensor_provider_bwd)
+
+        # Actually store the result
+        args.nvte_x = y
 
         # Pytorch will break the computation graph
         # if it will see an output tensor of an integer type.
@@ -82,13 +91,15 @@ def forward(  # type: ignore[arg-type]
         # won't run at inference anyway.
 
         # Unsquish x if needed:
-        if _args.is_exposed_x_squished_now:
+        if args.is_exposed_x_squished_now:
             # Intentionally commented out - _unsquish(exposed_x)
             # We don't need to perform the unsquish itself, as this
             # data will not be read anyway.
+            # Actually, we cannot do that, as x,
+            # cannot be modified in place.
             # It is only really neccesarry to notify
             # the backward.
-            #
+            args.is_exposed_x_squished_now = False
             # If the input to the forward was squished,
             # Pytorch will expect its gradient to be squished
             # as well. The backward of this forward will be
@@ -104,7 +115,7 @@ def forward(  # type: ignore[arg-type]
         exposed_x.data = torch.Tensor().cuda()  # avoid copy
         exposed_y = exposed_x.clone()  # copy history
         exposed_x.data = x_data
-        exposed_y.data = nvte_y.data
+        exposed_y.data = y.data
 
         # Squish y if fp8:
         if exposed_y.data.dtype == torch.int8:
@@ -115,18 +126,21 @@ def forward(  # type: ignore[arg-type]
             # to squish it, while the backward coresponding to this
             # forward needs to unsquish it.
             setattr(ctx, "nvte_unsquish_incoming_dgrad", True)
+            args.is_exposed_x_squished_now = True
         else:
             setattr(ctx, "nvte_unsquish_incoming_dgrad", False)
+            args.is_exposed_x_squished_now = False
 
         # Save backward comm
         # This object is allows for the current backward to
         # pass data to the next backward (the backward of the
         # preceding operation). This is needed to pass
         # fp8 gradients properly.
-        setattr(ctx, "nvte_upcoming_backward_comm", _args.upcoming_backward)
-        setattr(ctx, "nvte_preceding_backward_comm", _args.next_upcoming_backward)
+        setattr(ctx, "nvte_upcoming_backward_comm", args.upcoming_backward)
+        args.upcoming_backward = BackwardComm()
+        setattr(ctx, "nvte_preceding_backward_comm", args.upcoming_backward)
 
-        return (exposed_y, nvte_y.data, nvte_y.amax, nvte_y.scale, nvte_y.scale_inv)
+        return exposed_y
 
     @staticmethod
     def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-type]
@@ -185,47 +199,37 @@ def backward(ctx: FunctionCtx, grad_output: torch.Tensor):  # type: ignore[arg-t
 
 
 def apply(x: torch.Tensor, pipeline: ComputePipeline, training: bool) -> torch.Tensor:
-    nvte_x = nvte.make_nvte_tensor(x)
     if not training:
-        y = pipeline.run_inference(nvte_x)
+        y = pipeline.run_inference(nvte.make_nvte_tensor(x))
         assert not nvte.is_fp8(y)
         return y.data
     else:
         pipeline.next_iteration()
-        for i, contained_op in enumerate(pipeline.functions):
-            global _args
-            if i == 0:
-                _args = ForwardArgs(
-                    False,
-                    None,
-                    contained_op,
-                    pipeline.meta_fwd,
-                    pipeline.meta_bwd,
-                )
-            else:
-                _args = ForwardArgs(
-                    x.dtype != nvte_x.data.dtype,
-                    _args.next_upcoming_backward,
-                    contained_op,
-                    pipeline.meta_fwd,
-                    pipeline.meta_bwd,
-                )
-
+        nvte_x = nvte.make_nvte_tensor(x)
+        is_exposed_x_squished_now = False
+        upcoming_backward = None
+        for contained_op in pipeline.functions:
             nvte_tensors = contained_op.require_grad()
-            exposed_tensors: list[torch.Tensor] = []
+            exposed_tensors = list[torch.Tensor]()
             for nvte_tensor in nvte_tensors:
                 assert not nvte.is_fp8(
                     nvte_tensor
                 )  # TODO: change when fp8 optimizer comes along
                 exposed_tensors.append(nvte_tensor.data)
-
-            (x, nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv) = ComputePipelineFunction.apply(  # type: ignore
-                x,
-                *exposed_tensors,
-                *(nvte_x.data, nvte_x.amax, nvte_x.scale, nvte_x.scale_inv),
+            args = ForwardArgs(
+                nvte_x,
+                is_exposed_x_squished_now,
+                upcoming_backward,
+                contained_op,
+                pipeline.meta_fwd,
+                pipeline.meta_bwd,
+            )
+            x = ComputePipelineFunction.apply(x, *exposed_tensors, args)  # type: ignore
+            nvte_x, is_exposed_x_squished_now, upcoming_backward = (
+                args.nvte_x,
+                args.is_exposed_x_squished_now,
+                args.upcoming_backward,
             )
-            assert isinstance(x, torch.Tensor)
-            nvte_x = nvte.Tensor(nvte_x_data, nvte_x_amax, nvte_x_scale, nvte_x_scale_inv)  # type: ignore
         return x
 
 

From 79a726cf55f1c16c87af24ea6872e0853334fabd Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 17:15:39 +0200
Subject: [PATCH 531/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 769 +++++++++---------
 1 file changed, 386 insertions(+), 383 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 6ecff2fd81..7782226f7d 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,391 +1,394 @@
 from __future__ import annotations
-from collections import namedtuple
-from typing import TYPE_CHECKING, Any, Callable, Sequence, TypeVar, overload
-from types import GenericAlias, NoneType
-import typing
-from typing_extensions import TypeVarTuple, Unpack
-import warnings
-from enum import Enum
 
-import torch
-from torch.autograd.function import FunctionCtx
-from . import cpp_extensions as _nvte
-from ..utils import (
-    get_arg_names,
-    get_arg_types,
-    get_return_type,
-    exec_saving_source,
-    is_generic,
-)
-
-
-def _type_name(t: type) -> str:
-    if is_generic(t):
-        result = str(t)
-    else:
-        result = f"{t.__module__}.{t.__name__}"
-
-    return (
-        result.replace("builtins.", "")
-        .replace("transformer_engine.pytorch.sequential.nvte.", "")
-        .replace("collections.abc", "typing")
-        .replace("__init__.pyi", "cpp_extensions")
-        .replace("NoneType", "None")
-    )
-
-
-def _wrap_type(
-    type_wrap_func: Callable[[type], type],
-    arg_type_: type | GenericAlias,
-) -> Any:
-    if is_generic(arg_type_):
-        origin = arg_type_.__origin__  # type: ignore
-        while hasattr(origin, "__origin__"):  # type: ignore
-            origin = getattr(origin, "__origin__")  # type: ignore
-        args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
-        new_args = tuple(_wrap_type(type_wrap_func, arg) for arg in args)
-        return origin.__class_getitem__(new_args)  # type: ignore
-    else:
-        if TYPE_CHECKING:
-            assert isinstance(arg_type_, type)
-        return type_wrap_func(arg_type_)
-
-
-def _arg_type_wrap_func(arg_type: type):
-    if arg_type is _nvte.Tensor:
-        return Sequence[torch.Tensor]
-    elif issubclass(arg_type, Enum):
-        return int
-    elif issubclass(
-        arg_type, (int, float, bool, str, torch.Tensor, NoneType, FunctionCtx)
-    ):
-        return arg_type
-    else:
-        raise NotImplementedError(arg_type)
-
-
-def _wrap_arg_type(arg_type: type | GenericAlias) -> Any:
-    return _wrap_type(_arg_type_wrap_func, arg_type)
-
-
-def _result_type_wrap_func(result_type: type):
-    if result_type is _nvte.Tensor:
-        return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
-    else:
-        return _arg_type_wrap_func(result_type)
-
-
-def _is_generic_tuple(t: type) -> bool:
-    return is_generic(t) and (t.__origin__ is tuple)  # type: ignore
-
-
-def _wrap_result_type(result_type: type | GenericAlias) -> Any:
-    wrapped_type = _wrap_type(_result_type_wrap_func, result_type)
-
-    # Flatten tuple of tuples of tensors
-    if _is_generic_tuple(wrapped_type):
-        arg_types = typing.get_args(wrapped_type)
-        if any(_is_generic_tuple(arg_type) for arg_type in arg_types):
-            assert all(
-                _is_generic_tuple(arg_type)
-                and typing.get_args(arg_type)
-                == (torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor)
-                for arg_type in arg_types
-            )
-            tensors = len(arg_types)
-            types = (torch.Tensor,) * (4 * tensors)
-            return tuple.__class_getitem__(types)
-    return wrapped_type  # type: ignore
-
-
-def _wrap_unwrap_code(
-    arg_name: str,
-    arg_type: type,
-    arg_type_name: str,
-    wrapped_arg_type_name: str,
-):
-    if arg_type is _nvte.Tensor:
-        w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
-        u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
-    elif _is_generic_tuple(arg_type) and all(
-        sub_type is _nvte.Tensor for sub_type in typing.get_args(arg_type)
-    ):
-        w = f"    {arg_name}_: {wrapped_arg_type_name} = tuple(t for tensor in {arg_name} for t in te_to_torch_tensor(tensor))\n"
-        u = f"    {arg_name}: {arg_type_name} = tuple(torch_to_te_tensor(tuple({arg_name}_[j] for j in range(i, i + 4, 1))) for i in range(0, len({arg_name}_), 4))\n"
-    elif issubclass(arg_type, Enum):
-        w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
-        u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
-    else:
-        w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
-        u = f"    {arg_name}: {arg_type_name} = {arg_name}_\n"
-    return (w, u)
-
-
-def _arg_wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
-    wrapped_arg_type_name = _type_name(_wrap_arg_type(arg_type))
-    return _wrap_unwrap_code(arg_name, arg_type, arg_type_name, wrapped_arg_type_name)
-
-
-def _result_wrap_unwrap_code(result_type: type, result_type_name: str):
-    wrapped_result_type_name = _type_name(_wrap_result_type(result_type))
-    return _wrap_unwrap_code(
-        "result", result_type, result_type_name, wrapped_result_type_name
-    )
+# from collections import namedtuple
+# from typing import TYPE_CHECKING, Any, Callable, Sequence, TypeVar, overload
+# from types import GenericAlias, NoneType
+# import typing
+# from typing_extensions import TypeVarTuple, Unpack
+# import warnings
+# from enum import Enum
 
+import torch
 
-def _register_op(
-    func: Callable[..., Any],
-    abstract_impl: Callable[..., Any],
-    save_for_backward: Callable[..., Any] | None = None,
-    backward: Callable[..., Any] | None = None,
-):
-    name = f"nvte::{func.__name__}"
-    # Different versions of PyTorch have different ways of registering custom ops
-    try:
-        decl, impl, aimp, save, bwd = (  # type: ignore
-            torch._custom_ops.custom_op,  # type: ignore
-            torch._custom_ops.impl,  # type: ignore
-            torch._custom_ops.impl_abstract,  # type: ignore
-            torch._custom_ops.impl_save_for_backward,  # type: ignore
-            torch._custom_ops.impl_backward,  # type: ignore
-        )
-        decl(name)(func)
-        impl(name)(func)
-        aimp(name)(abstract_impl)
-        if save_for_backward:
-            save(name)(save_for_backward)
-        if backward:
-            bwd(name)(backward)
-        return
-    except AttributeError:
-        pass
-    try:
-        decl = torch._custom_op.impl.custom_op  # type: ignore
-        declared = decl(name)(func)  # type: ignore
-        declared.impl("cuda")(func)  # type: ignore
-        declared.impl_abstract()(abstract_impl)  # type: ignore
-        if save_for_backward:
-            declared.impl_save_for_backward()(save_for_backward)  # type: ignore
-        if backward:
-            declared.impl_backward()(backward)  # type: ignore
-        return
-    except AttributeError:
-        pass
-    if not hasattr(_register_op, "warned"):  # type: ignore
-        _register_op.warned = True  # type: ignore
-        warnings.warn("Unable to find custom_op, decorator has no effect")
-
-
-def _generate_wrapping_unwrapping_code(
-    func: Callable[..., Any],
-    inner_additional_setup_code: str,
-    inner_additional_teardown_code: str,
-):
-    try:
-        arg_types = get_arg_types(func)
-        return_type = get_return_type(func)
-    except Exception as e:
-        raise RuntimeError(
-            f"Failed to get argument and return types for {func.__name__}. Make sure the function is annotated with types."
-        ) from e
-    arg_names = get_arg_names(func)
-    arg_type_names = list(map(_type_name, arg_types))
-    return_type_name = _type_name(return_type)
-    outer_sig = f"""({ ','.join(
-            f'{arg_name}: {arg_type_name}'
-            for arg_name, arg_type_name in zip(arg_names, arg_type_names)
-        ) }) -> {return_type_name}"""
-    arg_wrapping_code = ""
-    arg_unwrapping_code = ""
-    for arg_name, arg_type, arg_type_name in zip(arg_names, arg_types, arg_type_names):
-        w, u = _arg_wrap_unwrap_code(arg_name, arg_type, arg_type_name)
-        arg_wrapping_code += w
-        arg_unwrapping_code += u
-    wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
-
-    result_wrapping_code, result_unwrapping_code = _result_wrap_unwrap_code(
-        return_type, return_type_name
-    )
+# from torch.autograd.function import FunctionCtx
+from . import cpp_extensions as _nvte
 
-    wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
-    wrapped_arg_types = [_wrap_arg_type(t) for t in arg_types]
-    wrapped_arg_type_names = [_type_name(t) for t in wrapped_arg_types]
-    wrapped_return_type = _wrap_result_type(return_type)
-    wrapped_return_type_name = _type_name(wrapped_return_type)
-    inner_sig = f"""({ ','.join(
-            f'{arg_name}: {arg_type_name}'
-            for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
-        ) }) -> {wrapped_return_type_name}"""
-    unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
-
-    arg_unwrapping_code = arg_unwrapping_code.lstrip()
-    arg_wrapping_code = arg_wrapping_code.lstrip()
-    result_wrapping_code = result_wrapping_code.lstrip()
-    result_unwrapping_code = result_unwrapping_code.lstrip()
-    inner_additional_setup_code = inner_additional_setup_code.lstrip()
-    inner_additional_teardown_code = inner_additional_teardown_code.lstrip()
-
-    inner = f"""\
-def {func.__name__}{inner_sig}:
-    {arg_unwrapping_code}
-    {inner_additional_setup_code}
-    result: {return_type_name} = func({unwrapped_args})
-    {inner_additional_teardown_code}
-    {result_wrapping_code}
-    return result_
-"""
-    outer = f"""\
-def {func.__name__}_wrap{outer_sig}:
-    {arg_wrapping_code}
-    result_: {wrapped_return_type_name} = torch.ops.nvte.{func.__name__}({wrapped_args})
-    {result_unwrapping_code}
-    return result
-"""
-    return inner, outer
-
-
-def _run_full_code(*codes: str, **namespace: Any):
-    source = """\
-import torch
-from . import cpp_extensions
-import typing
-
-def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-    return (t.data, t.amax, t.scale, t.scale_inv)
-
-def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
-    return cpp_extensions.Tensor(*t)
-"""
-    for code in codes:
-        source += code + "\n"
-    while "\n" * 3 in source:
-        source = source.replace("\n" * 3, "\n" * 2)
-    exec_saving_source(source, namespace)
-    return namespace
-
-
-T1 = TypeVar("T1")
-T2 = TypeVar("T2")
-Ts = TypeVarTuple("Ts")
-
-
-def _make_wrapper(
-    func: Callable[[Unpack[Ts]], T1],
-    save_for_backward: Callable[[Unpack[Ts], T1], T2] | None,
-    backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None,
-) -> Callable[[Unpack[Ts]], T1]:
-    # Dynamically generate code of the wrappers
-
-    impl_code, wrap_code = _generate_wrapping_unwrapping_code(func, "", "")
-    func.__name__ = func.__name__ + "_aimp"
-    aimp_code, _________ = _generate_wrapping_unwrapping_code(
-        func,
-        'func.__globals__["_nvte"] = impostor',
-        'func.__globals__["_nvte"] = cpp_extensions',
-    )
-    func.__name__ = func.__name__[:-5]
-    if save_for_backward is not None or backward is not None:
-        assert save_for_backward is not None and backward is not None
-        save_for_backward_code, _ = _generate_wrapping_unwrapping_code(
-            save_for_backward, "", ""
-        )
-        backward_code, _ = _generate_wrapping_unwrapping_code(backward, "", "")
-    else:
-        save_for_backward_code = ""
-        backward_code = ""
-
-    try:
-        # Swap real cpp_extensions (_nvte) for impostor that does nothing
-        # This is needed so the abstract implementation is traceable by PyTorch Dynamo
-        class NVTEImpostor:
-            def __getattr__(self, attr_name: str) -> Any:
-                if attr_name == "Tensor":
-                    return namedtuple("Tensor", ["data", "amax", "scale", "scale_inv"])  # type: ignore
-                else:
-                    attr = getattr(_nvte, attr_name)
-                    if isinstance(attr, type) and issubclass(attr, Enum):
-                        return attr
-                    elif callable(attr):
-                        return lambda *args, **kwargs: None  # type: ignore
-                    else:
-                        return attr
-
-        # Create op
-        ns = _run_full_code(
-            impl_code,
-            wrap_code,
-            func=func,
-            __name__=__name__,
-        )
-        op_impl: Callable[..., Any] = ns[func.__name__]  # type: ignore
-        op_wrap: Callable[[Unpack[Ts]], T1] = ns[f"{func.__name__}_wrap"]  # type: ignore
-        ns = _run_full_code(
-            aimp_code,
-            func=func,
-            __name__=__name__,
-            impostor=NVTEImpostor(),
-        )
-        op_aimp: Callable[..., Any] = ns[f"{func.__name__}_aimp"]  # type: ignore
-
-        if save_for_backward is not None:
-            ns = _run_full_code(
-                save_for_backward_code,
-                func=save_for_backward,
-                __name__=__name__,
-            )
-            op_save_for_backward = ns[f"{save_for_backward.__name__}"]  # type: ignore
-            ns = _run_full_code(
-                backward_code,
-                func=save_for_backward,
-                __name__=__name__,
-            )
-            op_backward = ns[f"{backward.__name__}"]  # type: ignore
-        else:
-            op_save_for_backward = None
-            op_backward = None
-
-        _register_op(op_impl, op_aimp, op_save_for_backward, op_backward)
-
-        return op_wrap
-    except Exception as e:
-        raise RuntimeError(f"Failed to compile wrapper for {func.__name__}.") from e
-
-
-@overload
-def torch_op(
-    func: Callable[[Unpack[Ts]], T1],
-) -> Callable[[Unpack[Ts]], T1]:
-    ...
-
-
-@overload
-def torch_op(
-    *,
-    save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2],
-    backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any],
-) -> Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]:
-    ...
-
-
-def torch_op(
-    func: Callable[[Unpack[Ts]], T1] | None = None,
-    *,
-    save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2] | None = None,
-    backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None = None,
-) -> (
-    Callable[[Unpack[Ts]], T1]
-    | Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]
-):
-    if save_for_backward is not None or backward is not None:
-        assert save_for_backward is not None and backward is not None
-        assert func is None
-        decorator: Callable[
-            [Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]
-        ] = lambda func: _make_wrapper(func, save_for_backward, backward)
-        return decorator
-    else:
-        assert func is not None
-        return _make_wrapper(func, None, None)
+# from ..utils import (
+#     get_arg_names,
+#     get_arg_types,
+#     get_return_type,
+#     exec_saving_source,
+#     is_generic,
+# )
+
+
+# def _type_name(t: type) -> str:
+#     if is_generic(t):
+#         result = str(t)
+#     else:
+#         result = f"{t.__module__}.{t.__name__}"
+
+#     return (
+#         result.replace("builtins.", "")
+#         .replace("transformer_engine.pytorch.sequential.nvte.", "")
+#         .replace("collections.abc", "typing")
+#         .replace("__init__.pyi", "cpp_extensions")
+#         .replace("NoneType", "None")
+#     )
+
+
+# def _wrap_type(
+#     type_wrap_func: Callable[[type], type],
+#     arg_type_: type | GenericAlias,
+# ) -> Any:
+#     if is_generic(arg_type_):
+#         origin = arg_type_.__origin__  # type: ignore
+#         while hasattr(origin, "__origin__"):  # type: ignore
+#             origin = getattr(origin, "__origin__")  # type: ignore
+#         args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
+#         new_args = tuple(_wrap_type(type_wrap_func, arg) for arg in args)
+#         return origin.__class_getitem__(new_args)  # type: ignore
+#     else:
+#         if TYPE_CHECKING:
+#             assert isinstance(arg_type_, type)
+#         return type_wrap_func(arg_type_)
+
+
+# def _arg_type_wrap_func(arg_type: type):
+#     if arg_type is _nvte.Tensor:
+#         return Sequence[torch.Tensor]
+#     elif issubclass(arg_type, Enum):
+#         return int
+#     elif issubclass(
+#         arg_type, (int, float, bool, str, torch.Tensor, NoneType, FunctionCtx)
+#     ):
+#         return arg_type
+#     else:
+#         raise NotImplementedError(arg_type)
+
+
+# def _wrap_arg_type(arg_type: type | GenericAlias) -> Any:
+#     return _wrap_type(_arg_type_wrap_func, arg_type)
+
+
+# def _result_type_wrap_func(result_type: type):
+#     if result_type is _nvte.Tensor:
+#         return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
+#     else:
+#         return _arg_type_wrap_func(result_type)
+
+
+# def _is_generic_tuple(t: type) -> bool:
+#     return is_generic(t) and (t.__origin__ is tuple)  # type: ignore
+
+
+# def _wrap_result_type(result_type: type | GenericAlias) -> Any:
+#     wrapped_type = _wrap_type(_result_type_wrap_func, result_type)
+
+#     # Flatten tuple of tuples of tensors
+#     if _is_generic_tuple(wrapped_type):
+#         arg_types = typing.get_args(wrapped_type)
+#         if any(_is_generic_tuple(arg_type) for arg_type in arg_types):
+#             assert all(
+#                 _is_generic_tuple(arg_type)
+#                 and typing.get_args(arg_type)
+#                 == (torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor)
+#                 for arg_type in arg_types
+#             )
+#             tensors = len(arg_types)
+#             types = (torch.Tensor,) * (4 * tensors)
+#             return tuple.__class_getitem__(types)
+#     return wrapped_type  # type: ignore
+
+
+# def _wrap_unwrap_code(
+#     arg_name: str,
+#     arg_type: type,
+#     arg_type_name: str,
+#     wrapped_arg_type_name: str,
+# ):
+#     if arg_type is _nvte.Tensor:
+#         w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
+#         u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
+#     elif _is_generic_tuple(arg_type) and all(
+#         sub_type is _nvte.Tensor for sub_type in typing.get_args(arg_type)
+#     ):
+#         w = f"    {arg_name}_: {wrapped_arg_type_name} = tuple(t for tensor in {arg_name} for t in te_to_torch_tensor(tensor))\n"
+#         u = f"    {arg_name}: {arg_type_name} = tuple(torch_to_te_tensor(tuple({arg_name}_[j] for j in range(i, i + 4, 1))) for i in range(0, len({arg_name}_), 4))\n"
+#     elif issubclass(arg_type, Enum):
+#         w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
+#         u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
+#     else:
+#         w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
+#         u = f"    {arg_name}: {arg_type_name} = {arg_name}_\n"
+#     return (w, u)
+
+
+# def _arg_wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
+#     wrapped_arg_type_name = _type_name(_wrap_arg_type(arg_type))
+#     return _wrap_unwrap_code(arg_name, arg_type, arg_type_name, wrapped_arg_type_name)
+
+
+# def _result_wrap_unwrap_code(result_type: type, result_type_name: str):
+#     wrapped_result_type_name = _type_name(_wrap_result_type(result_type))
+#     return _wrap_unwrap_code(
+#         "result", result_type, result_type_name, wrapped_result_type_name
+#     )
+
+
+# def _register_op(
+#     func: Callable[..., Any],
+#     abstract_impl: Callable[..., Any],
+#     save_for_backward: Callable[..., Any] | None = None,
+#     backward: Callable[..., Any] | None = None,
+# ):
+#     name = f"nvte::{func.__name__}"
+#     # Different versions of PyTorch have different ways of registering custom ops
+#     try:
+#         decl, impl, aimp, save, bwd = (  # type: ignore
+#             torch._custom_ops.custom_op,  # type: ignore
+#             torch._custom_ops.impl,  # type: ignore
+#             torch._custom_ops.impl_abstract,  # type: ignore
+#             torch._custom_ops.impl_save_for_backward,  # type: ignore
+#             torch._custom_ops.impl_backward,  # type: ignore
+#         )
+#         decl(name)(func)
+#         impl(name)(func)
+#         aimp(name)(abstract_impl)
+#         if save_for_backward:
+#             save(name)(save_for_backward)
+#         if backward:
+#             bwd(name)(backward)
+#         return
+#     except AttributeError:
+#         pass
+#     try:
+#         decl = torch._custom_op.impl.custom_op  # type: ignore
+#         declared = decl(name)(func)  # type: ignore
+#         declared.impl("cuda")(func)  # type: ignore
+#         declared.impl_abstract()(abstract_impl)  # type: ignore
+#         if save_for_backward:
+#             declared.impl_save_for_backward()(save_for_backward)  # type: ignore
+#         if backward:
+#             declared.impl_backward()(backward)  # type: ignore
+#         return
+#     except AttributeError:
+#         pass
+#     if not hasattr(_register_op, "warned"):  # type: ignore
+#         _register_op.warned = True  # type: ignore
+#         warnings.warn("Unable to find custom_op, decorator has no effect")
+
+
+# def _generate_wrapping_unwrapping_code(
+#     func: Callable[..., Any],
+#     inner_additional_setup_code: str,
+#     inner_additional_teardown_code: str,
+# ):
+#     try:
+#         arg_types = get_arg_types(func)
+#         return_type = get_return_type(func)
+#     except Exception as e:
+#         raise RuntimeError(
+#             f"Failed to get argument and return types for {func.__name__}. Make sure the function is annotated with types."
+#         ) from e
+#     arg_names = get_arg_names(func)
+#     arg_type_names = list(map(_type_name, arg_types))
+#     return_type_name = _type_name(return_type)
+#     outer_sig = f"""({ ','.join(
+#             f'{arg_name}: {arg_type_name}'
+#             for arg_name, arg_type_name in zip(arg_names, arg_type_names)
+#         ) }) -> {return_type_name}"""
+#     arg_wrapping_code = ""
+#     arg_unwrapping_code = ""
+#     for arg_name, arg_type, arg_type_name in zip(arg_names, arg_types, arg_type_names):
+#         w, u = _arg_wrap_unwrap_code(arg_name, arg_type, arg_type_name)
+#         arg_wrapping_code += w
+#         arg_unwrapping_code += u
+#     wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
+
+#     result_wrapping_code, result_unwrapping_code = _result_wrap_unwrap_code(
+#         return_type, return_type_name
+#     )
+
+#     wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
+#     wrapped_arg_types = [_wrap_arg_type(t) for t in arg_types]
+#     wrapped_arg_type_names = [_type_name(t) for t in wrapped_arg_types]
+#     wrapped_return_type = _wrap_result_type(return_type)
+#     wrapped_return_type_name = _type_name(wrapped_return_type)
+#     inner_sig = f"""({ ','.join(
+#             f'{arg_name}: {arg_type_name}'
+#             for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
+#         ) }) -> {wrapped_return_type_name}"""
+#     unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
+
+#     arg_unwrapping_code = arg_unwrapping_code.lstrip()
+#     arg_wrapping_code = arg_wrapping_code.lstrip()
+#     result_wrapping_code = result_wrapping_code.lstrip()
+#     result_unwrapping_code = result_unwrapping_code.lstrip()
+#     inner_additional_setup_code = inner_additional_setup_code.lstrip()
+#     inner_additional_teardown_code = inner_additional_teardown_code.lstrip()
+
+#     inner = f"""\
+# def {func.__name__}{inner_sig}:
+#     {arg_unwrapping_code}
+#     {inner_additional_setup_code}
+#     result: {return_type_name} = func({unwrapped_args})
+#     {inner_additional_teardown_code}
+#     {result_wrapping_code}
+#     return result_
+# """
+#     outer = f"""\
+# def {func.__name__}_wrap{outer_sig}:
+#     {arg_wrapping_code}
+#     result_: {wrapped_return_type_name} = torch.ops.nvte.{func.__name__}({wrapped_args})
+#     {result_unwrapping_code}
+#     return result
+# """
+#     return inner, outer
+
+
+# def _run_full_code(*codes: str, **namespace: Any):
+#     source = """\
+# import torch
+# from . import cpp_extensions
+# import typing
+
+# def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+#     return (t.data, t.amax, t.scale, t.scale_inv)
+
+# def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
+#     return cpp_extensions.Tensor(*t)
+# """
+#     for code in codes:
+#         source += code + "\n"
+#     while "\n" * 3 in source:
+#         source = source.replace("\n" * 3, "\n" * 2)
+#     exec_saving_source(source, namespace)
+#     return namespace
+
+
+# T1 = TypeVar("T1")
+# T2 = TypeVar("T2")
+# Ts = TypeVarTuple("Ts")
+
+
+# def _make_wrapper(
+#     func: Callable[[Unpack[Ts]], T1],
+#     save_for_backward: Callable[[Unpack[Ts], T1], T2] | None,
+#     backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None,
+# ) -> Callable[[Unpack[Ts]], T1]:
+#     # Dynamically generate code of the wrappers
+
+#     impl_code, wrap_code = _generate_wrapping_unwrapping_code(func, "", "")
+#     func.__name__ = func.__name__ + "_aimp"
+#     aimp_code, _________ = _generate_wrapping_unwrapping_code(
+#         func,
+#         'func.__globals__["_nvte"] = impostor',
+#         'func.__globals__["_nvte"] = cpp_extensions',
+#     )
+#     func.__name__ = func.__name__[:-5]
+#     if save_for_backward is not None or backward is not None:
+#         assert save_for_backward is not None and backward is not None
+#         save_for_backward_code, _ = _generate_wrapping_unwrapping_code(
+#             save_for_backward, "", ""
+#         )
+#         backward_code, _ = _generate_wrapping_unwrapping_code(backward, "", "")
+#     else:
+#         save_for_backward_code = ""
+#         backward_code = ""
+
+#     try:
+#         # Swap real cpp_extensions (_nvte) for impostor that does nothing
+#         # This is needed so the abstract implementation is traceable by PyTorch Dynamo
+#         class NVTEImpostor:
+#             def __getattr__(self, attr_name: str) -> Any:
+#                 if attr_name == "Tensor":
+#                     return namedtuple("Tensor", ["data", "amax", "scale", "scale_inv"])  # type: ignore
+#                 else:
+#                     attr = getattr(_nvte, attr_name)
+#                     if isinstance(attr, type) and issubclass(attr, Enum):
+#                         return attr
+#                     elif callable(attr):
+#                         return lambda *args, **kwargs: None  # type: ignore
+#                     else:
+#                         return attr
+
+#         # Create op
+#         ns = _run_full_code(
+#             impl_code,
+#             wrap_code,
+#             func=func,
+#             __name__=__name__,
+#         )
+#         op_impl: Callable[..., Any] = ns[func.__name__]  # type: ignore
+#         op_wrap: Callable[[Unpack[Ts]], T1] = ns[f"{func.__name__}_wrap"]  # type: ignore
+#         ns = _run_full_code(
+#             aimp_code,
+#             func=func,
+#             __name__=__name__,
+#             impostor=NVTEImpostor(),
+#         )
+#         op_aimp: Callable[..., Any] = ns[f"{func.__name__}_aimp"]  # type: ignore
+
+#         if save_for_backward is not None:
+#             ns = _run_full_code(
+#                 save_for_backward_code,
+#                 func=save_for_backward,
+#                 __name__=__name__,
+#             )
+#             op_save_for_backward = ns[f"{save_for_backward.__name__}"]  # type: ignore
+#             ns = _run_full_code(
+#                 backward_code,
+#                 func=save_for_backward,
+#                 __name__=__name__,
+#             )
+#             op_backward = ns[f"{backward.__name__}"]  # type: ignore
+#         else:
+#             op_save_for_backward = None
+#             op_backward = None
+
+#         _register_op(op_impl, op_aimp, op_save_for_backward, op_backward)
+
+#         return op_wrap
+#     except Exception as e:
+#         raise RuntimeError(f"Failed to compile wrapper for {func.__name__}.") from e
+
+
+# @overload
+# def torch_op(
+#     func: Callable[[Unpack[Ts]], T1],
+# ) -> Callable[[Unpack[Ts]], T1]:
+#     ...
+
+
+# @overload
+# def torch_op(
+#     *,
+#     save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2],
+#     backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any],
+# ) -> Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]:
+#     ...
+
+
+# def torch_op(
+#     func: Callable[[Unpack[Ts]], T1] | None = None,
+#     *,
+#     save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2] | None = None,
+#     backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None = None,
+# ) -> (
+#     Callable[[Unpack[Ts]], T1]
+#     | Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]
+# ):
+#     if save_for_backward is not None or backward is not None:
+#         assert save_for_backward is not None and backward is not None
+#         assert func is None
+#         decorator: Callable[
+#             [Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]
+#         ] = lambda func: _make_wrapper(func, save_for_backward, backward)
+#         return decorator
+#     else:
+#         assert func is not None
+#         return _make_wrapper(func, None, None)
 
 
 torch_op = lambda x: x

From 5167371d4be110390c070d9c87255f216e38fde9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 17:41:43 +0200
Subject: [PATCH 532/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../nvte/cpp_extensions/__init__.py           | 20 +++++++++----------
 1 file changed, 9 insertions(+), 11 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
index 5a47f33547..e74443eba3 100644
--- a/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
@@ -12,7 +12,7 @@
 
 
 class Tensor:
-    __raw: RawTensor | None
+    __raw: RawTensor
     dtype: DType
     shape: list[int]
     data: torch.Tensor
@@ -35,7 +35,14 @@ def __init__(
         else:
             self.dtype = torch_to_te_dtype(data.dtype)
         self.shape = list(data.shape)
-        self.__raw = None
+        self.__raw = RawTensor(
+            self.data.data_ptr(),
+            self.shape,
+            getattr(DType, "__orig_type__")(self.dtype.value),
+            self.amax.data_ptr(),
+            self.scale.data_ptr(),
+            self.scale_inv.data_ptr(),
+        )
         self.data = data
         self.amax = amax
         self.scale = scale
@@ -43,15 +50,6 @@ def __init__(
 
     @property
     def _raw(self) -> RawTensor:
-        if self.__raw is None:
-            self.__raw = RawTensor(
-                self.data.data_ptr(),
-                self.shape,
-                getattr(DType, "__orig_type__")(self.dtype.value),
-                self.amax.data_ptr(),
-                self.scale.data_ptr(),
-                self.scale_inv.data_ptr(),
-            )
         return self.__raw
 
     def query_shape_dtype(self):

From 006dd32aab88bf7fb4b011296d1d991e49fae40e Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 17:42:46 +0200
Subject: [PATCH 533/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/cpp_extensions/__init__.py    | 8 ++++----
 1 file changed, 4 insertions(+), 4 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
index e74443eba3..b39faddd13 100644
--- a/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
@@ -35,6 +35,10 @@ def __init__(
         else:
             self.dtype = torch_to_te_dtype(data.dtype)
         self.shape = list(data.shape)
+        self.data = data
+        self.amax = amax
+        self.scale = scale
+        self.scale_inv = scale_inv
         self.__raw = RawTensor(
             self.data.data_ptr(),
             self.shape,
@@ -43,10 +47,6 @@ def __init__(
             self.scale.data_ptr(),
             self.scale_inv.data_ptr(),
         )
-        self.data = data
-        self.amax = amax
-        self.scale = scale
-        self.scale_inv = scale_inv
 
     @property
     def _raw(self) -> RawTensor:

From e4448569a9e2dac658e0ce8cd5d60712aec6601c Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 17:44:27 +0200
Subject: [PATCH 534/535] fix

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/cpp_extensions/__init__.py      | 6 +-----
 1 file changed, 1 insertion(+), 5 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
index b39faddd13..36f213a655 100644
--- a/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
+++ b/transformer_engine/pytorch/sequential/nvte/cpp_extensions/__init__.py
@@ -39,7 +39,7 @@ def __init__(
         self.amax = amax
         self.scale = scale
         self.scale_inv = scale_inv
-        self.__raw = RawTensor(
+        self._raw = RawTensor(
             self.data.data_ptr(),
             self.shape,
             getattr(DType, "__orig_type__")(self.dtype.value),
@@ -48,10 +48,6 @@ def __init__(
             self.scale_inv.data_ptr(),
         )
 
-    @property
-    def _raw(self) -> RawTensor:
-        return self.__raw
-
     def query_shape_dtype(self):
         self.dtype = DType(self._raw.dtype.value)
         self.shape = list(self._raw.shape)

From 81dfc55b6c7650d6e128063f05eabe6c92a84cb9 Mon Sep 17 00:00:00 2001
From: Jan Bielak <jbielak@nvidia.com>
Date: Fri, 1 Sep 2023 19:09:57 +0200
Subject: [PATCH 535/535] final tidying up

Signed-off-by: Jan Bielak <jbielak@nvidia.com>
---
 .../pytorch/sequential/nvte/_common.py        | 771 +++++++++---------
 1 file changed, 384 insertions(+), 387 deletions(-)

diff --git a/transformer_engine/pytorch/sequential/nvte/_common.py b/transformer_engine/pytorch/sequential/nvte/_common.py
index 7782226f7d..89ac37fe4e 100644
--- a/transformer_engine/pytorch/sequential/nvte/_common.py
+++ b/transformer_engine/pytorch/sequential/nvte/_common.py
@@ -1,397 +1,394 @@
 from __future__ import annotations
 
-# from collections import namedtuple
-# from typing import TYPE_CHECKING, Any, Callable, Sequence, TypeVar, overload
-# from types import GenericAlias, NoneType
-# import typing
-# from typing_extensions import TypeVarTuple, Unpack
-# import warnings
-# from enum import Enum
+from collections import namedtuple
+from typing import TYPE_CHECKING, Any, Callable, Sequence, TypeVar, overload
+from types import GenericAlias, NoneType
+import typing
+from typing_extensions import TypeVarTuple, Unpack
+import warnings
+from enum import Enum
 
 import torch
 
-# from torch.autograd.function import FunctionCtx
+from torch.autograd.function import FunctionCtx
 from . import cpp_extensions as _nvte
 
-# from ..utils import (
-#     get_arg_names,
-#     get_arg_types,
-#     get_return_type,
-#     exec_saving_source,
-#     is_generic,
-# )
-
-
-# def _type_name(t: type) -> str:
-#     if is_generic(t):
-#         result = str(t)
-#     else:
-#         result = f"{t.__module__}.{t.__name__}"
-
-#     return (
-#         result.replace("builtins.", "")
-#         .replace("transformer_engine.pytorch.sequential.nvte.", "")
-#         .replace("collections.abc", "typing")
-#         .replace("__init__.pyi", "cpp_extensions")
-#         .replace("NoneType", "None")
-#     )
-
-
-# def _wrap_type(
-#     type_wrap_func: Callable[[type], type],
-#     arg_type_: type | GenericAlias,
-# ) -> Any:
-#     if is_generic(arg_type_):
-#         origin = arg_type_.__origin__  # type: ignore
-#         while hasattr(origin, "__origin__"):  # type: ignore
-#             origin = getattr(origin, "__origin__")  # type: ignore
-#         args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
-#         new_args = tuple(_wrap_type(type_wrap_func, arg) for arg in args)
-#         return origin.__class_getitem__(new_args)  # type: ignore
-#     else:
-#         if TYPE_CHECKING:
-#             assert isinstance(arg_type_, type)
-#         return type_wrap_func(arg_type_)
-
-
-# def _arg_type_wrap_func(arg_type: type):
-#     if arg_type is _nvte.Tensor:
-#         return Sequence[torch.Tensor]
-#     elif issubclass(arg_type, Enum):
-#         return int
-#     elif issubclass(
-#         arg_type, (int, float, bool, str, torch.Tensor, NoneType, FunctionCtx)
-#     ):
-#         return arg_type
-#     else:
-#         raise NotImplementedError(arg_type)
-
-
-# def _wrap_arg_type(arg_type: type | GenericAlias) -> Any:
-#     return _wrap_type(_arg_type_wrap_func, arg_type)
-
-
-# def _result_type_wrap_func(result_type: type):
-#     if result_type is _nvte.Tensor:
-#         return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
-#     else:
-#         return _arg_type_wrap_func(result_type)
-
-
-# def _is_generic_tuple(t: type) -> bool:
-#     return is_generic(t) and (t.__origin__ is tuple)  # type: ignore
-
-
-# def _wrap_result_type(result_type: type | GenericAlias) -> Any:
-#     wrapped_type = _wrap_type(_result_type_wrap_func, result_type)
-
-#     # Flatten tuple of tuples of tensors
-#     if _is_generic_tuple(wrapped_type):
-#         arg_types = typing.get_args(wrapped_type)
-#         if any(_is_generic_tuple(arg_type) for arg_type in arg_types):
-#             assert all(
-#                 _is_generic_tuple(arg_type)
-#                 and typing.get_args(arg_type)
-#                 == (torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor)
-#                 for arg_type in arg_types
-#             )
-#             tensors = len(arg_types)
-#             types = (torch.Tensor,) * (4 * tensors)
-#             return tuple.__class_getitem__(types)
-#     return wrapped_type  # type: ignore
-
-
-# def _wrap_unwrap_code(
-#     arg_name: str,
-#     arg_type: type,
-#     arg_type_name: str,
-#     wrapped_arg_type_name: str,
-# ):
-#     if arg_type is _nvte.Tensor:
-#         w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
-#         u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
-#     elif _is_generic_tuple(arg_type) and all(
-#         sub_type is _nvte.Tensor for sub_type in typing.get_args(arg_type)
-#     ):
-#         w = f"    {arg_name}_: {wrapped_arg_type_name} = tuple(t for tensor in {arg_name} for t in te_to_torch_tensor(tensor))\n"
-#         u = f"    {arg_name}: {arg_type_name} = tuple(torch_to_te_tensor(tuple({arg_name}_[j] for j in range(i, i + 4, 1))) for i in range(0, len({arg_name}_), 4))\n"
-#     elif issubclass(arg_type, Enum):
-#         w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
-#         u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
-#     else:
-#         w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
-#         u = f"    {arg_name}: {arg_type_name} = {arg_name}_\n"
-#     return (w, u)
-
-
-# def _arg_wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
-#     wrapped_arg_type_name = _type_name(_wrap_arg_type(arg_type))
-#     return _wrap_unwrap_code(arg_name, arg_type, arg_type_name, wrapped_arg_type_name)
-
-
-# def _result_wrap_unwrap_code(result_type: type, result_type_name: str):
-#     wrapped_result_type_name = _type_name(_wrap_result_type(result_type))
-#     return _wrap_unwrap_code(
-#         "result", result_type, result_type_name, wrapped_result_type_name
-#     )
-
-
-# def _register_op(
-#     func: Callable[..., Any],
-#     abstract_impl: Callable[..., Any],
-#     save_for_backward: Callable[..., Any] | None = None,
-#     backward: Callable[..., Any] | None = None,
-# ):
-#     name = f"nvte::{func.__name__}"
-#     # Different versions of PyTorch have different ways of registering custom ops
-#     try:
-#         decl, impl, aimp, save, bwd = (  # type: ignore
-#             torch._custom_ops.custom_op,  # type: ignore
-#             torch._custom_ops.impl,  # type: ignore
-#             torch._custom_ops.impl_abstract,  # type: ignore
-#             torch._custom_ops.impl_save_for_backward,  # type: ignore
-#             torch._custom_ops.impl_backward,  # type: ignore
-#         )
-#         decl(name)(func)
-#         impl(name)(func)
-#         aimp(name)(abstract_impl)
-#         if save_for_backward:
-#             save(name)(save_for_backward)
-#         if backward:
-#             bwd(name)(backward)
-#         return
-#     except AttributeError:
-#         pass
-#     try:
-#         decl = torch._custom_op.impl.custom_op  # type: ignore
-#         declared = decl(name)(func)  # type: ignore
-#         declared.impl("cuda")(func)  # type: ignore
-#         declared.impl_abstract()(abstract_impl)  # type: ignore
-#         if save_for_backward:
-#             declared.impl_save_for_backward()(save_for_backward)  # type: ignore
-#         if backward:
-#             declared.impl_backward()(backward)  # type: ignore
-#         return
-#     except AttributeError:
-#         pass
-#     if not hasattr(_register_op, "warned"):  # type: ignore
-#         _register_op.warned = True  # type: ignore
-#         warnings.warn("Unable to find custom_op, decorator has no effect")
-
-
-# def _generate_wrapping_unwrapping_code(
-#     func: Callable[..., Any],
-#     inner_additional_setup_code: str,
-#     inner_additional_teardown_code: str,
-# ):
-#     try:
-#         arg_types = get_arg_types(func)
-#         return_type = get_return_type(func)
-#     except Exception as e:
-#         raise RuntimeError(
-#             f"Failed to get argument and return types for {func.__name__}. Make sure the function is annotated with types."
-#         ) from e
-#     arg_names = get_arg_names(func)
-#     arg_type_names = list(map(_type_name, arg_types))
-#     return_type_name = _type_name(return_type)
-#     outer_sig = f"""({ ','.join(
-#             f'{arg_name}: {arg_type_name}'
-#             for arg_name, arg_type_name in zip(arg_names, arg_type_names)
-#         ) }) -> {return_type_name}"""
-#     arg_wrapping_code = ""
-#     arg_unwrapping_code = ""
-#     for arg_name, arg_type, arg_type_name in zip(arg_names, arg_types, arg_type_names):
-#         w, u = _arg_wrap_unwrap_code(arg_name, arg_type, arg_type_name)
-#         arg_wrapping_code += w
-#         arg_unwrapping_code += u
-#     wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
-
-#     result_wrapping_code, result_unwrapping_code = _result_wrap_unwrap_code(
-#         return_type, return_type_name
-#     )
-
-#     wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
-#     wrapped_arg_types = [_wrap_arg_type(t) for t in arg_types]
-#     wrapped_arg_type_names = [_type_name(t) for t in wrapped_arg_types]
-#     wrapped_return_type = _wrap_result_type(return_type)
-#     wrapped_return_type_name = _type_name(wrapped_return_type)
-#     inner_sig = f"""({ ','.join(
-#             f'{arg_name}: {arg_type_name}'
-#             for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
-#         ) }) -> {wrapped_return_type_name}"""
-#     unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
-
-#     arg_unwrapping_code = arg_unwrapping_code.lstrip()
-#     arg_wrapping_code = arg_wrapping_code.lstrip()
-#     result_wrapping_code = result_wrapping_code.lstrip()
-#     result_unwrapping_code = result_unwrapping_code.lstrip()
-#     inner_additional_setup_code = inner_additional_setup_code.lstrip()
-#     inner_additional_teardown_code = inner_additional_teardown_code.lstrip()
-
-#     inner = f"""\
-# def {func.__name__}{inner_sig}:
-#     {arg_unwrapping_code}
-#     {inner_additional_setup_code}
-#     result: {return_type_name} = func({unwrapped_args})
-#     {inner_additional_teardown_code}
-#     {result_wrapping_code}
-#     return result_
-# """
-#     outer = f"""\
-# def {func.__name__}_wrap{outer_sig}:
-#     {arg_wrapping_code}
-#     result_: {wrapped_return_type_name} = torch.ops.nvte.{func.__name__}({wrapped_args})
-#     {result_unwrapping_code}
-#     return result
-# """
-#     return inner, outer
-
-
-# def _run_full_code(*codes: str, **namespace: Any):
-#     source = """\
-# import torch
-# from . import cpp_extensions
-# import typing
-
-# def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
-#     return (t.data, t.amax, t.scale, t.scale_inv)
-
-# def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
-#     return cpp_extensions.Tensor(*t)
-# """
-#     for code in codes:
-#         source += code + "\n"
-#     while "\n" * 3 in source:
-#         source = source.replace("\n" * 3, "\n" * 2)
-#     exec_saving_source(source, namespace)
-#     return namespace
-
-
-# T1 = TypeVar("T1")
-# T2 = TypeVar("T2")
-# Ts = TypeVarTuple("Ts")
-
-
-# def _make_wrapper(
-#     func: Callable[[Unpack[Ts]], T1],
-#     save_for_backward: Callable[[Unpack[Ts], T1], T2] | None,
-#     backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None,
-# ) -> Callable[[Unpack[Ts]], T1]:
-#     # Dynamically generate code of the wrappers
-
-#     impl_code, wrap_code = _generate_wrapping_unwrapping_code(func, "", "")
-#     func.__name__ = func.__name__ + "_aimp"
-#     aimp_code, _________ = _generate_wrapping_unwrapping_code(
-#         func,
-#         'func.__globals__["_nvte"] = impostor',
-#         'func.__globals__["_nvte"] = cpp_extensions',
-#     )
-#     func.__name__ = func.__name__[:-5]
-#     if save_for_backward is not None or backward is not None:
-#         assert save_for_backward is not None and backward is not None
-#         save_for_backward_code, _ = _generate_wrapping_unwrapping_code(
-#             save_for_backward, "", ""
-#         )
-#         backward_code, _ = _generate_wrapping_unwrapping_code(backward, "", "")
-#     else:
-#         save_for_backward_code = ""
-#         backward_code = ""
-
-#     try:
-#         # Swap real cpp_extensions (_nvte) for impostor that does nothing
-#         # This is needed so the abstract implementation is traceable by PyTorch Dynamo
-#         class NVTEImpostor:
-#             def __getattr__(self, attr_name: str) -> Any:
-#                 if attr_name == "Tensor":
-#                     return namedtuple("Tensor", ["data", "amax", "scale", "scale_inv"])  # type: ignore
-#                 else:
-#                     attr = getattr(_nvte, attr_name)
-#                     if isinstance(attr, type) and issubclass(attr, Enum):
-#                         return attr
-#                     elif callable(attr):
-#                         return lambda *args, **kwargs: None  # type: ignore
-#                     else:
-#                         return attr
-
-#         # Create op
-#         ns = _run_full_code(
-#             impl_code,
-#             wrap_code,
-#             func=func,
-#             __name__=__name__,
-#         )
-#         op_impl: Callable[..., Any] = ns[func.__name__]  # type: ignore
-#         op_wrap: Callable[[Unpack[Ts]], T1] = ns[f"{func.__name__}_wrap"]  # type: ignore
-#         ns = _run_full_code(
-#             aimp_code,
-#             func=func,
-#             __name__=__name__,
-#             impostor=NVTEImpostor(),
-#         )
-#         op_aimp: Callable[..., Any] = ns[f"{func.__name__}_aimp"]  # type: ignore
-
-#         if save_for_backward is not None:
-#             ns = _run_full_code(
-#                 save_for_backward_code,
-#                 func=save_for_backward,
-#                 __name__=__name__,
-#             )
-#             op_save_for_backward = ns[f"{save_for_backward.__name__}"]  # type: ignore
-#             ns = _run_full_code(
-#                 backward_code,
-#                 func=save_for_backward,
-#                 __name__=__name__,
-#             )
-#             op_backward = ns[f"{backward.__name__}"]  # type: ignore
-#         else:
-#             op_save_for_backward = None
-#             op_backward = None
-
-#         _register_op(op_impl, op_aimp, op_save_for_backward, op_backward)
-
-#         return op_wrap
-#     except Exception as e:
-#         raise RuntimeError(f"Failed to compile wrapper for {func.__name__}.") from e
-
-
-# @overload
-# def torch_op(
-#     func: Callable[[Unpack[Ts]], T1],
-# ) -> Callable[[Unpack[Ts]], T1]:
-#     ...
-
-
-# @overload
-# def torch_op(
-#     *,
-#     save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2],
-#     backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any],
-# ) -> Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]:
-#     ...
-
-
-# def torch_op(
-#     func: Callable[[Unpack[Ts]], T1] | None = None,
-#     *,
-#     save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2] | None = None,
-#     backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None = None,
-# ) -> (
-#     Callable[[Unpack[Ts]], T1]
-#     | Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]
-# ):
-#     if save_for_backward is not None or backward is not None:
-#         assert save_for_backward is not None and backward is not None
-#         assert func is None
-#         decorator: Callable[
-#             [Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]
-#         ] = lambda func: _make_wrapper(func, save_for_backward, backward)
-#         return decorator
-#     else:
-#         assert func is not None
-#         return _make_wrapper(func, None, None)
-
-
-torch_op = lambda x: x
+from ..utils import (
+    get_arg_names,
+    get_arg_types,
+    get_return_type,
+    exec_saving_source,
+    is_generic,
+)
+
+
+def _type_name(t: type) -> str:
+    if is_generic(t):
+        result = str(t)
+    else:
+        result = f"{t.__module__}.{t.__name__}"
+
+    return (
+        result.replace("builtins.", "")
+        .replace("transformer_engine.pytorch.sequential.nvte.", "")
+        .replace("collections.abc", "typing")
+        .replace("__init__.pyi", "cpp_extensions")
+        .replace("NoneType", "None")
+    )
+
+
+def _wrap_type(
+    type_wrap_func: Callable[[type], type],
+    arg_type_: type | GenericAlias,
+) -> Any:
+    if is_generic(arg_type_):
+        origin = arg_type_.__origin__  # type: ignore
+        while hasattr(origin, "__origin__"):  # type: ignore
+            origin = getattr(origin, "__origin__")  # type: ignore
+        args: tuple[type | GenericAlias, ...] = typing.get_args(arg_type_)
+        new_args = tuple(_wrap_type(type_wrap_func, arg) for arg in args)
+        return origin.__class_getitem__(new_args)  # type: ignore
+    else:
+        if TYPE_CHECKING:
+            assert isinstance(arg_type_, type)
+        return type_wrap_func(arg_type_)
+
+
+def _arg_type_wrap_func(arg_type: type):
+    if arg_type is _nvte.Tensor:
+        return Sequence[torch.Tensor]
+    elif issubclass(arg_type, Enum):
+        return int
+    elif issubclass(
+        arg_type, (int, float, bool, str, torch.Tensor, NoneType, FunctionCtx)
+    ):
+        return arg_type
+    else:
+        raise NotImplementedError(arg_type)
+
+
+def _wrap_arg_type(arg_type: type | GenericAlias) -> Any:
+    return _wrap_type(_arg_type_wrap_func, arg_type)
+
+
+def _result_type_wrap_func(result_type: type):
+    if result_type is _nvte.Tensor:
+        return tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]
+    else:
+        return _arg_type_wrap_func(result_type)
+
+
+def _is_generic_tuple(t: type) -> bool:
+    return is_generic(t) and (t.__origin__ is tuple)  # type: ignore
+
+
+def _wrap_result_type(result_type: type | GenericAlias) -> Any:
+    wrapped_type = _wrap_type(_result_type_wrap_func, result_type)
+
+    # Flatten tuple of tuples of tensors
+    if _is_generic_tuple(wrapped_type):
+        arg_types = typing.get_args(wrapped_type)
+        if any(_is_generic_tuple(arg_type) for arg_type in arg_types):
+            assert all(
+                _is_generic_tuple(arg_type)
+                and typing.get_args(arg_type)
+                == (torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor)
+                for arg_type in arg_types
+            )
+            tensors = len(arg_types)
+            types = (torch.Tensor,) * (4 * tensors)
+            return tuple.__class_getitem__(types)
+    return wrapped_type  # type: ignore
+
+
+def _wrap_unwrap_code(
+    arg_name: str,
+    arg_type: type,
+    arg_type_name: str,
+    wrapped_arg_type_name: str,
+):
+    if arg_type is _nvte.Tensor:
+        w = f"    {arg_name}_: {wrapped_arg_type_name} = te_to_torch_tensor({arg_name})\n"
+        u = f"    {arg_name}: {arg_type_name} = torch_to_te_tensor({arg_name}_)\n"
+    elif _is_generic_tuple(arg_type) and all(
+        sub_type is _nvte.Tensor for sub_type in typing.get_args(arg_type)
+    ):
+        w = f"    {arg_name}_: {wrapped_arg_type_name} = tuple(t for tensor in {arg_name} for t in te_to_torch_tensor(tensor))\n"
+        u = f"    {arg_name}: {arg_type_name} = tuple(torch_to_te_tensor(tuple({arg_name}_[j] for j in range(i, i + 4, 1))) for i in range(0, len({arg_name}_), 4))\n"
+    elif issubclass(arg_type, Enum):
+        w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}.value\n"
+        u = f"    {arg_name}: {arg_type_name} = {arg_type_name}({arg_name}_)\n"
+    else:
+        w = f"    {arg_name}_: {wrapped_arg_type_name} = {arg_name}\n"
+        u = f"    {arg_name}: {arg_type_name} = {arg_name}_\n"
+    return (w, u)
+
+
+def _arg_wrap_unwrap_code(arg_name: str, arg_type: type, arg_type_name: str):
+    wrapped_arg_type_name = _type_name(_wrap_arg_type(arg_type))
+    return _wrap_unwrap_code(arg_name, arg_type, arg_type_name, wrapped_arg_type_name)
+
+
+def _result_wrap_unwrap_code(result_type: type, result_type_name: str):
+    wrapped_result_type_name = _type_name(_wrap_result_type(result_type))
+    return _wrap_unwrap_code(
+        "result", result_type, result_type_name, wrapped_result_type_name
+    )
+
+
+def _register_op(
+    func: Callable[..., Any],
+    abstract_impl: Callable[..., Any],
+    save_for_backward: Callable[..., Any] | None = None,
+    backward: Callable[..., Any] | None = None,
+):
+    name = f"nvte::{func.__name__}"
+    # Different versions of PyTorch have different ways of registering custom ops
+    try:
+        decl, impl, aimp, save, bwd = (  # type: ignore
+            torch._custom_ops.custom_op,  # type: ignore
+            torch._custom_ops.impl,  # type: ignore
+            torch._custom_ops.impl_abstract,  # type: ignore
+            torch._custom_ops.impl_save_for_backward,  # type: ignore
+            torch._custom_ops.impl_backward,  # type: ignore
+        )
+        decl(name)(func)
+        impl(name)(func)
+        aimp(name)(abstract_impl)
+        if save_for_backward:
+            save(name)(save_for_backward)
+        if backward:
+            bwd(name)(backward)
+        return
+    except AttributeError:
+        pass
+    try:
+        decl = torch._custom_op.impl.custom_op  # type: ignore
+        declared = decl(name)(func)  # type: ignore
+        declared.impl("cuda")(func)  # type: ignore
+        declared.impl_abstract()(abstract_impl)  # type: ignore
+        if save_for_backward:
+            declared.impl_save_for_backward()(save_for_backward)  # type: ignore
+        if backward:
+            declared.impl_backward()(backward)  # type: ignore
+        return
+    except AttributeError:
+        pass
+    if not hasattr(_register_op, "warned"):  # type: ignore
+        _register_op.warned = True  # type: ignore
+        warnings.warn("Unable to find custom_op, decorator has no effect")
+
+
+def _generate_wrapping_unwrapping_code(
+    func: Callable[..., Any],
+    inner_additional_setup_code: str,
+    inner_additional_teardown_code: str,
+):
+    try:
+        arg_types = get_arg_types(func)
+        return_type = get_return_type(func)
+    except Exception as e:
+        raise RuntimeError(
+            f"Failed to get argument and return types for {func.__name__}. Make sure the function is annotated with types."
+        ) from e
+    arg_names = get_arg_names(func)
+    arg_type_names = list(map(_type_name, arg_types))
+    return_type_name = _type_name(return_type)
+    outer_sig = f"""({ ','.join(
+            f'{arg_name}: {arg_type_name}'
+            for arg_name, arg_type_name in zip(arg_names, arg_type_names)
+        ) }) -> {return_type_name}"""
+    arg_wrapping_code = ""
+    arg_unwrapping_code = ""
+    for arg_name, arg_type, arg_type_name in zip(arg_names, arg_types, arg_type_names):
+        w, u = _arg_wrap_unwrap_code(arg_name, arg_type, arg_type_name)
+        arg_wrapping_code += w
+        arg_unwrapping_code += u
+    wrapped_args = ",".join(f"{arg_name}_" for arg_name in arg_names)
+
+    result_wrapping_code, result_unwrapping_code = _result_wrap_unwrap_code(
+        return_type, return_type_name
+    )
+
+    wrapped_arg_names = [f"{arg_name}_" for arg_name in arg_names]
+    wrapped_arg_types = [_wrap_arg_type(t) for t in arg_types]
+    wrapped_arg_type_names = [_type_name(t) for t in wrapped_arg_types]
+    wrapped_return_type = _wrap_result_type(return_type)
+    wrapped_return_type_name = _type_name(wrapped_return_type)
+    inner_sig = f"""({ ','.join(
+            f'{arg_name}: {arg_type_name}'
+            for arg_name, arg_type_name in zip(wrapped_arg_names, wrapped_arg_type_names)
+        ) }) -> {wrapped_return_type_name}"""
+    unwrapped_args = ",".join(f"{arg_name}" for arg_name in arg_names)
+
+    arg_unwrapping_code = arg_unwrapping_code.lstrip()
+    arg_wrapping_code = arg_wrapping_code.lstrip()
+    result_wrapping_code = result_wrapping_code.lstrip()
+    result_unwrapping_code = result_unwrapping_code.lstrip()
+    inner_additional_setup_code = inner_additional_setup_code.lstrip()
+    inner_additional_teardown_code = inner_additional_teardown_code.lstrip()
+
+    inner = f"""\
+def {func.__name__}{inner_sig}:
+    {arg_unwrapping_code}
+    {inner_additional_setup_code}
+    result: {return_type_name} = func({unwrapped_args})
+    {inner_additional_teardown_code}
+    {result_wrapping_code}
+    return result_
+"""
+    outer = f"""\
+def {func.__name__}_wrap{outer_sig}:
+    {arg_wrapping_code}
+    result_: {wrapped_return_type_name} = torch.ops.nvte.{func.__name__}({wrapped_args})
+    {result_unwrapping_code}
+    return result
+"""
+    return inner, outer
+
+
+def _run_full_code(*codes: str, **namespace: Any):
+    source = """\
+import torch
+from . import cpp_extensions
+import typing
+
+def te_to_torch_tensor(t: cpp_extensions.Tensor) -> tuple[torch.Tensor, torch.Tensor, torch.Tensor, torch.Tensor]:
+    return (t.data, t.amax, t.scale, t.scale_inv)
+
+def torch_to_te_tensor(t: typing.Sequence[torch.Tensor]) -> cpp_extensions.Tensor:
+    return cpp_extensions.Tensor(*t)
+"""
+    for code in codes:
+        source += code + "\n"
+    while "\n" * 3 in source:
+        source = source.replace("\n" * 3, "\n" * 2)
+    exec_saving_source(source, namespace)
+    return namespace
+
+
+T1 = TypeVar("T1")
+T2 = TypeVar("T2")
+Ts = TypeVarTuple("Ts")
+
+
+def _make_wrapper(
+    func: Callable[[Unpack[Ts]], T1],
+    save_for_backward: Callable[[Unpack[Ts], T1], T2] | None,
+    backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None,
+) -> Callable[[Unpack[Ts]], T1]:
+    # Dynamically generate code of the wrappers
+
+    impl_code, wrap_code = _generate_wrapping_unwrapping_code(func, "", "")
+    func.__name__ = func.__name__ + "_aimp"
+    aimp_code, _________ = _generate_wrapping_unwrapping_code(
+        func,
+        'func.__globals__["_nvte"] = impostor',
+        'func.__globals__["_nvte"] = cpp_extensions',
+    )
+    func.__name__ = func.__name__[:-5]
+    if save_for_backward is not None or backward is not None:
+        assert save_for_backward is not None and backward is not None
+        save_for_backward_code, _ = _generate_wrapping_unwrapping_code(
+            save_for_backward, "", ""
+        )
+        backward_code, _ = _generate_wrapping_unwrapping_code(backward, "", "")
+    else:
+        save_for_backward_code = ""
+        backward_code = ""
+
+    try:
+        # Swap real cpp_extensions (_nvte) for impostor that does nothing
+        # This is needed so the abstract implementation is traceable by PyTorch Dynamo
+        class NVTEImpostor:
+            def __getattr__(self, attr_name: str) -> Any:
+                if attr_name == "Tensor":
+                    return namedtuple("Tensor", ["data", "amax", "scale", "scale_inv"])  # type: ignore
+                else:
+                    attr = getattr(_nvte, attr_name)
+                    if isinstance(attr, type) and issubclass(attr, Enum):
+                        return attr
+                    elif callable(attr):
+                        return lambda *args, **kwargs: None  # type: ignore
+                    else:
+                        return attr
+
+        # Create op
+        ns = _run_full_code(
+            impl_code,
+            wrap_code,
+            func=func,
+            __name__=__name__,
+        )
+        op_impl: Callable[..., Any] = ns[func.__name__]  # type: ignore
+        op_wrap: Callable[[Unpack[Ts]], T1] = ns[f"{func.__name__}_wrap"]  # type: ignore
+        ns = _run_full_code(
+            aimp_code,
+            func=func,
+            __name__=__name__,
+            impostor=NVTEImpostor(),
+        )
+        op_aimp: Callable[..., Any] = ns[f"{func.__name__}_aimp"]  # type: ignore
+
+        if save_for_backward is not None:
+            ns = _run_full_code(
+                save_for_backward_code,
+                func=save_for_backward,
+                __name__=__name__,
+            )
+            op_save_for_backward = ns[f"{save_for_backward.__name__}"]  # type: ignore
+            ns = _run_full_code(
+                backward_code,
+                func=save_for_backward,
+                __name__=__name__,
+            )
+            op_backward = ns[f"{backward.__name__}"]  # type: ignore
+        else:
+            op_save_for_backward = None
+            op_backward = None
+
+        _register_op(op_impl, op_aimp, op_save_for_backward, op_backward)
+
+        return op_wrap
+    except Exception as e:
+        raise RuntimeError(f"Failed to compile wrapper for {func.__name__}.") from e
+
+
+@overload
+def torch_op(
+    func: Callable[[Unpack[Ts]], T1],
+) -> Callable[[Unpack[Ts]], T1]:
+    ...
+
+
+@overload
+def torch_op(
+    *,
+    save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2],
+    backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any],
+) -> Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]:
+    ...
+
+
+def torch_op(
+    func: Callable[[Unpack[Ts]], T1] | None = None,
+    *,
+    save_for_backward: Callable[[tuple[Unpack[Ts]], T1], T2] | None = None,
+    backward: Callable[[FunctionCtx, T2, Unpack[tuple[Any, ...]]], Any] | None = None,
+) -> (
+    Callable[[Unpack[Ts]], T1]
+    | Callable[[Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]]
+):
+    if save_for_backward is not None or backward is not None:
+        assert save_for_backward is not None and backward is not None
+        assert func is None
+        decorator: Callable[
+            [Callable[[Unpack[Ts]], T1]], Callable[[Unpack[Ts]], T1]
+        ] = lambda func: _make_wrapper(func, save_for_backward, backward)
+        return decorator
+    else:
+        assert func is not None
+        return _make_wrapper(func, None, None)
 
 
 def make_nvte_tensor(t: torch.Tensor) -> _nvte.Tensor: