From 713d4213ef9ccc514d32357daf8c76397f4ba947 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 13:20:58 -0400
Subject: [PATCH 01/39] First stab at html output for codegen diffs

---
 tools/diff_codegen_nvfuser_tests.py | 415 ++++++++++++++++++++--------
 tools/templates/codediff.html       | 129 +++++++++
 2 files changed, 434 insertions(+), 110 deletions(-)
 create mode 100644 tools/templates/codediff.html

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 57a82611868..dcaa7b00fe1 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -11,145 +11,340 @@
             codegen_comparison/{$commit1,$commit2}/binary_tests
 """
 
+from collections import OrderedDict
+from dataclasses import dataclass, field
+import difflib
 import os
 import re
 import subprocess
 import sys
+from datetime import datetime
+from typing import Optional, Set
 
-# precompile an RE we'll apply over and over
-
-
-def get_test_map(directory: str) -> dict[str, list[str]]:
-    """
-    Get a map from test name to list of cuda filenames
-    """
-    # first find the stdout log file
-    logfile = None
-    for fname in os.listdir(directory):
-        if fname.find("stdout") != -1:
-            if logfile is not None:
-                raise RuntimeError(
-                    f"Input directory {directory} contains multiple "
-                    'possible logs (filenames containing "stdout")'
-                )
-            logfile = os.path.join(directory, fname)
-    if logfile is None:
-        raise RuntimeError(
-            f"Input directory {directory} contains no log (filenames "
-            'containing "stdout")'
-        )
 
-    # regex for stripping ANSI color codes
-    ansi_re = re.compile(r"(\x9B|\x1B\[)[0-?]*[ -\/]*[@-~]")
-    kernel_map = {}
-    current_test = None
-    current_files = []
-    for line in open(logfile, "r").readlines():
-        line = ansi_re.sub("", line.strip())
-        if line[:13] == "[ RUN      ] ":
-            current_test = line[13:]
-        elif line[:13] == "[       OK ] ":
-            # Finalize test
-            assert current_test is not None
-            kernel_map[current_test] = current_files
-            current_test = None
-            current_files = []
-        elif line[:10] == "PRINTING: ":
-            if line[-3:] == ".cu":
-                # This avoids comparing the .ptx files that are created then
-                # removed by the MemoryTest.LoadCache tests
-                current_files.append(line[10:])
-
-    return kernel_map
-
-
-def diff_nvfuser_tests_dirs(dir1: str, dir2: str):
-    """
-    Given directories for two
-    """
-    # check that commands are equal
-    command1 = open(os.path.join(dir1, "command"), "r").read()
-    command2 = open(os.path.join(dir2, "command"), "r").read()
-
-    if command1 != command2:
-        print("WARNING: commands differ between runs", file=sys.stderr)
-        print(f"  {dir1}: {command1}", file=sys.stderr)
-        print(f"  {dir2}: {command2}", file=sys.stderr)
-
-    # check that command includes "nvfuser_tests"
-    if command1.find("nvfuser_tests") == -1:
-        print(
-            "ERROR: Command does not appear to be nvfuser_tests. Aborting.",
-            file=sys.stderr,
+@dataclass
+class GitBranch:
+    name: str
+    # TODO: get the name of tracking branch
+    # tracking_branch
+
+    def __post_init__(self):
+        # TODO: find tracking branch for this branch
+        pass
+
+
+@dataclass
+class GitRev:
+    abbrev: str
+    full_hash: str = None
+    in_branches: list[GitBranch] = field(default_factory=list)
+    author_name: str = None
+    author_email: str = None
+    author_time: datetime.time = None
+    commit_time: datetime.time = None
+
+    def __post_init__(self):
+        self.full_hash = (
+            subprocess.run(["git", "rev-parse", self.abbrev], capture_output=True)
+            .stdout.strip()
+            .decode("utf-8")
         )
-        sys.exit(1)
-
-    # check that exit codes are equal
-    exitcode1 = open(os.path.join(dir1, "exitcode"), "r").read()
-    exitcode2 = open(os.path.join(dir2, "exitcode"), "r").read()
-    if exitcode1 != exitcode2:
-        print(
-            f"WARNING: Exit codes {exitcode1} and {exitcode2} do not match.",
-            file=sys.stderr,
+        for line in (
+            subprocess.run(
+                ["git", "branch", "--quiet", "--color=never", self.full_hash],
+                capture_output=True,
+            )
+            .stdout.strip()
+            .splitlines()
+        ):
+            # Possible output:
+            #
+            #     main
+            #     * scalar_seg_edges
+            #
+            # In this case, we have checked out the HEAD of the
+            # scalar_seg_edges branch. Here we just strip the *.
+            if line[0] == "*":
+                line = line[2:]
+                in_branches.append(line)
+
+        date_fmt = "%Y/%m/%d %H:%M:%S %z"
+        git_show = (
+            lambda fmt: subprocess.run(
+                [
+                    "git",
+                    "show",
+                    "--no-patch",
+                    f"--format={fmt}",
+                    f"--date=format:{date_fmt}",
+                    self.full_hash,
+                ],
+                capture_output=True,
+            )
+            .stdout.strip()
+            .decode("utf-8")
         )
+        self.author_name = git_show("%an")
+        self.author_email = git_show("%ae")
+
+        # Get date and time for this commit in datetime format
+        get_datetime = lambda time_str: datetime.strptime(time_str, date_fmt)
+        self.author_time = get_datetime(git_show("%ad"))
+        self.commit_time = get_datetime(git_show("%cd"))
+
+
+@dataclass
+class TestRun:
+    directory: str
+    git_rev: GitRev = None
+    run_name: str = None
+    command: str = None
+    exit_code: int = None
+    # map from name of test to list of kernel base filenames
+    kernel_map: dict[str, list[str]] = field(default_factory=dict)
+    # collecting the preamble lets us skip it when diffing, and lets us compare
+    # only the preamble between runs
+    preamble: str = None
+    # lets us seek past preamble
+    preamble_size_bytes: int = None
 
-    # get a map from test name to list of .cu files for each directory
-    map1 = get_test_map(dir1)
-    map2 = get_test_map(dir2)
+    def __post_init__(self):
+        # get description of this git rev
+        abbrev = os.path.basename(os.path.dirname(os.path.abspath(self.directory)))
+        self.git_rev = GitRev(abbrev)
 
-    differing_tests = set()
-    for testname, kernels1 in map1.items():
-        if testname not in map2:
+        self.command = open(os.path.join(self.directory, "command"), "r").read()
+
+        # check that command includes "nvfuser_tests"
+        if self.command.find("nvfuser_tests") == -1:
             print(
-                f"WARNING: Test {testname} present in {dir1} but not in {dir2}",
+                "ERROR: Command does not appear to be nvfuser_tests. Aborting.",
                 file=sys.stderr,
             )
-            continue
+            sys.exit(1)
 
-        kernels2 = map2[testname]
+        self.exit_code = int(open(os.path.join(self.directory, "exitcode"), "r").read())
 
-        if len(kernels1) != len(kernels2):
-            print(
-                f"WARNING: Test {testname} has different number of kernels "
-                f"in {dir1} than in {dir2}. Not showing diffs.",
-                file=sys.stderr,
+        self.compute_kernel_map()
+
+        self.find_preamble()
+
+        print("End of TestRun post_init")
+
+    def compute_kernel_map(self):
+        """
+        Compute a map from test name to list of cuda filenames
+        """
+        # first find the stdout log file
+        logfile = None
+        for fname in os.listdir(self.directory):
+            if fname.find("stdout") != -1:
+                if logfile is not None:
+                    raise RuntimeError(
+                        f"Input directory {self.directory} contains multiple "
+                        'possible logs (filenames containing "stdout")'
+                    )
+                logfile = os.path.join(self.directory, fname)
+        if logfile is None:
+            raise RuntimeError(
+                f"Input directory {self.directory} contains no log (filenames "
+                'containing "stdout")'
             )
-            differing_tests.add(testname)
-
-        for k1, k2 in zip(kernels1, kernels2):
-            f1 = os.path.join(dir1, "cuda", k1)
-            f2 = os.path.join(dir2, "cuda", k2)
-            # -U50 gives us plenty of context
-            # -I "void kernel" ignores mismatches in kernel signature line
-            #    The intention is to avoid false positives from differently
-            #    numbered kernels, but this can also hide true differences if
-            #    the kernel signature changes.
-            args = ["diff", "-U50", "-I", "void kernel", f1, f2]
-            ret = subprocess.run(args, capture_output=True)
-            if ret.returncode != 0:
-                print(testname, ret.args)
-                print(ret.stdout.decode("utf-8"))
-                differing_tests.add(testname)
-
-    for testname, kernels2 in map2.items():
-        if testname not in map1:
+
+        # regex for stripping ANSI color codes
+        ansi_re = re.compile(r"(\x9B|\x1B\[)[0-?]*[ -\/]*[@-~]")
+        current_test = None
+        current_files = []
+        for line in open(logfile, "r").readlines():
+            line = ansi_re.sub("", line.strip())
+            if line[:13] == "[ RUN      ] ":
+                current_test = line[13:]
+            elif line[:13] == "[       OK ] ":
+                # Finalize test
+                assert current_test is not None
+                self.kernel_map[current_test] = current_files
+                current_test = None
+                current_files = []
+            elif line[:10] == "PRINTING: ":
+                if line[-3:] == ".cu":
+                    # This avoids comparing the .ptx files that are created then
+                    # removed by the MemoryTest.LoadCache tests
+                    current_files.append(line[10:])
+
+    def find_preamble(self):
+        """Look for common preamble in collected kernels"""
+        preamble_lines = []
+        first = True
+        for cufile in os.listdir(os.path.join(self.directory, "cuda")):
+            cufile_full = os.path.join(self.directory, "cuda", cufile)
+            with open(cufile_full, "r") as f:
+                for i, line in enumerate(f.readlines()):
+                    line = line.rstrip()
+                    # we set nvfuser_index_t in the preamble. We ignore that change for the purposes of this diff
+                    if line[:8] == "typedef " and line[-17:] == " nvfuser_index_t;":
+                        line = "typedef int nvfuser_index_t; // NOTE: hardcoded to int for easier diffing"
+                    if first:
+                        preamble_lines.append(line)
+                    elif i >= len(preamble_lines) or preamble_lines[i] != line:
+                        break
+                    self.preamble_size_bytes = f.tell()
+                preamble_lines = preamble_lines[:i]
+            if self.preamble_size_bytes == 0:
+                # early return if preamble is determined to be empty
+                break
+            first = False
+        self.preamble = "\n".join(preamble_lines)
+
+    def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
+        """Get a string of the kernel, optionally stripping the preamble"""
+        basename = self.kernel_map[test_name][kernel_number]
+        fullname = os.path.join(self.directory, "cuda", basename)
+        with open(fullname, "r") as f:
+            if strip_preamble:
+                f.seek(self.preamble_size_bytes)
+            return f.read().strip()
+
+
+@dataclass
+class KernelDiff:
+    testname: str
+    kernel_num: int
+    code1: str
+    code2: str
+    diff: str
+
+
+# Lets us maintain test order
+class LastUpdatedOrderedDict(OrderedDict):
+    """Just an ordered dict with insertion at the end"""
+
+    def __setitem__(self, key, value):
+        super().__setitem__(key, value)
+        self.move_to_end(key)
+
+
+@dataclass
+class TestDifferences:
+    run1: TestRun
+    run2: TestRun
+    differing_tests: LastUpdatedOrderedDict[str, list[KernelDiff]] = field(
+        default_factory=list
+    )
+    new_tests: list[str] = field(default_factory=list)
+    removed_tests: list[str] = field(default_factory=list)
+
+    def __post_init__(self):
+        if self.run1.command != self.run2.command:
+            print("WARNING: commands differ between runs", file=sys.stderr)
+            print(f"  {self.run1.directory}: {self.run1.command}", file=sys.stderr)
+            print(f"  {self.run2.directory}: {self.run2.command}", file=sys.stderr)
+
+        if self.run1.exit_code != self.run1.exit_code:
             print(
-                f"WARNING: Test {testname} present in {dir2} but not in {dir1}",
+                f"WARNING: Exit codes {self.run1.exit_code} and {self.run2.exit_code} do not match.",
                 file=sys.stderr,
             )
 
-    return differing_tests
+        if self.run1.preamble != self.run2.preamble:
+            print("Preambles differ between runs indicating changes to runtime files")
+
+        differing_tests_set = set()
+        for testname, kernels1 in self.run1.kernel_map.items():
+            if testname not in self.run2.kernel_map:
+                removed_tests.append(testname)
+                continue
+
+            kernels2 = self.run2.kernel_map[testname]
+
+            if len(kernels1) != len(kernels2):
+                print(
+                    f"WARNING: Test {testname} has different number of kernels "
+                    f"in {dir1} than in {dir2}. Not showing diffs.",
+                    file=sys.stderr,
+                )
+                if testname not in differing_tests_set:
+                    differing_tests.append(testname)
+                    differing_tests_set.add(testname)
+
+            for kernel_num in range(len(kernels1)):
+                code1 = self.run1.get_kernel(testname, kernel_num, strip_preamble=True)
+                code2 = self.run2.get_kernel(testname, kernel_num, strip_preamble=True)
+
+                lines1 = code1.splitlines()
+                lines2 = code2.splitlines()
+
+                diff_str = "\n".join(difflib.unified_diff(
+                    lines1,
+                    lines2,
+                    fromfile=self.run1.git_rev.abbrev,
+                    tofile=self.run2.git_rev.abbrev,
+                    n=5,
+                ))
+                if len(diff_str) > 0:
+                    print(testname, kernel_num, diff_str)
+                    diff_obj = KernelDiff(testname, kernel_num, code1, code2, diff_str)
+                    if testname in self.differing_tests:
+                        self.differing_tests[testname].append(diff_obj)
+                    else:
+                        self.differing_tests[testname] = [diff_obj]
+
+        for testname, kernels2 in self.run2.kernel_map.items():
+            if testname not in self.run1.kernel_map:
+                new_tests.append(testname)
+
+    def __len__(self):
+        return len(self.differing_tests)
+
+    def to_dict(self):
+        """Convert to hierarchical dict format for use with jinja"""
+        d = {}
+        d["git1"] = self.run1.git_rev.to_dict()
+        d["git2"] = self.run2.git_rev.to_dict()
+
+    def generate_html(self, output_file: str) -> str:
+        """Return a self-contained HTML string summarizing the codegen comparison"""
+        import jinja2
+        import pygments
+        from pygments.lexers import CppLexer, DiffLexer
+        from pygments.formatters import HtmlFormatter
+
+        env = jinja2.Environment(loader=jinja2.FileSystemLoader(searchpath="."))
+        template = env.get_template(
+            os.path.join(os.path.dirname(__file__), "templates", "codediff.html")
+        )
+        context = self.to_dict()
+        context["pygments_style_defs"] = HtmlFormatter().get_style_defs(".highlight")
+
+        return template.render(template_vars)
 
 
 if __name__ == "__main__":
     import argparse
 
-    parser = argparse.ArgumentParser()
+    parser = argparse.ArgumentParser(
+        epilog="This command must be run from within a git checkout of the NVFuser repo."
+    )
     parser.add_argument("dir1", help="Directory containing stdout-*.log and cuda/")
     parser.add_argument("dir2", help="Directory containing stdout-*.log and cuda/")
+    parser.add_argument("--html", action="store_true", help="Write HTML file?")
+    parser.add_argument(
+        "-o", "--output-file", help="Location of HTML file output if -h is given."
+    )
     args = parser.parse_args()
 
-    differing_tests = diff_nvfuser_tests_dirs(args.dir1, args.dir2)
+    test_diffs = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
+
+    if args.html:
+        output_file = args.output_file
+        if output_file is None:
+            # determine default output file
+            get_abbrev = lambda d: os.path.basename(os.path.dirname(os.path.abspath(d)))
+            abbrev1 = get_abbrev(args.dir1)
+            abbrev2 = get_abbrev(args.dir2)
+            run_name = os.path.basename(os.path.abspath(args.dir1))
+            output_file = f"codediff_{abbrev1}_{abbrev2}_{run_name}.html"
+        with open(output_file, "w") as f:
+            f.write(differing_tests.generate_html())
 
     if len(differing_tests) == 0:
         print("No differences found in overlapping tests!")
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
new file mode 100644
index 00000000000..437ba48757b
--- /dev/null
+++ b/tools/templates/codediff.html
@@ -0,0 +1,129 @@
+<html>
+    <head>
+        <title>{{ git1.abbrev }} vs {{ git2.abbrev }} - NVFuser codegen diff</title>
+    <style>
+{{ pygments_style_defs }}
+    </style>
+    <script language="javascript">
+        function toggleDiv(divId) {
+            var x = document.getElementById(divId);
+            if (x.style.display === "none") {
+                x.style.display = "block";
+            } else {
+                x.style.display = "none";
+            }
+        }
+        function toggleOldCode(testnum, kernelnum) {
+            var old_div = document.getElementById(`oldcode_${testnum}_${kernelnum}`);
+            var new_div = document.getElementById(`newcode_${testnum}_${kernelnum}`);
+            var diff_div = document.getElementById(`diff_${testnum}_${kernelnum}`);
+            new_div.style.display = "none";
+            diff_div.style.display = "none";
+            if (old_div.style.display === "none") {
+                old_div.style.display = "block";
+            } else {
+                old_div.style.display = "none";
+            }
+        }
+        function toggleNewCode(testnum, kernelnum) {
+            var old_div = document.getElementById(`oldcode_${testnum}_${kernelnum}`);
+            var new_div = document.getElementById(`newcode_${testnum}_${kernelnum}`);
+            var diff_div = document.getElementById(`diff_${testnum}_${kernelnum}`);
+            old_div.style.display = "none";
+            diff_div.style.display = "none";
+            if (new_div.style.display === "none") {
+                new_div.style.display = "block";
+            } else {
+                new_div.style.display = "none";
+            }
+        }
+        function toggleDiff(testnum, kernelnum) {
+            var old_div = document.getElementById(`oldcode_${testnum}_${kernelnum}`);
+            var new_div = document.getElementById(`newcode_${testnum}_${kernelnum}`);
+            var diff_div = document.getElementById(`diff_${testnum}_${kernelnum}`);
+            old_div.style.display = "none";
+            new_div.style.display = "none";
+            if (diff_div.style.display === "none") {
+                diff_div.style.display = "block";
+            } else {
+                diff_div.style.display = "none";
+            }
+        }
+    </script>
+    </head>
+    <body>
+        <h1>{{ git1.abbrev }} vs {{ git2.abbrev }} - NVFuser codegen diff</h1>
+
+        <h2>Git information</h2>
+
+        <h3>Old commit: {{ git1.abbrev }}</h3>
+        <span>{{ git1.title }}</span><br>
+        <span>{{ git1.author_name }}</span> &lt;<span>{{ git1.author_email }}&gt;</span><br>
+        <span>{{ git1.author_datetime }}</span><br>
+        {% if git1.pull_request is defined %}
+        Pull request: {{ git1.pull_request.title }}<br>
+        <a href="https://github.com/NVIDIA/Fuser/pull/{{git1.pull_request.number}}">View PR on github.com</a><br>
+        <a href="https://github.com/NVIDIA/Fuser/pull/{{git1.pull_request.number}}/commits/{{git1.full_hash}}">Show commit on github.com</a><br>
+        {% else %}
+        <a href="https://github.com/NVIDIA/Fuser/commit/{{git1.full_hash}}">Show commit on github.com</a><br>
+        {% endif %}
+        <a href="https://github.com/NVIDIA/Fuser/tree/{{git1.full_hash}}">Browse code at this commit on github.com</a><br>
+
+        <h3>New commit: {{ git2.abbrev }}</h3>
+        <span>{{ git2.title }}</span><br>
+        <span>{{ git2.author_name }}</span> &lt;<span>{{ git2.author_email }}&gt;</span><br>
+        <span>{{ git2.author_datetime }}</span><br>
+        {% if git2.pull_request is defined %}
+        Pull request: {{ git2.pull_request.title }}<br>
+        <a href="https://github.com/NVIDIA/Fuser/pull/{{git1.pull_request.number}}">View PR on github.com</a><br>
+        <a href="https://github.com/NVIDIA/Fuser/pull/{{git2.pull_request.number}}/commits/{{git2.full_hash}}">Show commit on github.com</a><br>
+        {% else %}
+        <a href="https://github.com/NVIDIA/Fuser/commit/{{git2.full_hash}}">Show commit on github.com</a><br>
+        {% endif %}
+        <a href="https://github.com/NVIDIA/Fuser/tree/{{git2.full_hash}}">Browse code at this commit on github.com</a><br>
+
+
+        <h2>Code comparison</h2>
+
+        {% if new_tests|length > 0 %}
+        <h3>New Tests</h3>
+          {% for test in new_tests %}
+          <span class="test_name">{{loop.index}}: {{test.name}} <button style="box-shadow:none" ONCLICK="toggleDiv('newtestcode_{{loop.index}}')">CODE</button></span><br>
+            <div id="newtestcode_{{loop.index}}" style="display:none">
+                {{ test.highlighted_code }}
+            </div>
+          {% endfor %}
+        {% endif %}
+
+        {% if removed_tests|length > 0 %}
+        <h3>Removed Tests</h3>
+          {% for test in removed_tests %}
+            <span class="test_name">{{loop.index}}: {{test.name}}</span>
+          {% endfor %}
+        {% endif %}
+        
+        <h3>Test Diffs</h3>
+      {% for test in test_diffs %}
+      <span class="test_name">{{loop.index}}: {{test.name}}</span>
+      {% if test.kernels|length > 1 %}
+      <br>
+      {% endif %}
+          {% set outer_index = loop.index %}
+          {% for kernel in test.kernels %}
+          &nbsp;&nbsp;&nbsp;&nbsp;Kernel {{ loop.index }}
+            <button style="box-shadow:none" ONCLICK="toggleOldCode({{outer_index}}, {{loop.index}})">{{git1.abbrev}}</button></span>
+            <button style="box-shadow:none" ONCLICK="toggleDiff({{outer_index}}, {{loop.index}})">DIFF</button></span>
+            <button style="box-shadow:none" ONCLICK="toggleNewCode({{outer_index}}, {{loop.index}})">{{git2.abbrev}}</button></span><br>
+            <div id="oldcode_{{outer_index}}_{{loop.index}}" style="display:none">
+                {{ kernel.highlighted_code1 }}
+            </div>
+            <div id="newcode_{{outer_index}}_{{loop.index}}" style="display:none">
+                {{ kernel.highlighted_code2 }}
+            </div>
+            <div id="diff_{{outer_index}}_{{loop.index}}" style="display:none">
+                {{ kernel.highlighted_diff }}
+            </div>
+        {% endfor %}
+      {% endfor %}
+    </body>
+</html>

From fc7746d4547db9894984af07e21af12b24fad4ed Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 13:23:26 -0400
Subject: [PATCH 02/39] Add small test script REMOVE LATER

---
 tools/templates/test_jinja_pygmentize.py | 234 +++++++++++++++++++++++
 1 file changed, 234 insertions(+)
 create mode 100644 tools/templates/test_jinja_pygmentize.py

diff --git a/tools/templates/test_jinja_pygmentize.py b/tools/templates/test_jinja_pygmentize.py
new file mode 100644
index 00000000000..ea41086b50c
--- /dev/null
+++ b/tools/templates/test_jinja_pygmentize.py
@@ -0,0 +1,234 @@
+import jinja2
+import pygments
+from pygments.lexers import CppLexer, DiffLexer
+from pygments.formatters import HtmlFormatter
+
+env = jinja2.Environment(loader=jinja2.FileSystemLoader(searchpath="."))
+template = env.get_template("codediff.html")
+
+# some lorem ipsum code and diff
+some_code = """
+__global__ void kernel1(Tensor<float, 4, 4> T0, Tensor<float, 4, 4> T1) {
+  alignas(16) extern __shared__ char array[];
+  const unsigned smem_offset = 0;
+  NVFUSER_DEFINE_MAGIC_ZERO;
+  nvfuser_index_t i0;
+  i0 = ceilDiv(T0.logical_size[3], 32);
+  nvfuser_index_t i1;
+  i1 = T0.logical_size[2] * i0;
+  nvfuser_index_t i2;
+  i2 = ((nvfuser_index_t)blockIdx.x) % i1;
+  nvfuser_index_t i3;
+  i3 = i2 / i0;
+  nvfuser_index_t i4;
+  i4 = i2 % i0;
+  nvfuser_index_t i5;
+  i5 = ((nvfuser_index_t)blockIdx.x) / i1;
+  nvfuser_index_t i6;
+  i6 = ((nvfuser_index_t)threadIdx.x) / 8;
+  nvfuser_index_t i7;
+  i7 = ((nvfuser_index_t)threadIdx.x) % 8;
+  nvfuser_index_t i8;
+  i8 = 32 * i4;
+  nvfuser_index_t i9;
+  i9 = 4 * i7;
+  nvfuser_index_t i10;
+  i10 = (((i9 + ((T0.logical_size[3] * T0.logical_size[2]) * i6)) + (((32 * T0.logical_size[3]) * T0.logical_size[2]) * i5)) + (T0.logical_size[3] * i3)) + i8;
+  nvfuser_index_t i11;
+  i11 = (16 * T0.logical_size[3]) * T0.logical_size[2];
+  nvfuser_index_t i12;
+  i12 = 4 * ((nvfuser_index_t)threadIdx.x);
+  nvfuser_index_t i13;
+  i13 = ((nvfuser_index_t)threadIdx.x) / 32;
+  nvfuser_index_t i14;
+  i14 = ((nvfuser_index_t)threadIdx.x) % 32;
+  nvfuser_index_t i15;
+  i15 = (32 * i14) + i13;
+  nvfuser_index_t i16;
+  i16 = T0.logical_size[1] * T0.logical_size[3];
+  nvfuser_index_t i17;
+  i17 = 32 * i5;
+  nvfuser_index_t i18;
+  i18 = i14 + i17;
+  nvfuser_index_t i19;
+  i19 = ((((T0.logical_size[1] * i13) + (i16 * i3)) + ((32 * T0.logical_size[1]) * i4)) + ((i16 * T0.logical_size[2]) * (i18 / T0.logical_size[1]))) + (i18 % T0.logical_size[1]);
+  nvfuser_index_t i20;
+  i20 = 4 * T0.logical_size[1];
+  nvfuser_index_t i21;
+  i21 = T0.logical_size[0] * T0.logical_size[1];
+  bool b22;
+  b22 = i18 < i21;
+  bool b23;
+  b23 = ((3 + i9) + i8) < T0.logical_size[3];
+  nvfuser_index_t i24;
+  i24 = ((-i21) + i6) + i17;
+  nvfuser_index_t i25;
+  i25 = ((-T0.logical_size[3]) + i13) + i8;
+  float* T2 = reinterpret_cast<float*>(array + smem_offset + 0);
+  if (((((((16 + i6) + i17) < i21) && ((((i7 * 4) + 3) + i8) < T0.logical_size[3])) && b22) && (((28 + i13) + i8) < T0.logical_size[3]))) {
+    #pragma unroll
+    for(nvfuser_index_t i26 = 0; i26 < 2; ++i26) {
+      loadGeneric<float, 4>( &T2[(i12 + (512 * i26))],  &T0[(i10 + (i11 * (i26 + nvfuser_zero)))]);
+    }
+    NVFUSER_UPDATE_MAGIC_ZERO;
+    float T3[8];
+    __barrier_sync(0);
+    #pragma unroll
+    for(nvfuser_index_t i27 = 0; i27 < 8; ++i27) {
+      T3[i27]
+         = T2[(i15 + (4 * i27))];
+    }
+    NVFUSER_UPDATE_MAGIC_ZERO;
+    #pragma unroll
+    for(nvfuser_index_t i28 = 0; i28 < 8; ++i28) {
+      T1[(i19 + (i20 * (i28 + nvfuser_zero)))]
+         = T3[i28];
+    }
+    NVFUSER_UPDATE_MAGIC_ZERO;
+  } else {
+    #pragma unroll
+    for(nvfuser_index_t i26 = 0; i26 < 2; ++i26) {
+      nvfuser_index_t i29;
+      i29 = i26 + nvfuser_zero;
+      if ((b23 && (i24 < (-(16 * i29))))) {
+        loadGeneric<float, 4>( &T2[(i12 + (512 * i26))],  &T0[(i10 + (i11 * i29))]);
+      }
+    }
+    NVFUSER_UPDATE_MAGIC_ZERO;
+    float T3[8];
+    __barrier_sync(0);
+    #pragma unroll
+    for(nvfuser_index_t i27 = 0; i27 < 8; ++i27) {
+      if ((b22 && (i25 < (-(4 * (i27 + nvfuser_zero)))))) {
+        T3[i27]
+           = T2[(i15 + (4 * i27))];
+      }
+    }
+    NVFUSER_UPDATE_MAGIC_ZERO;
+    #pragma unroll
+    for(nvfuser_index_t i28 = 0; i28 < 8; ++i28) {
+      nvfuser_index_t i30;
+      i30 = i28 + nvfuser_zero;
+      if ((b22 && (i25 < (-(4 * i30))))) {
+        T1[(i19 + (i20 * i30))]
+           = T3[i28];
+      }
+    }
+    NVFUSER_UPDATE_MAGIC_ZERO;
+  }
+}
+        """
+some_diff = """
+__global__ void kernel15(Tensor<float, 5, 5> T8, nvfuser_index_t i0, nvfuser_index_t i1, nvfuser_index_t i2, Tensor<float, 5, 5> T13, Tensor<float, 5, 5> T6) {
+   alignas(16) extern __shared__ char array[];
+   void* shared_mem = array;
+   NVFUSER_DEFINE_MAGIC_ZERO;
+   nvfuser_index_t i3;
+   i3 = 4 * ((nvfuser_index_t)threadIdx.x);
+   Tensor<float, 5, 5> s4;
+   s4.data = T8.data;
+   s4.logical_size = T8.logical_size;
+   s4.alloc_stride = T8.alloc_stride;
+   double d5;
+-  d5 = (double)(i1);
++  d5 = (double)(i0);
+   double d6;
+-  d6 = (double)(i2);
++  d6 = (double)(i1);
+   double d7;
+   d7 = (double)(0);
+   double d8;
+   d8 = (double)(0);
+   double d9;
+   d9 = (double)(0);
+   double d10;
+-  d10 = (double)(i1);
++  d10 = (double)(i0);
+   double d11;
+-  d11 = (double)(i2);
++  d11 = (double)(i1);
+   Array<nvfuser_index_t, 5, 1> a12;
+   a12 = s4.logical_size;
+   nvfuser_index_t i13;
+   i13 = a12[2];
+   nvfuser_index_t i14;
+-  i14 = i3 + (((i1 * i2) * i13) * ((nvfuser_index_t)blockIdx.x));
++  i14 = i3 + (((i0 * i1) * i13) * ((nvfuser_index_t)blockIdx.x));
+   nvfuser_index_t i15;
+-  i15 = (i2 * i1) * i13;
++  i15 = (i1 * i0) * i13;
+   nvfuser_index_t i16;
+   i16 = 4 * (ceilDiv((ceilDiv(i15, 4)), 7));
+   nvfuser_index_t i17;
+   i17 = (3 - i15) + i3;
+   bool b18;
+   b18 = ((nvfuser_index_t)threadIdx.x) == 0;
+   double d19;
+   d19 = (double)(i13);
+   double d20;
+   d20 = (double)(i13);
+   double d21;
+   d21 = 1.00000000000000000e+00 * d20;
+   double d22;
+   d22 = d21 * d11;
+   double d23;
+   d23 = d22 * d10;
+   double d24;
+   d24 = d23 - d9;
+   bool b25;
+   b25 = d24 >= d8;
+                    """
+
+template_vars = {
+    "pygments_style_defs": HtmlFormatter().get_style_defs(".highlight"),
+    "git1": {
+        "abbrev": "8fd1ff44",
+        "full_hash": "8fd144083db93d5f954b62b25f1c159947652691",
+        "pull_request": {
+            "title": "Wrap CompiledKernel in unique_ptr and add a proper destructor.",
+            "number": 968,
+        },
+        "author_name": "Jacob Hinkle",
+        "author_email": "jhinkle@nvidia.com",
+        "author_datetime": "Wed Sep 27 09:52:34 2023 -0400",
+        "title": "Merge remote-tracking branch 'origin/main' into scalar_seg_edges",
+    },
+    "git2": {
+        "abbrev": "877dc636",
+        "full_hash": "877dc63606d35d44a0320f927fdb83fd8168eaf9",
+        "pull_request": {
+            "title": "Visit extent scalars in SegmentCandidateFinder::resolveScalarsInGroup",
+            "number": 840,
+        },
+        "author_name": "Jacob Hinkle",
+        "author_email": "jhinkle@nvidia.com",
+        "author_datetime": "Wed Sep 27 07:26:54 2023 -0400",
+        "title": "Merge remote-tracking branch 'origin/main' into scalar_seg_edges",
+    },
+    "test_diffs": [
+        {
+            "name": "NVFuserTestFoo",
+            "kernels": [
+                {
+                    "highlighted_code1": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
+                    "highlighted_code2": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
+                    "highlighted_diff": pygments.highlight(some_diff, DiffLexer(), HtmlFormatter()),
+                },
+            ],
+        },
+    ],
+    "new_tests": [
+        {
+            "name": "bat",
+            "highlighted_code": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
+        },
+    ],
+    "removed_tests": [
+        {
+            "name": "baz",
+            "highlighted_code": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
+        },
+    ]
+}
+
+print(template.render(template_vars))

From 2994d77325738de114d45403ec0aa7ee5ba43311 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 14:30:47 -0400
Subject: [PATCH 03/39] Still WIP

---
 tools/diff_codegen_nvfuser_tests.py      | 167 +++++++++++++++++------
 tools/templates/codediff.html            |   2 +-
 tools/templates/test_jinja_pygmentize.py |   1 +
 3 files changed, 131 insertions(+), 39 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index dcaa7b00fe1..b344b455580 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -19,7 +19,7 @@
 import subprocess
 import sys
 from datetime import datetime
-from typing import Optional, Set
+from typing import Optional, Set, Union
 
 
 @dataclass
@@ -36,6 +36,7 @@ def __post_init__(self):
 @dataclass
 class GitRev:
     abbrev: str
+    title: str = None
     full_hash: str = None
     in_branches: list[GitBranch] = field(default_factory=list)
     author_name: str = None
@@ -84,6 +85,7 @@ def __post_init__(self):
             .stdout.strip()
             .decode("utf-8")
         )
+        self.title = git_show("%s")
         self.author_name = git_show("%an")
         self.author_email = git_show("%ae")
 
@@ -92,6 +94,22 @@ def __post_init__(self):
         self.author_time = get_datetime(git_show("%ad"))
         self.commit_time = get_datetime(git_show("%cd"))
 
+    def to_dict(self):
+        return {
+            "abbrev": self.abbrev,
+            "full_hash": self.full_hash,
+            # TODO: detect PRs and add in this format
+            # "pull_request": {
+            #     "title": "Wrap CompiledKernel in unique_ptr and add a proper destructor.",
+            #     "number": 968,
+            # },
+            "author_name": self.author_name,
+            "author_email": self.author_email,
+            "author_datetime": str(self.author_time),
+            "title": self.title,
+        }
+
+
 
 @dataclass
 class TestRun:
@@ -175,6 +193,7 @@ def find_preamble(self):
         """Look for common preamble in collected kernels"""
         preamble_lines = []
         first = True
+        files_processed = 0  # limit how many files to check
         for cufile in os.listdir(os.path.join(self.directory, "cuda")):
             cufile_full = os.path.join(self.directory, "cuda", cufile)
             with open(cufile_full, "r") as f:
@@ -193,6 +212,9 @@ def find_preamble(self):
                 # early return if preamble is determined to be empty
                 break
             first = False
+            files_processed += 1
+            if files_processed >= 50:
+                break
         self.preamble = "\n".join(preamble_lines)
 
     def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
@@ -202,8 +224,20 @@ def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
         with open(fullname, "r") as f:
             if strip_preamble:
                 f.seek(self.preamble_size_bytes)
-            return f.read().strip()
+            code = f.read().strip()
+        return code
 
+def highlight_code(code) -> str:
+    import pygments
+    from pygments.formatters import HtmlFormatter
+    from pygments.lexers import  CppLexer
+    return pygments.highlight(code, CppLexer(), HtmlFormatter())
+
+def highlight_diff(diff) -> str:
+    import pygments
+    from pygments.formatters import HtmlFormatter
+    from pygments.lexers import  DiffLexer
+    return pygments.highlight(diff, DiffLexer(), HtmlFormatter())
 
 @dataclass
 class KernelDiff:
@@ -213,6 +247,15 @@ class KernelDiff:
     code2: str
     diff: str
 
+    def to_dict(self):
+        print("Highlighting diff ", self.kernel_num, 'for test', self.testname)
+        return {
+            "number": self.kernel_num,
+            "highlighted_code1": highlight_code(self.code1),
+            "highlighted_code2": highlight_code(self.code2),
+            "highlighted_diff": highlight_diff(self.diff),
+        }
+
 
 # Lets us maintain test order
 class LastUpdatedOrderedDict(OrderedDict):
@@ -227,9 +270,10 @@ def __setitem__(self, key, value):
 class TestDifferences:
     run1: TestRun
     run2: TestRun
-    differing_tests: LastUpdatedOrderedDict[str, list[KernelDiff]] = field(
-        default_factory=list
-    )
+    # eitehr a list of diffs, or different numbers of kernels present
+    differing_tests: LastUpdatedOrderedDict[
+        str, Union[tuple[int, int], list[KernelDiff]]
+    ] = field(default_factory=LastUpdatedOrderedDict)
     new_tests: list[str] = field(default_factory=list)
     removed_tests: list[str] = field(default_factory=list)
 
@@ -248,10 +292,9 @@ def __post_init__(self):
         if self.run1.preamble != self.run2.preamble:
             print("Preambles differ between runs indicating changes to runtime files")
 
-        differing_tests_set = set()
         for testname, kernels1 in self.run1.kernel_map.items():
             if testname not in self.run2.kernel_map:
-                removed_tests.append(testname)
+                self.removed_tests.append(testname)
                 continue
 
             kernels2 = self.run2.kernel_map[testname]
@@ -259,27 +302,27 @@ def __post_init__(self):
             if len(kernels1) != len(kernels2):
                 print(
                     f"WARNING: Test {testname} has different number of kernels "
-                    f"in {dir1} than in {dir2}. Not showing diffs.",
+                    f"in {dir1} than in {dir2}. Not showing diffs for this test.",
                     file=sys.stderr,
                 )
-                if testname not in differing_tests_set:
-                    differing_tests.append(testname)
-                    differing_tests_set.add(testname)
+                self.differing_tests[testname] = (len(kernels1), len(kernels2))
 
             for kernel_num in range(len(kernels1)):
-                code1 = self.run1.get_kernel(testname, kernel_num, strip_preamble=True)
-                code2 = self.run2.get_kernel(testname, kernel_num, strip_preamble=True)
+                code1 = self.run1.get_kernel(testname, kernel_num, strip_preamble=False)
+                code2 = self.run2.get_kernel(testname, kernel_num, strip_preamble=False)
 
                 lines1 = code1.splitlines()
                 lines2 = code2.splitlines()
 
-                diff_str = "\n".join(difflib.unified_diff(
-                    lines1,
-                    lines2,
-                    fromfile=self.run1.git_rev.abbrev,
-                    tofile=self.run2.git_rev.abbrev,
-                    n=5,
-                ))
+                diff_str = "\n".join(
+                    difflib.unified_diff(
+                        lines1,
+                        lines2,
+                        fromfile=self.run1.git_rev.abbrev,
+                        tofile=self.run2.git_rev.abbrev,
+                        n=5,
+                    )
+                )
                 if len(diff_str) > 0:
                     print(testname, kernel_num, diff_str)
                     diff_obj = KernelDiff(testname, kernel_num, code1, code2, diff_str)
@@ -290,7 +333,7 @@ def __post_init__(self):
 
         for testname, kernels2 in self.run2.kernel_map.items():
             if testname not in self.run1.kernel_map:
-                new_tests.append(testname)
+                self.new_tests.append(testname)
 
     def __len__(self):
         return len(self.differing_tests)
@@ -300,22 +343,54 @@ def to_dict(self):
         d = {}
         d["git1"] = self.run1.git_rev.to_dict()
         d["git2"] = self.run2.git_rev.to_dict()
-
-    def generate_html(self, output_file: str) -> str:
+        
+        d["test_diffs"] = {}
+        for testname, diffs in self.differing_tests.items():
+            if isinstance(diffs, tuple):
+                # differing numbers of kernels produced by this test
+                d["test_diffs"][testname] = diffs
+            else:
+                d["test_diffs"][testname] = [di.to_dict() for di in diffs]
+
+        d["new_tests"] = []
+        for testname in self.new_tests:
+            kernels_code = []
+            for i in range(len(self.run2.kernel_map[testname])):
+                kernels_code.append(highlight_code(self.run2.get_kernel(testname, i, strip_preamble=False)))
+            d["new_tests"].append({
+                "name": testname,
+                "highlighted_code": kernels_code,
+            })
+
+        d["removed_tests"] = []
+        for testname in self.removed_tests:
+            kernels_code = []
+            for i in range(len(self.run1.kernel_map[testname])):
+                kernels_code.append(highlight_code(self.run1.get_kernel(testname, i, strip_preamble=False)))
+            d["new_tests"].append({
+                "name": testname,
+                "highlighted_code": kernels_code,
+            })
+
+        return d
+
+    def generate_html(self) -> str:
         """Return a self-contained HTML string summarizing the codegen comparison"""
         import jinja2
-        import pygments
-        from pygments.lexers import CppLexer, DiffLexer
         from pygments.formatters import HtmlFormatter
 
-        env = jinja2.Environment(loader=jinja2.FileSystemLoader(searchpath="."))
-        template = env.get_template(
-            os.path.join(os.path.dirname(__file__), "templates", "codediff.html")
-        )
-        context = self.to_dict()
+        tools_dir = os.path.dirname(__file__)
+        env = jinja2.Environment(loader=jinja2.FileSystemLoader(searchpath=tools_dir))
+        template = env.get_template("templates/codediff.html")
+        import json
+        if True:  # write
+            context = self.to_dict()
+            json.dump(context, open("context.json", "w"))
+        else:  # read
+            context = json.load(open("context.json", "r"))
         context["pygments_style_defs"] = HtmlFormatter().get_style_defs(".highlight")
 
-        return template.render(template_vars)
+        return template.render(context)
 
 
 if __name__ == "__main__":
@@ -332,7 +407,15 @@ def generate_html(self, output_file: str) -> str:
     )
     args = parser.parse_args()
 
-    test_diffs = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
+    import pickle
+
+    if False:  # write
+        test_diffs = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
+        with open("diffs.pkl", "wb") as f:
+            pickle.dump(test_diffs, f)
+    else:  # read
+        with open("diffs.pkl", "rb") as f:
+            test_diffs = pickle.load(f)
 
     if args.html:
         output_file = args.output_file
@@ -344,13 +427,21 @@ def generate_html(self, output_file: str) -> str:
             run_name = os.path.basename(os.path.abspath(args.dir1))
             output_file = f"codediff_{abbrev1}_{abbrev2}_{run_name}.html"
         with open(output_file, "w") as f:
-            f.write(differing_tests.generate_html())
+            f.write(test_diffs.generate_html())
+
+    num_differing_kernels = 0
+    for k, v in test_diffs.differing_tests.items():
+        if isinstance(v, list):
+            num_differing_kernels += len(v)
 
-    if len(differing_tests) == 0:
+    if len(test_diffs.differing_tests) == 0:
         print("No differences found in overlapping tests!")
     else:
-        print("Differences found in the following tests:")
-        for t in differing_tests:
-            print(f"  {t}")
 
-    exit(len(differing_tests))
+        print(len(test_diffs.differing_tests), "tests found")
+    if len(test_diffs.new_tests) > 0:
+        print(len(test_diffs.new_tests), "new tests found")
+    if len(test_diffs.removed_tests) > 0:
+        print(len(test_diffs.removed_tests), "removed tests found")
+
+    exit(len(test_diffs.differing_tests))
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 437ba48757b..e4f27baf352 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -110,7 +110,7 @@ <h3>Test Diffs</h3>
       {% endif %}
           {% set outer_index = loop.index %}
           {% for kernel in test.kernels %}
-          &nbsp;&nbsp;&nbsp;&nbsp;Kernel {{ loop.index }}
+          &nbsp;&nbsp;&nbsp;&nbsp;Kernel {{ kernel.number }}
             <button style="box-shadow:none" ONCLICK="toggleOldCode({{outer_index}}, {{loop.index}})">{{git1.abbrev}}</button></span>
             <button style="box-shadow:none" ONCLICK="toggleDiff({{outer_index}}, {{loop.index}})">DIFF</button></span>
             <button style="box-shadow:none" ONCLICK="toggleNewCode({{outer_index}}, {{loop.index}})">{{git2.abbrev}}</button></span><br>
diff --git a/tools/templates/test_jinja_pygmentize.py b/tools/templates/test_jinja_pygmentize.py
index ea41086b50c..a6da83c6306 100644
--- a/tools/templates/test_jinja_pygmentize.py
+++ b/tools/templates/test_jinja_pygmentize.py
@@ -210,6 +210,7 @@
             "name": "NVFuserTestFoo",
             "kernels": [
                 {
+                    "kernel_num": 3,
                     "highlighted_code1": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
                     "highlighted_code2": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
                     "highlighted_diff": pygments.highlight(some_diff, DiffLexer(), HtmlFormatter()),

From e845a96707333831e02564904e5578e994492616 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 15:21:53 -0400
Subject: [PATCH 04/39] First working version

---
 tools/diff_codegen_nvfuser_tests.py      | 141 ++++++++++++++---------
 tools/templates/codediff.html            |  31 +++--
 tools/templates/test_jinja_pygmentize.py |  22 +++-
 3 files changed, 121 insertions(+), 73 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index b344b455580..b87ad8fdd1a 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -19,7 +19,7 @@
 import subprocess
 import sys
 from datetime import datetime
-from typing import Optional, Set, Union
+from typing import Union
 
 
 @dataclass
@@ -70,27 +70,32 @@ def __post_init__(self):
                 in_branches.append(line)
 
         date_fmt = "%Y/%m/%d %H:%M:%S %z"
-        git_show = (
-            lambda fmt: subprocess.run(
-                [
-                    "git",
-                    "show",
-                    "--no-patch",
-                    f"--format={fmt}",
-                    f"--date=format:{date_fmt}",
-                    self.full_hash,
-                ],
-                capture_output=True,
+
+        def git_show(fmt) -> str:
+            return (
+                subprocess.run(
+                    [
+                        "git",
+                        "show",
+                        "--no-patch",
+                        f"--format={fmt}",
+                        f"--date=format:{date_fmt}",
+                        self.full_hash,
+                    ],
+                    capture_output=True,
+                )
+                .stdout.strip()
+                .decode("utf-8")
             )
-            .stdout.strip()
-            .decode("utf-8")
-        )
+
         self.title = git_show("%s")
         self.author_name = git_show("%an")
         self.author_email = git_show("%ae")
 
         # Get date and time for this commit in datetime format
-        get_datetime = lambda time_str: datetime.strptime(time_str, date_fmt)
+        def get_datetime(time_str):
+            return datetime.strptime(time_str, date_fmt)
+
         self.author_time = get_datetime(git_show("%ad"))
         self.commit_time = get_datetime(git_show("%cd"))
 
@@ -110,7 +115,6 @@ def to_dict(self):
         }
 
 
-
 @dataclass
 class TestRun:
     directory: str
@@ -125,6 +129,7 @@ class TestRun:
     preamble: str = None
     # lets us seek past preamble
     preamble_size_bytes: int = None
+    preamble_size_lines: int = None
 
     def __post_init__(self):
         # get description of this git rev
@@ -215,6 +220,7 @@ def find_preamble(self):
             files_processed += 1
             if files_processed >= 50:
                 break
+        self.preamble_size_lines = len(preamble_lines)
         self.preamble = "\n".join(preamble_lines)
 
     def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
@@ -222,23 +228,34 @@ def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
         basename = self.kernel_map[test_name][kernel_number]
         fullname = os.path.join(self.directory, "cuda", basename)
         with open(fullname, "r") as f:
-            if strip_preamble:
-                f.seek(self.preamble_size_bytes)
-            code = f.read().strip()
+            code = ""
+            for i, line in enumerate(f.readlines()):
+                if not strip_preamble or i >= self.preamble_size_lines:
+                    # replace kernel934 with kernel1 to facilitate diffing
+                    code += re.sub(r"\bkernel\d+\b", "kernelN", line)
+        code = code.rstrip()
+        if strip_preamble and code[-1] == "}":
+            # trailing curly brace is close of namespace. This will clean it up so that we have just the kernel
+            code = code[:-1].rstrip()
         return code
 
+
 def highlight_code(code) -> str:
     import pygments
     from pygments.formatters import HtmlFormatter
-    from pygments.lexers import  CppLexer
+    from pygments.lexers import CppLexer
+
     return pygments.highlight(code, CppLexer(), HtmlFormatter())
 
+
 def highlight_diff(diff) -> str:
     import pygments
     from pygments.formatters import HtmlFormatter
-    from pygments.lexers import  DiffLexer
+    from pygments.lexers import DiffLexer
+
     return pygments.highlight(diff, DiffLexer(), HtmlFormatter())
 
+
 @dataclass
 class KernelDiff:
     testname: str
@@ -248,7 +265,7 @@ class KernelDiff:
     diff: str
 
     def to_dict(self):
-        print("Highlighting diff ", self.kernel_num, 'for test', self.testname)
+        print("Highlighting diff of kernel", self.kernel_num, "in test", self.testname)
         return {
             "number": self.kernel_num,
             "highlighted_code1": highlight_code(self.code1),
@@ -308,8 +325,8 @@ def __post_init__(self):
                 self.differing_tests[testname] = (len(kernels1), len(kernels2))
 
             for kernel_num in range(len(kernels1)):
-                code1 = self.run1.get_kernel(testname, kernel_num, strip_preamble=False)
-                code2 = self.run2.get_kernel(testname, kernel_num, strip_preamble=False)
+                code1 = self.run1.get_kernel(testname, kernel_num, strip_preamble=True)
+                code2 = self.run2.get_kernel(testname, kernel_num, strip_preamble=True)
 
                 lines1 = code1.splitlines()
                 lines2 = code2.splitlines()
@@ -343,34 +360,51 @@ def to_dict(self):
         d = {}
         d["git1"] = self.run1.git_rev.to_dict()
         d["git2"] = self.run2.git_rev.to_dict()
-        
-        d["test_diffs"] = {}
+
+        d["test_diffs"] = []
         for testname, diffs in self.differing_tests.items():
             if isinstance(diffs, tuple):
                 # differing numbers of kernels produced by this test
-                d["test_diffs"][testname] = diffs
+                d["test_diffs"].append(diffs)
             else:
-                d["test_diffs"][testname] = [di.to_dict() for di in diffs]
+                d["test_diffs"].append(
+                    {
+                        "name": testname,
+                        "kernels": [di.to_dict() for di in diffs],
+                    }
+                )
 
         d["new_tests"] = []
         for testname in self.new_tests:
             kernels_code = []
             for i in range(len(self.run2.kernel_map[testname])):
-                kernels_code.append(highlight_code(self.run2.get_kernel(testname, i, strip_preamble=False)))
-            d["new_tests"].append({
-                "name": testname,
-                "highlighted_code": kernels_code,
-            })
+                kernels_code.append(
+                    highlight_code(
+                        self.run2.get_kernel(testname, i, strip_preamble=True)
+                    )
+                )
+            d["new_tests"].append(
+                {
+                    "name": testname,
+                    "highlighted_code": kernels_code,
+                }
+            )
 
         d["removed_tests"] = []
         for testname in self.removed_tests:
             kernels_code = []
             for i in range(len(self.run1.kernel_map[testname])):
-                kernels_code.append(highlight_code(self.run1.get_kernel(testname, i, strip_preamble=False)))
-            d["new_tests"].append({
-                "name": testname,
-                "highlighted_code": kernels_code,
-            })
+                kernels_code.append(
+                    highlight_code(
+                        self.run1.get_kernel(testname, i, strip_preamble=True)
+                    )
+                )
+            d["removed_tests"].append(
+                {
+                    "name": testname,
+                    "highlighted_code": kernels_code,
+                }
+            )
 
         return d
 
@@ -382,12 +416,7 @@ def generate_html(self) -> str:
         tools_dir = os.path.dirname(__file__)
         env = jinja2.Environment(loader=jinja2.FileSystemLoader(searchpath=tools_dir))
         template = env.get_template("templates/codediff.html")
-        import json
-        if True:  # write
-            context = self.to_dict()
-            json.dump(context, open("context.json", "w"))
-        else:  # read
-            context = json.load(open("context.json", "r"))
+        context = self.to_dict()
         context["pygments_style_defs"] = HtmlFormatter().get_style_defs(".highlight")
 
         return template.render(context)
@@ -407,21 +436,15 @@ def generate_html(self) -> str:
     )
     args = parser.parse_args()
 
-    import pickle
-
-    if False:  # write
-        test_diffs = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
-        with open("diffs.pkl", "wb") as f:
-            pickle.dump(test_diffs, f)
-    else:  # read
-        with open("diffs.pkl", "rb") as f:
-            test_diffs = pickle.load(f)
+    test_diffs = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
 
     if args.html:
         output_file = args.output_file
         if output_file is None:
             # determine default output file
-            get_abbrev = lambda d: os.path.basename(os.path.dirname(os.path.abspath(d)))
+            def get_abbrev(d):
+                return os.path.basename(os.path.dirname(os.path.abspath(d)))
+
             abbrev1 = get_abbrev(args.dir1)
             abbrev2 = get_abbrev(args.dir2)
             run_name = os.path.basename(os.path.abspath(args.dir1))
@@ -437,8 +460,12 @@ def generate_html(self) -> str:
     if len(test_diffs.differing_tests) == 0:
         print("No differences found in overlapping tests!")
     else:
-
-        print(len(test_diffs.differing_tests), "tests found")
+        print(
+            num_differing_kernels,
+            "from",
+            len(test_diffs.differing_tests),
+            "tests found",
+        )
     if len(test_diffs.new_tests) > 0:
         print(len(test_diffs.new_tests), "new tests found")
     if len(test_diffs.removed_tests) > 0:
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index e4f27baf352..2d1001de67c 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -88,31 +88,42 @@ <h2>Code comparison</h2>
         {% if new_tests|length > 0 %}
         <h3>New Tests</h3>
           {% for test in new_tests %}
-          <span class="test_name">{{loop.index}}: {{test.name}} <button style="box-shadow:none" ONCLICK="toggleDiv('newtestcode_{{loop.index}}')">CODE</button></span><br>
-            <div id="newtestcode_{{loop.index}}" style="display:none">
-                {{ test.highlighted_code }}
-            </div>
+          <span class="test_name"><b>{{test.name}}</b><br>
+              {% set test_num = loop.index %}
+              {% for code in test.highlighted_code %}
+              Kernel {{loop.index}}
+              <button style="box-shadow:none" ONCLICK="toggleDiv('newtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
+                <div id="newtestcode_{{test_num}}_{{loop.index}}" style="display:none">
+                    {{ code }}
+                </div>
+              {% endfor %}
           {% endfor %}
         {% endif %}
 
         {% if removed_tests|length > 0 %}
         <h3>Removed Tests</h3>
           {% for test in removed_tests %}
-            <span class="test_name">{{loop.index}}: {{test.name}}</span>
+          <span class="test_name"><b>{{test.name}}</b><br>
+              {% set test_num = loop.index %}
+              {% for code in test.highlighted_code %}
+              Kernel {{loop.index}}
+              <button style="box-shadow:none" ONCLICK="toggleDiv('removedtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
+                <div id="removedtestcode_{{test_num}}_{{loop.index}}" style="display:none">
+                    {{ code }}
+                </div>
+              {% endfor %}
           {% endfor %}
         {% endif %}
-        
+
         <h3>Test Diffs</h3>
       {% for test in test_diffs %}
-      <span class="test_name">{{loop.index}}: {{test.name}}</span>
-      {% if test.kernels|length > 1 %}
+      <span class="test_name">{{loop.index}}: <b>{{test.name}}</b></span>
       <br>
-      {% endif %}
           {% set outer_index = loop.index %}
           {% for kernel in test.kernels %}
           &nbsp;&nbsp;&nbsp;&nbsp;Kernel {{ kernel.number }}
             <button style="box-shadow:none" ONCLICK="toggleOldCode({{outer_index}}, {{loop.index}})">{{git1.abbrev}}</button></span>
-            <button style="box-shadow:none" ONCLICK="toggleDiff({{outer_index}}, {{loop.index}})">DIFF</button></span>
+            <button style="box-shadow:none" ONCLICK="toggleDiff({{outer_index}}, {{loop.index}})">Diff</button></span>
             <button style="box-shadow:none" ONCLICK="toggleNewCode({{outer_index}}, {{loop.index}})">{{git2.abbrev}}</button></span><br>
             <div id="oldcode_{{outer_index}}_{{loop.index}}" style="display:none">
                 {{ kernel.highlighted_code1 }}
diff --git a/tools/templates/test_jinja_pygmentize.py b/tools/templates/test_jinja_pygmentize.py
index a6da83c6306..99c0fe17fbd 100644
--- a/tools/templates/test_jinja_pygmentize.py
+++ b/tools/templates/test_jinja_pygmentize.py
@@ -211,9 +211,15 @@
             "kernels": [
                 {
                     "kernel_num": 3,
-                    "highlighted_code1": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
-                    "highlighted_code2": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
-                    "highlighted_diff": pygments.highlight(some_diff, DiffLexer(), HtmlFormatter()),
+                    "highlighted_code1": pygments.highlight(
+                        some_code, CppLexer(), HtmlFormatter()
+                    ),
+                    "highlighted_code2": pygments.highlight(
+                        some_code, CppLexer(), HtmlFormatter()
+                    ),
+                    "highlighted_diff": pygments.highlight(
+                        some_diff, DiffLexer(), HtmlFormatter()
+                    ),
                 },
             ],
         },
@@ -221,15 +227,19 @@
     "new_tests": [
         {
             "name": "bat",
-            "highlighted_code": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
+            "highlighted_code": pygments.highlight(
+                some_code, CppLexer(), HtmlFormatter()
+            ),
         },
     ],
     "removed_tests": [
         {
             "name": "baz",
-            "highlighted_code": pygments.highlight(some_code, CppLexer(), HtmlFormatter()),
+            "highlighted_code": pygments.highlight(
+                some_code, CppLexer(), HtmlFormatter()
+            ),
         },
-    ]
+    ],
 }
 
 print(template.render(template_vars))

From 31b9362f38a794daea5d1231e8cb679ce7a29df5 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 15:30:58 -0400
Subject: [PATCH 05/39] Change widths of buttons. Still ugly but easier to hit

---
 tools/templates/codediff.html | 7 ++++---
 1 file changed, 4 insertions(+), 3 deletions(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 2d1001de67c..e5f43c71887 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -92,7 +92,7 @@ <h3>New Tests</h3>
               {% set test_num = loop.index %}
               {% for code in test.highlighted_code %}
               Kernel {{loop.index}}
-              <button style="box-shadow:none" ONCLICK="toggleDiv('newtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
+              <button style="width: 60pt; box-shadow:none" ONCLICK="toggleDiv('newtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
                 <div id="newtestcode_{{test_num}}_{{loop.index}}" style="display:none">
                     {{ code }}
                 </div>
@@ -121,9 +121,9 @@ <h3>Test Diffs</h3>
       <br>
           {% set outer_index = loop.index %}
           {% for kernel in test.kernels %}
-          &nbsp;&nbsp;&nbsp;&nbsp;Kernel {{ kernel.number }}
+          &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 60pt">Kernel {{ kernel.number }}</span>
             <button style="box-shadow:none" ONCLICK="toggleOldCode({{outer_index}}, {{loop.index}})">{{git1.abbrev}}</button></span>
-            <button style="box-shadow:none" ONCLICK="toggleDiff({{outer_index}}, {{loop.index}})">Diff</button></span>
+            <button style="width: 60pt; box-shadow:none" ONCLICK="toggleDiff({{outer_index}}, {{loop.index}})">Diff</button></span>
             <button style="box-shadow:none" ONCLICK="toggleNewCode({{outer_index}}, {{loop.index}})">{{git2.abbrev}}</button></span><br>
             <div id="oldcode_{{outer_index}}_{{loop.index}}" style="display:none">
                 {{ kernel.highlighted_code1 }}
@@ -135,6 +135,7 @@ <h3>Test Diffs</h3>
                 {{ kernel.highlighted_diff }}
             </div>
         {% endfor %}
+        <br>
       {% endfor %}
     </body>
 </html>

From 7b508287186016dfcc951bc0a1190ee254df1be2 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 19:42:24 -0400
Subject: [PATCH 06/39] Add command to html output

---
 tools/diff_codegen_nvfuser_tests.py | 12 ++++++--
 tools/templates/codediff.html       | 46 +++++++++++------------------
 2 files changed, 28 insertions(+), 30 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index b87ad8fdd1a..a08198c6c7e 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -223,6 +223,14 @@ def find_preamble(self):
         self.preamble_size_lines = len(preamble_lines)
         self.preamble = "\n".join(preamble_lines)
 
+    def to_dict(self):
+        d = {}
+        d["name"] = self.run_name
+        d["command"] = self.command
+        d["exitcode"] = self.exit_code
+        d["git"] = self.git_rev.to_dict()
+        return d
+
     def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
         """Get a string of the kernel, optionally stripping the preamble"""
         basename = self.kernel_map[test_name][kernel_number]
@@ -358,8 +366,8 @@ def __len__(self):
     def to_dict(self):
         """Convert to hierarchical dict format for use with jinja"""
         d = {}
-        d["git1"] = self.run1.git_rev.to_dict()
-        d["git2"] = self.run2.git_rev.to_dict()
+        d["run1"] = self.run1.to_dict()
+        d["run2"] = self.run2.to_dict()
 
         d["test_diffs"] = []
         for testname, diffs in self.differing_tests.items():
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index e5f43c71887..1ada0d1516a 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -1,6 +1,6 @@
 <html>
     <head>
-        <title>{{ git1.abbrev }} vs {{ git2.abbrev }} - NVFuser codegen diff</title>
+        <title>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</title>
     <style>
 {{ pygments_style_defs }}
     </style>
@@ -52,39 +52,29 @@
     </script>
     </head>
     <body>
-        <h1>{{ git1.abbrev }} vs {{ git2.abbrev }} - NVFuser codegen diff</h1>
+        <h1>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</h1>
 
         <h2>Git information</h2>
 
-        <h3>Old commit: {{ git1.abbrev }}</h3>
-        <span>{{ git1.title }}</span><br>
-        <span>{{ git1.author_name }}</span> &lt;<span>{{ git1.author_email }}&gt;</span><br>
-        <span>{{ git1.author_datetime }}</span><br>
-        {% if git1.pull_request is defined %}
-        Pull request: {{ git1.pull_request.title }}<br>
-        <a href="https://github.com/NVIDIA/Fuser/pull/{{git1.pull_request.number}}">View PR on github.com</a><br>
-        <a href="https://github.com/NVIDIA/Fuser/pull/{{git1.pull_request.number}}/commits/{{git1.full_hash}}">Show commit on github.com</a><br>
-        {% else %}
-        <a href="https://github.com/NVIDIA/Fuser/commit/{{git1.full_hash}}">Show commit on github.com</a><br>
-        {% endif %}
-        <a href="https://github.com/NVIDIA/Fuser/tree/{{git1.full_hash}}">Browse code at this commit on github.com</a><br>
+        <h3>Old commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{run1.git.full_hash}}">{{ run1.git.abbrev }}</a></h3>
+        <span>{{ run1.git.title }}</span><br>
+        <span>{{ run1.git.author_name }}</span> &lt;<span>{{ run1.git.author_email }}&gt;</span><br>
+        <span>{{ run1.git.author_datetime }}</span><br>
+        <a href="https://github.com/NVIDIA/Fuser/commit/{{run1.git.full_hash}}">View commit</a><br>
+        <a href="https://github.com/NVIDIA/Fuser/tree/{{run1.git.full_hash}}">Browse code at this commit</a><br>
 
-        <h3>New commit: {{ git2.abbrev }}</h3>
-        <span>{{ git2.title }}</span><br>
-        <span>{{ git2.author_name }}</span> &lt;<span>{{ git2.author_email }}&gt;</span><br>
-        <span>{{ git2.author_datetime }}</span><br>
-        {% if git2.pull_request is defined %}
-        Pull request: {{ git2.pull_request.title }}<br>
-        <a href="https://github.com/NVIDIA/Fuser/pull/{{git1.pull_request.number}}">View PR on github.com</a><br>
-        <a href="https://github.com/NVIDIA/Fuser/pull/{{git2.pull_request.number}}/commits/{{git2.full_hash}}">Show commit on github.com</a><br>
-        {% else %}
-        <a href="https://github.com/NVIDIA/Fuser/commit/{{git2.full_hash}}">Show commit on github.com</a><br>
-        {% endif %}
-        <a href="https://github.com/NVIDIA/Fuser/tree/{{git2.full_hash}}">Browse code at this commit on github.com</a><br>
+        <h3>New commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{run2.git.full_hash}}">{{ run2.git.abbrev }}</a></h3>
+        <span>{{ run2.git.title }}</span><br>
+        <span>{{ run2.git.author_name }}</span> &lt;<span>{{ run2.git.author_email }}&gt;</span><br>
+        <span>{{ run2.git.author_datetime }}</span><br>
+        <a href="https://github.com/NVIDIA/Fuser/commit/{{run2.git.full_hash}}">View commit</a><br>
+        <a href="https://github.com/NVIDIA/Fuser/tree/{{run2.git.full_hash}}">Browse code at this commit</a><br>
 
 
         <h2>Code comparison</h2>
 
+        Command line: <code>{{ run1.command }}</code>
+
         {% if new_tests|length > 0 %}
         <h3>New Tests</h3>
           {% for test in new_tests %}
@@ -122,9 +112,9 @@ <h3>Test Diffs</h3>
           {% set outer_index = loop.index %}
           {% for kernel in test.kernels %}
           &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 60pt">Kernel {{ kernel.number }}</span>
-            <button style="box-shadow:none" ONCLICK="toggleOldCode({{outer_index}}, {{loop.index}})">{{git1.abbrev}}</button></span>
+            <button style="box-shadow:none" ONCLICK="toggleOldCode({{outer_index}}, {{loop.index}})">{{run1.git.abbrev}}</button></span>
             <button style="width: 60pt; box-shadow:none" ONCLICK="toggleDiff({{outer_index}}, {{loop.index}})">Diff</button></span>
-            <button style="box-shadow:none" ONCLICK="toggleNewCode({{outer_index}}, {{loop.index}})">{{git2.abbrev}}</button></span><br>
+            <button style="box-shadow:none" ONCLICK="toggleNewCode({{outer_index}}, {{loop.index}})">{{run2.git.abbrev}}</button></span><br>
             <div id="oldcode_{{outer_index}}_{{loop.index}}" style="display:none">
                 {{ kernel.highlighted_code1 }}
             </div>

From ec9ca994559c2e86278c326a17c71f8b036e1ba5 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 20:20:45 -0400
Subject: [PATCH 07/39] Show preamble, and diff if they do not match

---
 tools/diff_codegen_nvfuser_tests.py | 13 ++++++
 tools/templates/codediff.html       | 68 ++++++++++++++++++++++++++---
 2 files changed, 76 insertions(+), 5 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index a08198c6c7e..67641772b94 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -229,6 +229,7 @@ def to_dict(self):
         d["command"] = self.command
         d["exitcode"] = self.exit_code
         d["git"] = self.git_rev.to_dict()
+        d["highlighted_preamble"] = highlight_code(self.preamble)
         return d
 
     def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
@@ -369,6 +370,18 @@ def to_dict(self):
         d["run1"] = self.run1.to_dict()
         d["run2"] = self.run2.to_dict()
 
+        d["highlighted_preamble_diff"] = highlight_diff(
+            "\n".join(
+                difflib.unified_diff(
+                    self.run1.preamble.splitlines(),
+                    self.run2.preamble.splitlines(),
+                    fromfile=self.run1.git_rev.abbrev,
+                    tofile=self.run2.git_rev.abbrev,
+                    n=5,
+                )
+            )
+        )
+
         d["test_diffs"] = []
         for testname, diffs in self.differing_tests.items():
             if isinstance(diffs, tuple):
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 1ada0d1516a..4e88fad1792 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -13,6 +13,42 @@
                 x.style.display = "none";
             }
         }
+        function toggleOldPreamble() {
+            var old_div = document.getElementById('old_preamble');
+            var new_div = document.getElementById('new_preamble');
+            var diff_div = document.getElementById('preamble_diff');
+            new_div.style.display = "none";
+            diff_div.style.display = "none";
+            if (old_div.style.display === "none") {
+                old_div.style.display = "block";
+            } else {
+                old_div.style.display = "none";
+            }
+        }
+        function toggleNewPreamble() {
+            var old_div = document.getElementById('old_preamble');
+            var new_div = document.getElementById('new_preamble');
+            var diff_div = document.getElementById('preamble_diff');
+            old_div.style.display = "none";
+            diff_div.style.display = "none";
+            if (new_div.style.display === "none") {
+                new_div.style.display = "block";
+            } else {
+                new_div.style.display = "none";
+            }
+        }
+        function togglePreambleDiff() {
+            var old_div = document.getElementById('old_preamble');
+            var new_div = document.getElementById('new_preamble');
+            var diff_div = document.getElementById('preamble_diff');
+            old_div.style.display = "none";
+            new_div.style.display = "none";
+            if (diff_div.style.display === "none") {
+                diff_div.style.display = "block";
+            } else {
+                diff_div.style.display = "none";
+            }
+        }
         function toggleOldCode(testnum, kernelnum) {
             var old_div = document.getElementById(`oldcode_${testnum}_${kernelnum}`);
             var new_div = document.getElementById(`newcode_${testnum}_${kernelnum}`);
@@ -74,6 +110,28 @@ <h3>New commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{run2.git.full_
         <h2>Code comparison</h2>
 
         Command line: <code>{{ run1.command }}</code>
+        <br>
+        {% if run1.highlighted_preamble != run2.highlighted_preamble %}
+        Preamble differs between runs
+            <button style="box-shadow:none" onclick="toggleOldPreamble()">{{run1.git.abbrev}}</button></span>
+            <button style="width: 60pt; box-shadow:none" onclick="togglePreambleDiff()">Diff</button></span>
+            <button style="box-shadow:none" onclick="toggleNewPreamble()">{{run2.git.abbrev}}</button></span><br>
+            <div id="old_preamble" style="display:none">
+                {{ run1.highlighted_preamble }}
+            </div>
+            <div id="new_preamble" style="display:none">
+                {{ run1.highlighted_preamble }}
+            </div>
+            <div id="preamble_diff" style="display:none">
+                {{ highlighted_preamble_diff }}
+            </div>
+        {% else %}
+        Preamble matches between runs
+            <button style="box-shadow:none" onclick="toggleDiv('preamble')">Preamble</button></span><br>
+            <div id="preamble" style="display:none">
+                {{ run1.highlighted_preamble }}
+            </div>
+        {% endif %}
 
         {% if new_tests|length > 0 %}
         <h3>New Tests</h3>
@@ -82,7 +140,7 @@ <h3>New Tests</h3>
               {% set test_num = loop.index %}
               {% for code in test.highlighted_code %}
               Kernel {{loop.index}}
-              <button style="width: 60pt; box-shadow:none" ONCLICK="toggleDiv('newtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
+              <button style="width: 60pt; box-shadow:none" onclick="toggleDiv('newtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
                 <div id="newtestcode_{{test_num}}_{{loop.index}}" style="display:none">
                     {{ code }}
                 </div>
@@ -97,7 +155,7 @@ <h3>Removed Tests</h3>
               {% set test_num = loop.index %}
               {% for code in test.highlighted_code %}
               Kernel {{loop.index}}
-              <button style="box-shadow:none" ONCLICK="toggleDiv('removedtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
+              <button style="box-shadow:none" onclick="toggleDiv('removedtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
                 <div id="removedtestcode_{{test_num}}_{{loop.index}}" style="display:none">
                     {{ code }}
                 </div>
@@ -112,9 +170,9 @@ <h3>Test Diffs</h3>
           {% set outer_index = loop.index %}
           {% for kernel in test.kernels %}
           &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 60pt">Kernel {{ kernel.number }}</span>
-            <button style="box-shadow:none" ONCLICK="toggleOldCode({{outer_index}}, {{loop.index}})">{{run1.git.abbrev}}</button></span>
-            <button style="width: 60pt; box-shadow:none" ONCLICK="toggleDiff({{outer_index}}, {{loop.index}})">Diff</button></span>
-            <button style="box-shadow:none" ONCLICK="toggleNewCode({{outer_index}}, {{loop.index}})">{{run2.git.abbrev}}</button></span><br>
+            <button style="box-shadow:none" onclick="toggleOldCode({{outer_index}}, {{loop.index}})">{{run1.git.abbrev}}</button></span>
+            <button style="width: 60pt; box-shadow:none" onclick="toggleDiff({{outer_index}}, {{loop.index}})">Diff</button></span>
+            <button style="box-shadow:none" onclick="toggleNewCode({{outer_index}}, {{loop.index}})">{{run2.git.abbrev}}</button></span><br>
             <div id="oldcode_{{outer_index}}_{{loop.index}}" style="display:none">
                 {{ kernel.highlighted_code1 }}
             </div>

From f55f19a18de48da42308856956bd4806ab437a43 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 20:24:53 -0400
Subject: [PATCH 08/39] Add note to enable skipping preamble in output

---
 tools/diff_codegen_nvfuser_tests.py | 3 +++
 1 file changed, 3 insertions(+)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 67641772b94..512ac204ef9 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -229,6 +229,9 @@ def to_dict(self):
         d["command"] = self.command
         d["exitcode"] = self.exit_code
         d["git"] = self.git_rev.to_dict()
+        # NOTE: including preamble can add 5-6MB to the file size.
+        # TODO: Optionally skip including the preamble in the report in order
+        # to reduce file size
         d["highlighted_preamble"] = highlight_code(self.preamble)
         return d
 

From 6f4373af3ff034bf7b518fcc1e4444bea037279e Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 20:35:52 -0400
Subject: [PATCH 09/39] Formatting

---
 tools/templates/codediff.html | 5 +++--
 1 file changed, 3 insertions(+), 2 deletions(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 4e88fad1792..230b2668047 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -140,11 +140,12 @@ <h3>New Tests</h3>
               {% set test_num = loop.index %}
               {% for code in test.highlighted_code %}
               Kernel {{loop.index}}
-              <button style="width: 60pt; box-shadow:none" onclick="toggleDiv('newtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
+              <button style="width: 60pt; box-shadow:none" onclick="toggleDiv('newtestcode_{{test_num}}_{{loop.index}}')">Code</button></span><br>
                 <div id="newtestcode_{{test_num}}_{{loop.index}}" style="display:none">
                     {{ code }}
                 </div>
               {% endfor %}
+              <br>
           {% endfor %}
         {% endif %}
 
@@ -155,7 +156,7 @@ <h3>Removed Tests</h3>
               {% set test_num = loop.index %}
               {% for code in test.highlighted_code %}
               Kernel {{loop.index}}
-              <button style="box-shadow:none" onclick="toggleDiv('removedtestcode_{{test_num}}_{{loop.index}}')">CODE</button></span><br>
+              <button style="box-shadow:none" onclick="toggleDiv('removedtestcode_{{test_num}}_{{loop.index}}')">Code</button></span><br>
                 <div id="removedtestcode_{{test_num}}_{{loop.index}}" style="display:none">
                     {{ code }}
                 </div>

From 8841b452a0ed2f20b5c19474a8d9972c7917f4fc Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 21:07:25 -0400
Subject: [PATCH 10/39] Add "Toggle All" buttons

---
 tools/templates/codediff.html | 54 +++++++++++++++++++++++++++++++++--
 1 file changed, 51 insertions(+), 3 deletions(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 230b2668047..78dfe162025 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -85,6 +85,45 @@
                 diff_div.style.display = "none";
             }
         }
+        function toggleAllNewTestCode() {
+            <!-- Turn off all code blocks -->
+            var all_divs = document.querySelectorAll('[id^="newtestcode_"]');
+            if (all_divs.length == 0) {
+                return;
+            }
+            var hidden = all_divs.item(0).style.display === "none";
+            all_divs.forEach((div) => {
+                div.style.display = hidden ? "block" : "none";
+            });
+        }
+        function toggleAllRemovedTestCode() {
+            <!-- Turn off all code blocks -->
+            var all_divs = document.querySelectorAll('[id^="removedtestcode_"]');
+            if (all_divs.length == 0) {
+                return;
+            }
+            var hidden = all_divs.item(0).style.display === "none";
+            all_divs.forEach((div) => {
+                div.style.display = hidden ? "block" : "none";
+            });
+        }
+        function toggleAllDiffs() {
+            <!-- Turn off all code blocks -->
+            document.querySelectorAll('[id^="oldcode_"]').forEach((div) => {
+                div.style.display = "none";
+            });
+            document.querySelectorAll('[id^="newcode_"]').forEach((div) => {
+                div.style.display = "none";
+            });
+            all_diff_divs = document.querySelectorAll('[id^="diff_"]');
+            if (all_diff_divs.length == 0) {
+                return;
+            }
+            var hidden = all_diff_divs.item(0).style.display === "none";
+            all_diff_divs.forEach((div) => {
+                div.style.display = hidden ? "block" : "none";
+            });
+        }
     </script>
     </head>
     <body>
@@ -135,11 +174,14 @@ <h2>Code comparison</h2>
 
         {% if new_tests|length > 0 %}
         <h3>New Tests</h3>
+
+        <button style="box-shadow:none" onclick="toggleAllNewTestCode()">Toggle All</button></span><br><br>
+
           {% for test in new_tests %}
           <span class="test_name"><b>{{test.name}}</b><br>
               {% set test_num = loop.index %}
               {% for code in test.highlighted_code %}
-              Kernel {{loop.index}}
+              &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{loop.index}}</span>
               <button style="width: 60pt; box-shadow:none" onclick="toggleDiv('newtestcode_{{test_num}}_{{loop.index}}')">Code</button></span><br>
                 <div id="newtestcode_{{test_num}}_{{loop.index}}" style="display:none">
                     {{ code }}
@@ -151,11 +193,14 @@ <h3>New Tests</h3>
 
         {% if removed_tests|length > 0 %}
         <h3>Removed Tests</h3>
+
+        <button style="box-shadow:none" onclick="toggleAllRemovedTestCode()">Toggle All</button></span><br><br>
+
           {% for test in removed_tests %}
           <span class="test_name"><b>{{test.name}}</b><br>
               {% set test_num = loop.index %}
               {% for code in test.highlighted_code %}
-              Kernel {{loop.index}}
+              &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{loop.index}}</span>
               <button style="box-shadow:none" onclick="toggleDiv('removedtestcode_{{test_num}}_{{loop.index}}')">Code</button></span><br>
                 <div id="removedtestcode_{{test_num}}_{{loop.index}}" style="display:none">
                     {{ code }}
@@ -165,12 +210,15 @@ <h3>Removed Tests</h3>
         {% endif %}
 
         <h3>Test Diffs</h3>
+
+        <button style="box-shadow:none" onclick="toggleAllDiffs()">Toggle All Diffs</button></span><br><br>
+
       {% for test in test_diffs %}
       <span class="test_name">{{loop.index}}: <b>{{test.name}}</b></span>
       <br>
           {% set outer_index = loop.index %}
           {% for kernel in test.kernels %}
-          &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 60pt">Kernel {{ kernel.number }}</span>
+          &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ kernel.number }}</span>
             <button style="box-shadow:none" onclick="toggleOldCode({{outer_index}}, {{loop.index}})">{{run1.git.abbrev}}</button></span>
             <button style="width: 60pt; box-shadow:none" onclick="toggleDiff({{outer_index}}, {{loop.index}})">Diff</button></span>
             <button style="box-shadow:none" onclick="toggleNewCode({{outer_index}}, {{loop.index}})">{{run2.git.abbrev}}</button></span><br>

From 9bc01188cc5a8b791be115a2e33310ef6b4e2c1b Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 21:08:40 -0400
Subject: [PATCH 11/39] Remove test script

---
 tools/templates/test_jinja_pygmentize.py | 245 -----------------------
 1 file changed, 245 deletions(-)
 delete mode 100644 tools/templates/test_jinja_pygmentize.py

diff --git a/tools/templates/test_jinja_pygmentize.py b/tools/templates/test_jinja_pygmentize.py
deleted file mode 100644
index 99c0fe17fbd..00000000000
--- a/tools/templates/test_jinja_pygmentize.py
+++ /dev/null
@@ -1,245 +0,0 @@
-import jinja2
-import pygments
-from pygments.lexers import CppLexer, DiffLexer
-from pygments.formatters import HtmlFormatter
-
-env = jinja2.Environment(loader=jinja2.FileSystemLoader(searchpath="."))
-template = env.get_template("codediff.html")
-
-# some lorem ipsum code and diff
-some_code = """
-__global__ void kernel1(Tensor<float, 4, 4> T0, Tensor<float, 4, 4> T1) {
-  alignas(16) extern __shared__ char array[];
-  const unsigned smem_offset = 0;
-  NVFUSER_DEFINE_MAGIC_ZERO;
-  nvfuser_index_t i0;
-  i0 = ceilDiv(T0.logical_size[3], 32);
-  nvfuser_index_t i1;
-  i1 = T0.logical_size[2] * i0;
-  nvfuser_index_t i2;
-  i2 = ((nvfuser_index_t)blockIdx.x) % i1;
-  nvfuser_index_t i3;
-  i3 = i2 / i0;
-  nvfuser_index_t i4;
-  i4 = i2 % i0;
-  nvfuser_index_t i5;
-  i5 = ((nvfuser_index_t)blockIdx.x) / i1;
-  nvfuser_index_t i6;
-  i6 = ((nvfuser_index_t)threadIdx.x) / 8;
-  nvfuser_index_t i7;
-  i7 = ((nvfuser_index_t)threadIdx.x) % 8;
-  nvfuser_index_t i8;
-  i8 = 32 * i4;
-  nvfuser_index_t i9;
-  i9 = 4 * i7;
-  nvfuser_index_t i10;
-  i10 = (((i9 + ((T0.logical_size[3] * T0.logical_size[2]) * i6)) + (((32 * T0.logical_size[3]) * T0.logical_size[2]) * i5)) + (T0.logical_size[3] * i3)) + i8;
-  nvfuser_index_t i11;
-  i11 = (16 * T0.logical_size[3]) * T0.logical_size[2];
-  nvfuser_index_t i12;
-  i12 = 4 * ((nvfuser_index_t)threadIdx.x);
-  nvfuser_index_t i13;
-  i13 = ((nvfuser_index_t)threadIdx.x) / 32;
-  nvfuser_index_t i14;
-  i14 = ((nvfuser_index_t)threadIdx.x) % 32;
-  nvfuser_index_t i15;
-  i15 = (32 * i14) + i13;
-  nvfuser_index_t i16;
-  i16 = T0.logical_size[1] * T0.logical_size[3];
-  nvfuser_index_t i17;
-  i17 = 32 * i5;
-  nvfuser_index_t i18;
-  i18 = i14 + i17;
-  nvfuser_index_t i19;
-  i19 = ((((T0.logical_size[1] * i13) + (i16 * i3)) + ((32 * T0.logical_size[1]) * i4)) + ((i16 * T0.logical_size[2]) * (i18 / T0.logical_size[1]))) + (i18 % T0.logical_size[1]);
-  nvfuser_index_t i20;
-  i20 = 4 * T0.logical_size[1];
-  nvfuser_index_t i21;
-  i21 = T0.logical_size[0] * T0.logical_size[1];
-  bool b22;
-  b22 = i18 < i21;
-  bool b23;
-  b23 = ((3 + i9) + i8) < T0.logical_size[3];
-  nvfuser_index_t i24;
-  i24 = ((-i21) + i6) + i17;
-  nvfuser_index_t i25;
-  i25 = ((-T0.logical_size[3]) + i13) + i8;
-  float* T2 = reinterpret_cast<float*>(array + smem_offset + 0);
-  if (((((((16 + i6) + i17) < i21) && ((((i7 * 4) + 3) + i8) < T0.logical_size[3])) && b22) && (((28 + i13) + i8) < T0.logical_size[3]))) {
-    #pragma unroll
-    for(nvfuser_index_t i26 = 0; i26 < 2; ++i26) {
-      loadGeneric<float, 4>( &T2[(i12 + (512 * i26))],  &T0[(i10 + (i11 * (i26 + nvfuser_zero)))]);
-    }
-    NVFUSER_UPDATE_MAGIC_ZERO;
-    float T3[8];
-    __barrier_sync(0);
-    #pragma unroll
-    for(nvfuser_index_t i27 = 0; i27 < 8; ++i27) {
-      T3[i27]
-         = T2[(i15 + (4 * i27))];
-    }
-    NVFUSER_UPDATE_MAGIC_ZERO;
-    #pragma unroll
-    for(nvfuser_index_t i28 = 0; i28 < 8; ++i28) {
-      T1[(i19 + (i20 * (i28 + nvfuser_zero)))]
-         = T3[i28];
-    }
-    NVFUSER_UPDATE_MAGIC_ZERO;
-  } else {
-    #pragma unroll
-    for(nvfuser_index_t i26 = 0; i26 < 2; ++i26) {
-      nvfuser_index_t i29;
-      i29 = i26 + nvfuser_zero;
-      if ((b23 && (i24 < (-(16 * i29))))) {
-        loadGeneric<float, 4>( &T2[(i12 + (512 * i26))],  &T0[(i10 + (i11 * i29))]);
-      }
-    }
-    NVFUSER_UPDATE_MAGIC_ZERO;
-    float T3[8];
-    __barrier_sync(0);
-    #pragma unroll
-    for(nvfuser_index_t i27 = 0; i27 < 8; ++i27) {
-      if ((b22 && (i25 < (-(4 * (i27 + nvfuser_zero)))))) {
-        T3[i27]
-           = T2[(i15 + (4 * i27))];
-      }
-    }
-    NVFUSER_UPDATE_MAGIC_ZERO;
-    #pragma unroll
-    for(nvfuser_index_t i28 = 0; i28 < 8; ++i28) {
-      nvfuser_index_t i30;
-      i30 = i28 + nvfuser_zero;
-      if ((b22 && (i25 < (-(4 * i30))))) {
-        T1[(i19 + (i20 * i30))]
-           = T3[i28];
-      }
-    }
-    NVFUSER_UPDATE_MAGIC_ZERO;
-  }
-}
-        """
-some_diff = """
-__global__ void kernel15(Tensor<float, 5, 5> T8, nvfuser_index_t i0, nvfuser_index_t i1, nvfuser_index_t i2, Tensor<float, 5, 5> T13, Tensor<float, 5, 5> T6) {
-   alignas(16) extern __shared__ char array[];
-   void* shared_mem = array;
-   NVFUSER_DEFINE_MAGIC_ZERO;
-   nvfuser_index_t i3;
-   i3 = 4 * ((nvfuser_index_t)threadIdx.x);
-   Tensor<float, 5, 5> s4;
-   s4.data = T8.data;
-   s4.logical_size = T8.logical_size;
-   s4.alloc_stride = T8.alloc_stride;
-   double d5;
--  d5 = (double)(i1);
-+  d5 = (double)(i0);
-   double d6;
--  d6 = (double)(i2);
-+  d6 = (double)(i1);
-   double d7;
-   d7 = (double)(0);
-   double d8;
-   d8 = (double)(0);
-   double d9;
-   d9 = (double)(0);
-   double d10;
--  d10 = (double)(i1);
-+  d10 = (double)(i0);
-   double d11;
--  d11 = (double)(i2);
-+  d11 = (double)(i1);
-   Array<nvfuser_index_t, 5, 1> a12;
-   a12 = s4.logical_size;
-   nvfuser_index_t i13;
-   i13 = a12[2];
-   nvfuser_index_t i14;
--  i14 = i3 + (((i1 * i2) * i13) * ((nvfuser_index_t)blockIdx.x));
-+  i14 = i3 + (((i0 * i1) * i13) * ((nvfuser_index_t)blockIdx.x));
-   nvfuser_index_t i15;
--  i15 = (i2 * i1) * i13;
-+  i15 = (i1 * i0) * i13;
-   nvfuser_index_t i16;
-   i16 = 4 * (ceilDiv((ceilDiv(i15, 4)), 7));
-   nvfuser_index_t i17;
-   i17 = (3 - i15) + i3;
-   bool b18;
-   b18 = ((nvfuser_index_t)threadIdx.x) == 0;
-   double d19;
-   d19 = (double)(i13);
-   double d20;
-   d20 = (double)(i13);
-   double d21;
-   d21 = 1.00000000000000000e+00 * d20;
-   double d22;
-   d22 = d21 * d11;
-   double d23;
-   d23 = d22 * d10;
-   double d24;
-   d24 = d23 - d9;
-   bool b25;
-   b25 = d24 >= d8;
-                    """
-
-template_vars = {
-    "pygments_style_defs": HtmlFormatter().get_style_defs(".highlight"),
-    "git1": {
-        "abbrev": "8fd1ff44",
-        "full_hash": "8fd144083db93d5f954b62b25f1c159947652691",
-        "pull_request": {
-            "title": "Wrap CompiledKernel in unique_ptr and add a proper destructor.",
-            "number": 968,
-        },
-        "author_name": "Jacob Hinkle",
-        "author_email": "jhinkle@nvidia.com",
-        "author_datetime": "Wed Sep 27 09:52:34 2023 -0400",
-        "title": "Merge remote-tracking branch 'origin/main' into scalar_seg_edges",
-    },
-    "git2": {
-        "abbrev": "877dc636",
-        "full_hash": "877dc63606d35d44a0320f927fdb83fd8168eaf9",
-        "pull_request": {
-            "title": "Visit extent scalars in SegmentCandidateFinder::resolveScalarsInGroup",
-            "number": 840,
-        },
-        "author_name": "Jacob Hinkle",
-        "author_email": "jhinkle@nvidia.com",
-        "author_datetime": "Wed Sep 27 07:26:54 2023 -0400",
-        "title": "Merge remote-tracking branch 'origin/main' into scalar_seg_edges",
-    },
-    "test_diffs": [
-        {
-            "name": "NVFuserTestFoo",
-            "kernels": [
-                {
-                    "kernel_num": 3,
-                    "highlighted_code1": pygments.highlight(
-                        some_code, CppLexer(), HtmlFormatter()
-                    ),
-                    "highlighted_code2": pygments.highlight(
-                        some_code, CppLexer(), HtmlFormatter()
-                    ),
-                    "highlighted_diff": pygments.highlight(
-                        some_diff, DiffLexer(), HtmlFormatter()
-                    ),
-                },
-            ],
-        },
-    ],
-    "new_tests": [
-        {
-            "name": "bat",
-            "highlighted_code": pygments.highlight(
-                some_code, CppLexer(), HtmlFormatter()
-            ),
-        },
-    ],
-    "removed_tests": [
-        {
-            "name": "baz",
-            "highlighted_code": pygments.highlight(
-                some_code, CppLexer(), HtmlFormatter()
-            ),
-        },
-    ],
-}
-
-print(template.render(template_vars))

From 18927a73fc3bbb787f67f61f3f9066c9cca77799 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Fri, 29 Sep 2023 21:09:40 -0400
Subject: [PATCH 12/39] Lint template using djlint

---
 tools/templates/codediff.html | 224 ++++++++++++++++++----------------
 1 file changed, 118 insertions(+), 106 deletions(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 78dfe162025..54630ac23a8 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -1,10 +1,8 @@
 <html>
     <head>
         <title>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</title>
-    <style>
-{{ pygments_style_defs }}
-    </style>
-    <script language="javascript">
+        <style>{{ pygments_style_defs }}</style>
+        <script language="javascript">
         function toggleDiv(divId) {
             var x = document.getElementById(divId);
             if (x.style.display === "none") {
@@ -124,115 +122,129 @@
                 div.style.display = hidden ? "block" : "none";
             });
         }
-    </script>
+        </script>
     </head>
     <body>
         <h1>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</h1>
-
         <h2>Git information</h2>
-
-        <h3>Old commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{run1.git.full_hash}}">{{ run1.git.abbrev }}</a></h3>
-        <span>{{ run1.git.title }}</span><br>
-        <span>{{ run1.git.author_name }}</span> &lt;<span>{{ run1.git.author_email }}&gt;</span><br>
-        <span>{{ run1.git.author_datetime }}</span><br>
-        <a href="https://github.com/NVIDIA/Fuser/commit/{{run1.git.full_hash}}">View commit</a><br>
-        <a href="https://github.com/NVIDIA/Fuser/tree/{{run1.git.full_hash}}">Browse code at this commit</a><br>
-
-        <h3>New commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{run2.git.full_hash}}">{{ run2.git.abbrev }}</a></h3>
-        <span>{{ run2.git.title }}</span><br>
-        <span>{{ run2.git.author_name }}</span> &lt;<span>{{ run2.git.author_email }}&gt;</span><br>
-        <span>{{ run2.git.author_datetime }}</span><br>
-        <a href="https://github.com/NVIDIA/Fuser/commit/{{run2.git.full_hash}}">View commit</a><br>
-        <a href="https://github.com/NVIDIA/Fuser/tree/{{run2.git.full_hash}}">Browse code at this commit</a><br>
-
-
+        <h3>
+            Old commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{ run1.git.full_hash }}">{{ run1.git.abbrev }}</a>
+        </h3>
+        <span>{{ run1.git.title }}</span>
+        <br>
+        <span>{{ run1.git.author_name }}</span> &lt;<span>{{ run1.git.author_email }}&gt;</span>
+        <br>
+        <span>{{ run1.git.author_datetime }}</span>
+        <br>
+        <a href="https://github.com/NVIDIA/Fuser/commit/{{ run1.git.full_hash }}">View commit</a>
+        <br>
+        <a href="https://github.com/NVIDIA/Fuser/tree/{{ run1.git.full_hash }}">Browse code at this commit</a>
+        <br>
+        <h3>
+            New commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{ run2.git.full_hash }}">{{ run2.git.abbrev }}</a>
+        </h3>
+        <span>{{ run2.git.title }}</span>
+        <br>
+        <span>{{ run2.git.author_name }}</span> &lt;<span>{{ run2.git.author_email }}&gt;</span>
+        <br>
+        <span>{{ run2.git.author_datetime }}</span>
+        <br>
+        <a href="https://github.com/NVIDIA/Fuser/commit/{{ run2.git.full_hash }}">View commit</a>
+        <br>
+        <a href="https://github.com/NVIDIA/Fuser/tree/{{ run2.git.full_hash }}">Browse code at this commit</a>
+        <br>
         <h2>Code comparison</h2>
-
         Command line: <code>{{ run1.command }}</code>
         <br>
         {% if run1.highlighted_preamble != run2.highlighted_preamble %}
-        Preamble differs between runs
-            <button style="box-shadow:none" onclick="toggleOldPreamble()">{{run1.git.abbrev}}</button></span>
-            <button style="width: 60pt; box-shadow:none" onclick="togglePreambleDiff()">Diff</button></span>
-            <button style="box-shadow:none" onclick="toggleNewPreamble()">{{run2.git.abbrev}}</button></span><br>
-            <div id="old_preamble" style="display:none">
-                {{ run1.highlighted_preamble }}
-            </div>
-            <div id="new_preamble" style="display:none">
-                {{ run1.highlighted_preamble }}
-            </div>
-            <div id="preamble_diff" style="display:none">
-                {{ highlighted_preamble_diff }}
-            </div>
-        {% else %}
-        Preamble matches between runs
-            <button style="box-shadow:none" onclick="toggleDiv('preamble')">Preamble</button></span><br>
-            <div id="preamble" style="display:none">
-                {{ run1.highlighted_preamble }}
-            </div>
-        {% endif %}
-
-        {% if new_tests|length > 0 %}
-        <h3>New Tests</h3>
-
-        <button style="box-shadow:none" onclick="toggleAllNewTestCode()">Toggle All</button></span><br><br>
-
-          {% for test in new_tests %}
-          <span class="test_name"><b>{{test.name}}</b><br>
-              {% set test_num = loop.index %}
-              {% for code in test.highlighted_code %}
-              &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{loop.index}}</span>
-              <button style="width: 60pt; box-shadow:none" onclick="toggleDiv('newtestcode_{{test_num}}_{{loop.index}}')">Code</button></span><br>
-                <div id="newtestcode_{{test_num}}_{{loop.index}}" style="display:none">
-                    {{ code }}
-                </div>
-              {% endfor %}
-              <br>
-          {% endfor %}
-        {% endif %}
-
-        {% if removed_tests|length > 0 %}
-        <h3>Removed Tests</h3>
-
-        <button style="box-shadow:none" onclick="toggleAllRemovedTestCode()">Toggle All</button></span><br><br>
-
-          {% for test in removed_tests %}
-          <span class="test_name"><b>{{test.name}}</b><br>
-              {% set test_num = loop.index %}
-              {% for code in test.highlighted_code %}
-              &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{loop.index}}</span>
-              <button style="box-shadow:none" onclick="toggleDiv('removedtestcode_{{test_num}}_{{loop.index}}')">Code</button></span><br>
-                <div id="removedtestcode_{{test_num}}_{{loop.index}}" style="display:none">
-                    {{ code }}
-                </div>
-              {% endfor %}
-          {% endfor %}
-        {% endif %}
-
-        <h3>Test Diffs</h3>
-
-        <button style="box-shadow:none" onclick="toggleAllDiffs()">Toggle All Diffs</button></span><br><br>
-
-      {% for test in test_diffs %}
-      <span class="test_name">{{loop.index}}: <b>{{test.name}}</b></span>
-      <br>
-          {% set outer_index = loop.index %}
-          {% for kernel in test.kernels %}
-          &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ kernel.number }}</span>
-            <button style="box-shadow:none" onclick="toggleOldCode({{outer_index}}, {{loop.index}})">{{run1.git.abbrev}}</button></span>
-            <button style="width: 60pt; box-shadow:none" onclick="toggleDiff({{outer_index}}, {{loop.index}})">Diff</button></span>
-            <button style="box-shadow:none" onclick="toggleNewCode({{outer_index}}, {{loop.index}})">{{run2.git.abbrev}}</button></span><br>
-            <div id="oldcode_{{outer_index}}_{{loop.index}}" style="display:none">
-                {{ kernel.highlighted_code1 }}
-            </div>
-            <div id="newcode_{{outer_index}}_{{loop.index}}" style="display:none">
-                {{ kernel.highlighted_code2 }}
-            </div>
-            <div id="diff_{{outer_index}}_{{loop.index}}" style="display:none">
-                {{ kernel.highlighted_diff }}
-            </div>
-        {% endfor %}
+            Preamble differs between runs
+            <button style="box-shadow:none" onclick="toggleOldPreamble()">{{ run1.git.abbrev }}</button>
+        </span>
+        <button style="width: 60pt; box-shadow:none" onclick="togglePreambleDiff()">Diff</button>
+    </span>
+    <button style="box-shadow:none" onclick="toggleNewPreamble()">{{ run2.git.abbrev }}</button>
+</span>
+<br>
+<div id="old_preamble" style="display:none">{{ run1.highlighted_preamble }}</div>
+<div id="new_preamble" style="display:none">{{ run1.highlighted_preamble }}</div>
+<div id="preamble_diff" style="display:none">{{ highlighted_preamble_diff }}</div>
+{% else %}
+Preamble matches between runs
+<button style="box-shadow:none" onclick="toggleDiv('preamble')">Preamble</button>
+</span>
+<br>
+<div id="preamble" style="display:none">{{ run1.highlighted_preamble }}</div>
+{% endif %}
+{% if new_tests|length > 0 %}
+    <h3>New Tests</h3>
+    <button style="box-shadow:none" onclick="toggleAllNewTestCode()">Toggle All</button>
+</span>
+<br>
+<br>
+{% for test in new_tests %}
+    <span class="test_name"><b>{{ test.name }}</b>
+        <br>
+        {% set test_num = loop.index %}
+        {% for code in test.highlighted_code %}
+            &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
+            <button style="width: 60pt;
+                           box-shadow:none"
+                    onclick="toggleDiv('newtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
+        </span>
+        <br>
+        <div id="newtestcode_{{ test_num }}_{{ loop.index }}" style="display:none">{{ code }}</div>
+    {% endfor %}
+    <br>
+{% endfor %}
+{% endif %}
+{% if removed_tests|length > 0 %}
+    <h3>Removed Tests</h3>
+    <button style="box-shadow:none" onclick="toggleAllRemovedTestCode()">Toggle All</button>
+</span>
+<br>
+<br>
+{% for test in removed_tests %}
+    <span class="test_name"><b>{{ test.name }}</b>
+        <br>
+        {% set test_num = loop.index %}
+        {% for code in test.highlighted_code %}
+            &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
+            <button style="box-shadow:none"
+                    onclick="toggleDiv('removedtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
+        </span>
         <br>
-      {% endfor %}
-    </body>
+        <div id="removedtestcode_{{ test_num }}_{{ loop.index }}"
+             style="display:none">{{ code }}</div>
+    {% endfor %}
+{% endfor %}
+{% endif %}
+<h3>Test Diffs</h3>
+<button style="box-shadow:none" onclick="toggleAllDiffs()">Toggle All Diffs</button>
+</span>
+<br>
+<br>
+{% for test in test_diffs %}
+    <span class="test_name">{{ loop.index }}: <b>{{ test.name }}</b></span>
+    <br>
+    {% set outer_index = loop.index %}
+    {% for kernel in test.kernels %}
+        &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ kernel.number }}</span>
+        <button style="box-shadow:none"
+                onclick="toggleOldCode({{ outer_index }}, {{ loop.index }})">{{ run1.git.abbrev }}</button>
+    </span>
+    <button style="width: 60pt;
+                   box-shadow:none"
+            onclick="toggleDiff({{ outer_index }}, {{ loop.index }})">Diff</button>
+</span>
+<button style="box-shadow:none"
+        onclick="toggleNewCode({{ outer_index }}, {{ loop.index }})">{{ run2.git.abbrev }}</button>
+</span>
+<br>
+<div id="oldcode_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_code1 }}</div>
+<div id="newcode_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_code2 }}</div>
+<div id="diff_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_diff }}</div>
+{% endfor %}
+<br>
+{% endfor %}
+</body>
 </html>

From 4a6bbd54f5df099ffcda36592b738880410f0944 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Sat, 30 Sep 2023 08:01:52 -0400
Subject: [PATCH 13/39] Use uninitialized members in dataclasses

---
 tools/diff_codegen_nvfuser_tests.py | 56 +++++++++++++----------------
 1 file changed, 25 insertions(+), 31 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 512ac204ef9..f0ace10ee22 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -12,7 +12,7 @@
 """
 
 from collections import OrderedDict
-from dataclasses import dataclass, field
+from dataclasses import dataclass, field, InitVar
 import difflib
 import os
 import re
@@ -22,27 +22,15 @@
 from typing import Union
 
 
-@dataclass
-class GitBranch:
-    name: str
-    # TODO: get the name of tracking branch
-    # tracking_branch
-
-    def __post_init__(self):
-        # TODO: find tracking branch for this branch
-        pass
-
-
 @dataclass
 class GitRev:
     abbrev: str
-    title: str = None
-    full_hash: str = None
-    in_branches: list[GitBranch] = field(default_factory=list)
-    author_name: str = None
-    author_email: str = None
-    author_time: datetime.time = None
-    commit_time: datetime.time = None
+    title: str = field(init=False)
+    full_hash: str = field(init=False)
+    author_name: str = field(init=False)
+    author_email: str = field(init=False)
+    author_time: datetime.time = field(init=False)
+    commit_time: datetime.time = field(init=False)
 
     def __post_init__(self):
         self.full_hash = (
@@ -118,20 +106,22 @@ def to_dict(self):
 @dataclass
 class TestRun:
     directory: str
-    git_rev: GitRev = None
-    run_name: str = None
-    command: str = None
-    exit_code: int = None
+    git_rev: GitRev = field(init=False)
+    run_name: str = field(init=False)
+    command: str = field(init=False)
+    exit_code: int = field(init=False)
     # map from name of test to list of kernel base filenames
-    kernel_map: dict[str, list[str]] = field(default_factory=dict)
+    kernel_map: dict[str, list[str]] = field(init=False)
     # collecting the preamble lets us skip it when diffing, and lets us compare
     # only the preamble between runs
-    preamble: str = None
+    preamble: str = field(init=False)
     # lets us seek past preamble
-    preamble_size_bytes: int = None
-    preamble_size_lines: int = None
+    preamble_size_bytes: int = field(init=False)
+    preamble_size_lines: int = field(init=False)
 
     def __post_init__(self):
+        self.run_name = os.path.basename(self.directory)
+
         # get description of this git rev
         abbrev = os.path.basename(os.path.dirname(os.path.abspath(self.directory)))
         self.git_rev = GitRev(abbrev)
@@ -178,6 +168,7 @@ def compute_kernel_map(self):
         ansi_re = re.compile(r"(\x9B|\x1B\[)[0-?]*[ -\/]*[@-~]")
         current_test = None
         current_files = []
+        self.kernel_map = {}
         for line in open(logfile, "r").readlines():
             line = ansi_re.sub("", line.strip())
             if line[:13] == "[ RUN      ] ":
@@ -299,12 +290,12 @@ def __setitem__(self, key, value):
 class TestDifferences:
     run1: TestRun
     run2: TestRun
-    # eitehr a list of diffs, or different numbers of kernels present
+    # either a list of diffs, or different numbers of kernels present
     differing_tests: LastUpdatedOrderedDict[
         str, Union[tuple[int, int], list[KernelDiff]]
-    ] = field(default_factory=LastUpdatedOrderedDict)
-    new_tests: list[str] = field(default_factory=list)
-    removed_tests: list[str] = field(default_factory=list)
+    ] = field(init=False)
+    new_tests: list[str] = field(init=False)
+    removed_tests: list[str] = field(init=False)
 
     def __post_init__(self):
         if self.run1.command != self.run2.command:
@@ -321,6 +312,9 @@ def __post_init__(self):
         if self.run1.preamble != self.run2.preamble:
             print("Preambles differ between runs indicating changes to runtime files")
 
+        self.differing_tests = {}
+        self.new_tests = []
+        self.removed_tests = []
         for testname, kernels1 in self.run1.kernel_map.items():
             if testname not in self.run2.kernel_map:
                 self.removed_tests.append(testname)

From e535015908de669e98c0f7e4d1ea74564fa04502 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Sat, 30 Sep 2023 14:10:33 -0400
Subject: [PATCH 14/39] Add PTX

---
 tools/diff_codegen_nvfuser_tests.py | 91 ++++++++++++++++++++++++++---
 1 file changed, 83 insertions(+), 8 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index f0ace10ee22..c93620c289d 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -12,14 +12,14 @@
 """
 
 from collections import OrderedDict
-from dataclasses import dataclass, field, InitVar
+from dataclasses import dataclass, field
 import difflib
 import os
 import re
 import subprocess
 import sys
 from datetime import datetime
-from typing import Union
+from typing import Optional
 
 
 @dataclass
@@ -103,6 +103,60 @@ def to_dict(self):
         }
 
 
+@dataclass
+class CompiledKernel:
+    filename: str
+    ptxas_info: Optional[str] = None
+    gmem_bytes: Optional[int] = None
+    smem_bytes: Optional[int] = None
+    # maps from constant memory bank to bytes
+    cmem_bank_to_bytes: Optional[dict[int, int]] = None
+    registers: Optional[int] = None
+    target_arch: Optional[str] = None
+    stack_frame_bytes: Optional[int] = None
+    spill_store_bytes: Optional[int] = None
+    spill_load_bytes: Optional[int] = None
+
+    def __post_init__(self):
+        self.parse_ptxas()
+
+    def parse_ptxas(self):
+        # Example input:
+        #
+        #   ptxas info    : 307 bytes gmem
+        #   ptxas info    : Compiling entry function '_ZN11CudaCodeGen7kernel1ENS_6TensorIfLi2ELi2EEES1_S1_' for 'sm_86'
+        #   ptxas info    : Function properties for _ZN11CudaCodeGen7kernel1ENS_6TensorIfLi2ELi2EEES1_S1_
+        #   ptxas         .     0 bytes stack frame, 0 bytes spill stores, 0 bytes spill loads
+        #   ptxas info    : Used 203 registers, 16 bytes smem, 472 bytes cmem[0], 8 bytes cmem[2]
+        #
+        # Here we parse this into the fields presented, and we replace the
+        # mangled kernel name since it includes the kernel number and is
+        # useless for the purposes of diffing since the kernel signature is
+        # already included.
+        if self.ptxas_info is None:
+            return
+
+        self.ptxas_info = re.sub(r"\b_Z.*\b", "[mangled kernel name]", self.ptxas_info)
+
+        def find_unique_int(pattern) -> Optional[int]:
+            g = re.search(r"(\d+) bytes gmem").groups()
+            return None if len(g) == 0 else int(g[0])
+
+        self.stack_frame_bytes = find_unique_int(r"(\d+) bytes stack frame")
+        self.spill_store_bytes = find_unique_int(r"(\d+) bytes spill stores")
+        self.spill_load_bytes = find_unique_int(r"(\d+) bytes spill loads")
+        self.registers = find_unique_int(r"(\d+) registers")
+        self.gmem_bytes = find_unique_int(r"(\d+) bytes gmem")
+        self.smem_bytes = find_unique_int(r"(\d+) bytes smem")
+
+        cmem = {}
+        for m in re.finditer(r"(\d+) bytes cmem\[(\d+)\]", self.ptxas_info):
+            nbytes, bank = m.groups()
+            cmem[bank] = nbytes
+        if len(cmem) != 0:
+            self.cmem_bank_to_bytes = cmem
+
+
 @dataclass
 class TestRun:
     directory: str
@@ -142,8 +196,6 @@ def __post_init__(self):
 
         self.find_preamble()
 
-        print("End of TestRun post_init")
-
     def compute_kernel_map(self):
         """
         Compute a map from test name to list of cuda filenames
@@ -183,7 +235,26 @@ def compute_kernel_map(self):
                 if line[-3:] == ".cu":
                     # This avoids comparing the .ptx files that are created then
                     # removed by the MemoryTest.LoadCache tests
-                    current_files.append(line[10:])
+                    current_files.append(CompiledKernel(line[10:]))
+            elif line[:6] == "ptxas ":
+                # NVFUSER_DUMP=ptxas_verbose corresponds to nvcc --ptxas-options=-v or --resources-usage
+                # This always prints after printing the cuda filename
+                # Example output:
+                # PRINTING: __tmp_kernel11.cu
+                #   ptxas info    : 307 bytes gmem
+                #   ptxas info    : Compiling entry function '_ZN11CudaCodeGen8kernel11ENS_6TensorIfLi2ELi2EEES1_S1_' for 'sm_86'
+                #   ptxas info    : Function properties for _ZN11CudaCodeGen8kernel11ENS_6TensorIfLi2ELi2EEES1_S1_
+                #   ptxas         .     0 bytes stack frame, 0 bytes spill stores, 0 bytes spill loads
+                #   ptxas info    : Used 14 registers, 472 bytes cmem[0]
+                #
+                # Here we parse hold this printout to use in the diff. We also attempt to parse it and store the information as best we can
+                if len(current_files) == 0:
+                    print("WARNING: Cannot associate ptxas info with CUDA kernel")
+                    continue
+                if current_files[-1].ptxas_info is None:
+                    current_files[-1].ptxas_info = line
+                else:
+                    current_files[-1].ptxas_info += line + "\n"
 
     def find_preamble(self):
         """Look for common preamble in collected kernels"""
@@ -228,10 +299,14 @@ def to_dict(self):
 
     def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
         """Get a string of the kernel, optionally stripping the preamble"""
-        basename = self.kernel_map[test_name][kernel_number]
+        kern = self.kernel_map[test_name][kernel_number]
+        basename = kern.filename
         fullname = os.path.join(self.directory, "cuda", basename)
+        code = ""
+        if kern.ptxas_info is not None:
+            for line in kern.ptxas_info.splitlines():
+                code += f"// {line}\n"
         with open(fullname, "r") as f:
-            code = ""
             for i, line in enumerate(f.readlines()):
                 if not strip_preamble or i >= self.preamble_size_lines:
                     # replace kernel934 with kernel1 to facilitate diffing
@@ -292,7 +367,7 @@ class TestDifferences:
     run2: TestRun
     # either a list of diffs, or different numbers of kernels present
     differing_tests: LastUpdatedOrderedDict[
-        str, Union[tuple[int, int], list[KernelDiff]]
+        str, tuple[int, int] | list[KernelDiff]
     ] = field(init=False)
     new_tests: list[str] = field(init=False)
     removed_tests: list[str] = field(init=False)

From 7a1ddba757a87473b06e4f566e82117145ce3884 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Mon, 2 Oct 2023 07:44:05 -0400
Subject: [PATCH 15/39] Remove ptxas from code diffs.

I will use this but not show it directly. Instead, I'll parse it and
show the info on each kernel line, along with possible index type change
and number of lines added/removed.
---
 tools/diff_codegen_nvfuser_tests.py | 90 ++++++++++++-----------------
 1 file changed, 36 insertions(+), 54 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index c93620c289d..2b07c803b89 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -18,8 +18,6 @@
 import re
 import subprocess
 import sys
-from datetime import datetime
-from typing import Optional
 
 
 @dataclass
@@ -29,8 +27,8 @@ class GitRev:
     full_hash: str = field(init=False)
     author_name: str = field(init=False)
     author_email: str = field(init=False)
-    author_time: datetime.time = field(init=False)
-    commit_time: datetime.time = field(init=False)
+    author_time: str = field(init=False)
+    commit_time: str = field(init=False)
 
     def __post_init__(self):
         self.full_hash = (
@@ -57,8 +55,6 @@ def __post_init__(self):
                 line = line[2:]
                 in_branches.append(line)
 
-        date_fmt = "%Y/%m/%d %H:%M:%S %z"
-
         def git_show(fmt) -> str:
             return (
                 subprocess.run(
@@ -67,7 +63,6 @@ def git_show(fmt) -> str:
                         "show",
                         "--no-patch",
                         f"--format={fmt}",
-                        f"--date=format:{date_fmt}",
                         self.full_hash,
                     ],
                     capture_output=True,
@@ -79,26 +74,17 @@ def git_show(fmt) -> str:
         self.title = git_show("%s")
         self.author_name = git_show("%an")
         self.author_email = git_show("%ae")
-
-        # Get date and time for this commit in datetime format
-        def get_datetime(time_str):
-            return datetime.strptime(time_str, date_fmt)
-
-        self.author_time = get_datetime(git_show("%ad"))
-        self.commit_time = get_datetime(git_show("%cd"))
+        self.author_time = git_show("%ad")
+        self.commit_time = git_show("%cd")
 
     def to_dict(self):
         return {
             "abbrev": self.abbrev,
             "full_hash": self.full_hash,
-            # TODO: detect PRs and add in this format
-            # "pull_request": {
-            #     "title": "Wrap CompiledKernel in unique_ptr and add a proper destructor.",
-            #     "number": 968,
-            # },
             "author_name": self.author_name,
             "author_email": self.author_email,
-            "author_datetime": str(self.author_time),
+            "author_time": str(self.author_time),
+            "commit_time": str(self.commit_time),
             "title": self.title,
         }
 
@@ -106,16 +92,16 @@ def to_dict(self):
 @dataclass
 class CompiledKernel:
     filename: str
-    ptxas_info: Optional[str] = None
-    gmem_bytes: Optional[int] = None
-    smem_bytes: Optional[int] = None
+    ptxas_info: str | None = None
+    gmem_bytes: int | None = None
+    smem_bytes: int | None = None
     # maps from constant memory bank to bytes
-    cmem_bank_to_bytes: Optional[dict[int, int]] = None
-    registers: Optional[int] = None
-    target_arch: Optional[str] = None
-    stack_frame_bytes: Optional[int] = None
-    spill_store_bytes: Optional[int] = None
-    spill_load_bytes: Optional[int] = None
+    cmem_bank_to_bytes: dict[int, int] | None = None
+    registers: int | None = None
+    target_arch: str | None = None
+    stack_frame_bytes: int | None = None
+    spill_store_bytes: int | None = None
+    spill_load_bytes: int | None = None
 
     def __post_init__(self):
         self.parse_ptxas()
@@ -138,7 +124,7 @@ def parse_ptxas(self):
 
         self.ptxas_info = re.sub(r"\b_Z.*\b", "[mangled kernel name]", self.ptxas_info)
 
-        def find_unique_int(pattern) -> Optional[int]:
+        def find_unique_int(pattern) -> int | None:
             g = re.search(r"(\d+) bytes gmem").groups()
             return None if len(g) == 0 else int(g[0])
 
@@ -169,8 +155,9 @@ class TestRun:
     # collecting the preamble lets us skip it when diffing, and lets us compare
     # only the preamble between runs
     preamble: str = field(init=False)
-    # lets us seek past preamble
-    preamble_size_bytes: int = field(init=False)
+    # The following lets us skip preamble when loading kernels. Note that the
+    # preamble can change length due to differing index types, so we can't rely
+    # on f.seek()
     preamble_size_lines: int = field(init=False)
 
     def __post_init__(self):
@@ -239,15 +226,6 @@ def compute_kernel_map(self):
             elif line[:6] == "ptxas ":
                 # NVFUSER_DUMP=ptxas_verbose corresponds to nvcc --ptxas-options=-v or --resources-usage
                 # This always prints after printing the cuda filename
-                # Example output:
-                # PRINTING: __tmp_kernel11.cu
-                #   ptxas info    : 307 bytes gmem
-                #   ptxas info    : Compiling entry function '_ZN11CudaCodeGen8kernel11ENS_6TensorIfLi2ELi2EEES1_S1_' for 'sm_86'
-                #   ptxas info    : Function properties for _ZN11CudaCodeGen8kernel11ENS_6TensorIfLi2ELi2EEES1_S1_
-                #   ptxas         .     0 bytes stack frame, 0 bytes spill stores, 0 bytes spill loads
-                #   ptxas info    : Used 14 registers, 472 bytes cmem[0]
-                #
-                # Here we parse hold this printout to use in the diff. We also attempt to parse it and store the information as best we can
                 if len(current_files) == 0:
                     print("WARNING: Cannot associate ptxas info with CUDA kernel")
                     continue
@@ -273,9 +251,8 @@ def find_preamble(self):
                         preamble_lines.append(line)
                     elif i >= len(preamble_lines) or preamble_lines[i] != line:
                         break
-                    self.preamble_size_bytes = f.tell()
                 preamble_lines = preamble_lines[:i]
-            if self.preamble_size_bytes == 0:
+            if len(preamble_lines) == 0:
                 # early return if preamble is determined to be empty
                 break
             first = False
@@ -303,9 +280,6 @@ def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
         basename = kern.filename
         fullname = os.path.join(self.directory, "cuda", basename)
         code = ""
-        if kern.ptxas_info is not None:
-            for line in kern.ptxas_info.splitlines():
-                code += f"// {line}\n"
         with open(fullname, "r") as f:
             for i, line in enumerate(f.readlines()):
                 if not strip_preamble or i >= self.preamble_size_lines:
@@ -319,19 +293,27 @@ def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
 
 
 def highlight_code(code) -> str:
-    import pygments
-    from pygments.formatters import HtmlFormatter
-    from pygments.lexers import CppLexer
+    try:
+        import pygments
+        from pygments.formatters import HtmlFormatter
+        from pygments.lexers import CppLexer
 
-    return pygments.highlight(code, CppLexer(), HtmlFormatter())
+        return pygments.highlight(code, CppLexer(), HtmlFormatter())
+    except ImportError:
+        # pygments is not required unless we are outputing HTML
+        return None
 
 
 def highlight_diff(diff) -> str:
-    import pygments
-    from pygments.formatters import HtmlFormatter
-    from pygments.lexers import DiffLexer
+    try:
+        import pygments
+        from pygments.formatters import HtmlFormatter
+        from pygments.lexers import DiffLexer
 
-    return pygments.highlight(diff, DiffLexer(), HtmlFormatter())
+        return pygments.highlight(diff, DiffLexer(), HtmlFormatter())
+    except ImportError:
+        # pygments is not required unless we are outputing HTML
+        return None
 
 
 @dataclass

From f30b11907fc304c3ccfa30827034adbe3d558957 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Mon, 2 Oct 2023 07:47:32 -0400
Subject: [PATCH 16/39] Don't print diffs to STDOUT by default

---
 tools/diff_codegen_nvfuser_tests.py | 12 ++++++++----
 1 file changed, 8 insertions(+), 4 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 2b07c803b89..8c060fa3749 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -12,7 +12,7 @@
 """
 
 from collections import OrderedDict
-from dataclasses import dataclass, field
+from dataclasses import dataclass, field, InitVar
 import difflib
 import os
 import re
@@ -325,7 +325,6 @@ class KernelDiff:
     diff: str
 
     def to_dict(self):
-        print("Highlighting diff of kernel", self.kernel_num, "in test", self.testname)
         return {
             "number": self.kernel_num,
             "highlighted_code1": highlight_code(self.code1),
@@ -353,8 +352,9 @@ class TestDifferences:
     ] = field(init=False)
     new_tests: list[str] = field(init=False)
     removed_tests: list[str] = field(init=False)
+    show_diffs: InitVar[bool] = False
 
-    def __post_init__(self):
+    def __post_init__(self, show_diffs: bool):
         if self.run1.command != self.run2.command:
             print("WARNING: commands differ between runs", file=sys.stderr)
             print(f"  {self.run1.directory}: {self.run1.command}", file=sys.stderr)
@@ -404,7 +404,8 @@ def __post_init__(self):
                     )
                 )
                 if len(diff_str) > 0:
-                    print(testname, kernel_num, diff_str)
+                    if show_diffs:
+                        print(testname, kernel_num, diff_str)
                     diff_obj = KernelDiff(testname, kernel_num, code1, code2, diff_str)
                     if testname in self.differing_tests:
                         self.differing_tests[testname].append(diff_obj)
@@ -506,6 +507,9 @@ def generate_html(self) -> str:
     parser.add_argument("dir1", help="Directory containing stdout-*.log and cuda/")
     parser.add_argument("dir2", help="Directory containing stdout-*.log and cuda/")
     parser.add_argument("--html", action="store_true", help="Write HTML file?")
+    parser.add_argument(
+        "--show-diffs", action="store_true", help="Print diffs to STDOUT?"
+    )
     parser.add_argument(
         "-o", "--output-file", help="Location of HTML file output if -h is given."
     )

From b098145aa7c2ea5735b9e8973d627d7c95bf31f6 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Mon, 2 Oct 2023 12:16:36 -0400
Subject: [PATCH 17/39] Add --max-diffs option (default=200)

---
 tools/diff_codegen_nvfuser_tests.py | 22 ++++++++++----
 tools/templates/codediff.html       | 47 ++++++++++++++++++-----------
 2 files changed, 46 insertions(+), 23 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 8c060fa3749..1ee356859d3 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -352,6 +352,7 @@ class TestDifferences:
     ] = field(init=False)
     new_tests: list[str] = field(init=False)
     removed_tests: list[str] = field(init=False)
+    total_num_diffs: int = field(init=False)
     show_diffs: InitVar[bool] = False
 
     def __post_init__(self, show_diffs: bool):
@@ -372,6 +373,7 @@ def __post_init__(self, show_diffs: bool):
         self.differing_tests = {}
         self.new_tests = []
         self.removed_tests = []
+        self.total_num_diffs = 0
         for testname, kernels1 in self.run1.kernel_map.items():
             if testname not in self.run2.kernel_map:
                 self.removed_tests.append(testname)
@@ -406,6 +408,7 @@ def __post_init__(self, show_diffs: bool):
                 if len(diff_str) > 0:
                     if show_diffs:
                         print(testname, kernel_num, diff_str)
+                    self.total_num_diffs += 1
                     diff_obj = KernelDiff(testname, kernel_num, code1, code2, diff_str)
                     if testname in self.differing_tests:
                         self.differing_tests[testname].append(diff_obj)
@@ -416,9 +419,6 @@ def __post_init__(self, show_diffs: bool):
             if testname not in self.run1.kernel_map:
                 self.new_tests.append(testname)
 
-    def __len__(self):
-        return len(self.differing_tests)
-
     def to_dict(self):
         """Convert to hierarchical dict format for use with jinja"""
         d = {}
@@ -482,9 +482,11 @@ def to_dict(self):
                 }
             )
 
+        d["total_num_diffs"] = self.total_num_diffs
+
         return d
 
-    def generate_html(self) -> str:
+    def generate_html(self, max_diffs) -> str:
         """Return a self-contained HTML string summarizing the codegen comparison"""
         import jinja2
         from pygments.formatters import HtmlFormatter
@@ -494,6 +496,7 @@ def generate_html(self) -> str:
         template = env.get_template("templates/codediff.html")
         context = self.to_dict()
         context["pygments_style_defs"] = HtmlFormatter().get_style_defs(".highlight")
+        context["max_diffs"] = max_diffs
 
         return template.render(context)
 
@@ -502,7 +505,8 @@ def generate_html(self) -> str:
     import argparse
 
     parser = argparse.ArgumentParser(
-        epilog="This command must be run from within a git checkout of the NVFuser repo."
+        epilog="This command must be run from within a git checkout of the NVFuser repo.",
+        formatter_class=argparse.ArgumentDefaultsHelpFormatter,
     )
     parser.add_argument("dir1", help="Directory containing stdout-*.log and cuda/")
     parser.add_argument("dir2", help="Directory containing stdout-*.log and cuda/")
@@ -510,6 +514,12 @@ def generate_html(self) -> str:
     parser.add_argument(
         "--show-diffs", action="store_true", help="Print diffs to STDOUT?"
     )
+    parser.add_argument(
+        "--max-diffs",
+        default=200,
+        type=int,
+        help="Limit number of included kernel diffs in HTML output to this many (does not affect exit code).",
+    )
     parser.add_argument(
         "-o", "--output-file", help="Location of HTML file output if -h is given."
     )
@@ -529,7 +539,7 @@ def get_abbrev(d):
             run_name = os.path.basename(os.path.abspath(args.dir1))
             output_file = f"codediff_{abbrev1}_{abbrev2}_{run_name}.html"
         with open(output_file, "w") as f:
-            f.write(test_diffs.generate_html())
+            f.write(test_diffs.generate_html(args.max_diffs))
 
     num_differing_kernels = 0
     for k, v in test_diffs.differing_tests.items():
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 54630ac23a8..1102c4566ed 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -223,28 +223,41 @@ <h3>Test Diffs</h3>
 </span>
 <br>
 <br>
+{% set loop_vars = namespace(total_diffs=0) %}
 {% for test in test_diffs %}
-    <span class="test_name">{{ loop.index }}: <b>{{ test.name }}</b></span>
-    <br>
-    {% set outer_index = loop.index %}
-    {% for kernel in test.kernels %}
-        &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ kernel.number }}</span>
+    {% if loop_vars.total_diffs < max_diffs %}
+        <span class="test_name">{{ loop.index }}: <b>{{ test.name }}</b></span>
+        <br>
+        {% set outer_index = loop.index %}
+        {% for kernel in test.kernels %}
+            {% if loop_vars.total_diffs == max_diffs + 1 %}
+                <br>
+                <b>WARNING: Only showing {{ max_diffs }} out of {{ total_num_diffs }}
+                    total modified kernels. To show more kernels pass a higher value in
+                    the <code>--max-diffs</code> argument to
+                    <code>tools/diff_codegen_nvfuser_tests.py</code>.</b>
+                <br>
+            {% elif loop_vars.total_diffs < max_diffs %}
+                &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ kernel.number }}</span>
+                <button style="box-shadow:none"
+                        onclick="toggleOldCode({{ outer_index }}, {{ loop.index }})">{{ run1.git.abbrev }}</button>
+            </span>
+            <button style="width: 60pt;
+                           box-shadow:none"
+                    onclick="toggleDiff({{ outer_index }}, {{ loop.index }})">Diff</button>
+        </span>
         <button style="box-shadow:none"
-                onclick="toggleOldCode({{ outer_index }}, {{ loop.index }})">{{ run1.git.abbrev }}</button>
+                onclick="toggleNewCode({{ outer_index }}, {{ loop.index }})">{{ run2.git.abbrev }}</button>
     </span>
-    <button style="width: 60pt;
-                   box-shadow:none"
-            onclick="toggleDiff({{ outer_index }}, {{ loop.index }})">Diff</button>
-</span>
-<button style="box-shadow:none"
-        onclick="toggleNewCode({{ outer_index }}, {{ loop.index }})">{{ run2.git.abbrev }}</button>
-</span>
-<br>
-<div id="oldcode_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_code1 }}</div>
-<div id="newcode_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_code2 }}</div>
-<div id="diff_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_diff }}</div>
+    <br>
+    <div id="oldcode_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_code1 }}</div>
+    <div id="newcode_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_code2 }}</div>
+    <div id="diff_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_diff }}</div>
+{% endif %}
+{% set loop_vars.total_diffs = loop_vars.total_diffs + 1 %}
 {% endfor %}
 <br>
+{% endif %}
 {% endfor %}
 </body>
 </html>

From 67a2e5f0cbdea8a02aea31d4cdacbbfdfcf0b788 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Mon, 2 Oct 2023 12:44:12 -0400
Subject: [PATCH 18/39] Highlight in client

This reduces file size considerably. The original 11MB uncompressed file is now
2.0MB.
---
 tools/diff_codegen_nvfuser_tests.py | 62 +++++++----------------------
 tools/templates/codediff.html       | 58 +++++++++++++++++++--------
 2 files changed, 56 insertions(+), 64 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 1ee356859d3..e5b759667cc 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -271,7 +271,7 @@ def to_dict(self):
         # NOTE: including preamble can add 5-6MB to the file size.
         # TODO: Optionally skip including the preamble in the report in order
         # to reduce file size
-        d["highlighted_preamble"] = highlight_code(self.preamble)
+        d["preamble"] = self.preamble
         return d
 
     def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
@@ -292,30 +292,6 @@ def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
         return code
 
 
-def highlight_code(code) -> str:
-    try:
-        import pygments
-        from pygments.formatters import HtmlFormatter
-        from pygments.lexers import CppLexer
-
-        return pygments.highlight(code, CppLexer(), HtmlFormatter())
-    except ImportError:
-        # pygments is not required unless we are outputing HTML
-        return None
-
-
-def highlight_diff(diff) -> str:
-    try:
-        import pygments
-        from pygments.formatters import HtmlFormatter
-        from pygments.lexers import DiffLexer
-
-        return pygments.highlight(diff, DiffLexer(), HtmlFormatter())
-    except ImportError:
-        # pygments is not required unless we are outputing HTML
-        return None
-
-
 @dataclass
 class KernelDiff:
     testname: str
@@ -327,9 +303,9 @@ class KernelDiff:
     def to_dict(self):
         return {
             "number": self.kernel_num,
-            "highlighted_code1": highlight_code(self.code1),
-            "highlighted_code2": highlight_code(self.code2),
-            "highlighted_diff": highlight_diff(self.diff),
+            "code1": self.code1,
+            "code2": self.code2,
+            "diff": self.diff,
         }
 
 
@@ -425,15 +401,13 @@ def to_dict(self):
         d["run1"] = self.run1.to_dict()
         d["run2"] = self.run2.to_dict()
 
-        d["highlighted_preamble_diff"] = highlight_diff(
-            "\n".join(
-                difflib.unified_diff(
-                    self.run1.preamble.splitlines(),
-                    self.run2.preamble.splitlines(),
-                    fromfile=self.run1.git_rev.abbrev,
-                    tofile=self.run2.git_rev.abbrev,
-                    n=5,
-                )
+        d["preamble_diff"] = "\n".join(
+            difflib.unified_diff(
+                self.run1.preamble.splitlines(),
+                self.run2.preamble.splitlines(),
+                fromfile=self.run1.git_rev.abbrev,
+                tofile=self.run2.git_rev.abbrev,
+                n=5,
             )
         )
 
@@ -455,14 +429,12 @@ def to_dict(self):
             kernels_code = []
             for i in range(len(self.run2.kernel_map[testname])):
                 kernels_code.append(
-                    highlight_code(
-                        self.run2.get_kernel(testname, i, strip_preamble=True)
-                    )
+                    self.run2.get_kernel(testname, i, strip_preamble=True)
                 )
             d["new_tests"].append(
                 {
                     "name": testname,
-                    "highlighted_code": kernels_code,
+                    "code": kernels_code,
                 }
             )
 
@@ -471,14 +443,12 @@ def to_dict(self):
             kernels_code = []
             for i in range(len(self.run1.kernel_map[testname])):
                 kernels_code.append(
-                    highlight_code(
-                        self.run1.get_kernel(testname, i, strip_preamble=True)
-                    )
+                    self.run1.get_kernel(testname, i, strip_preamble=True)
                 )
             d["removed_tests"].append(
                 {
                     "name": testname,
-                    "highlighted_code": kernels_code,
+                    "code": kernels_code,
                 }
             )
 
@@ -489,13 +459,11 @@ def to_dict(self):
     def generate_html(self, max_diffs) -> str:
         """Return a self-contained HTML string summarizing the codegen comparison"""
         import jinja2
-        from pygments.formatters import HtmlFormatter
 
         tools_dir = os.path.dirname(__file__)
         env = jinja2.Environment(loader=jinja2.FileSystemLoader(searchpath=tools_dir))
         template = env.get_template("templates/codediff.html")
         context = self.to_dict()
-        context["pygments_style_defs"] = HtmlFormatter().get_style_defs(".highlight")
         context["max_diffs"] = max_diffs
 
         return template.render(context)
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 1102c4566ed..3ee03c91178 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -2,6 +2,12 @@
     <head>
         <title>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</title>
         <style>{{ pygments_style_defs }}</style>
+        <link rel="stylesheet"
+              href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/styles/default.min.css">
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/highlight.min.js"></script>
+        <!-- and it's easy to individually load additional languages -->
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/languages/go.min.js"></script>
+        <script>hljs.highlightAll();</script>
         <script language="javascript">
         function toggleDiv(divId) {
             var x = document.getElementById(divId);
@@ -130,9 +136,9 @@ <h2>Git information</h2>
         <h3>
             Old commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{ run1.git.full_hash }}">{{ run1.git.abbrev }}</a>
         </h3>
-        <span>{{ run1.git.title }}</span>
+        <span>{{ run1.git.title|e }}</span>
         <br>
-        <span>{{ run1.git.author_name }}</span> &lt;<span>{{ run1.git.author_email }}&gt;</span>
+        <span>{{ run1.git.author_name|e }}</span> &lt;<span>{{ run1.git.author_email|e }}&gt;</span>
         <br>
         <span>{{ run1.git.author_datetime }}</span>
         <br>
@@ -143,9 +149,9 @@ <h3>
         <h3>
             New commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{ run2.git.full_hash }}">{{ run2.git.abbrev }}</a>
         </h3>
-        <span>{{ run2.git.title }}</span>
+        <span>{{ run2.git.title|e }}</span>
         <br>
-        <span>{{ run2.git.author_name }}</span> &lt;<span>{{ run2.git.author_email }}&gt;</span>
+        <span>{{ run2.git.author_name|e }}</span> &lt;<span>{{ run2.git.author_email|e }}&gt;</span>
         <br>
         <span>{{ run2.git.author_datetime }}</span>
         <br>
@@ -154,9 +160,9 @@ <h3>
         <a href="https://github.com/NVIDIA/Fuser/tree/{{ run2.git.full_hash }}">Browse code at this commit</a>
         <br>
         <h2>Code comparison</h2>
-        Command line: <code>{{ run1.command }}</code>
+        Command line: <code>{{ run1.command|e }}</code>
         <br>
-        {% if run1.highlighted_preamble != run2.highlighted_preamble %}
+        {% if run1.preamble != run2.preamble %}
             Preamble differs between runs
             <button style="box-shadow:none" onclick="toggleOldPreamble()">{{ run1.git.abbrev }}</button>
         </span>
@@ -165,15 +171,23 @@ <h2>Code comparison</h2>
     <button style="box-shadow:none" onclick="toggleNewPreamble()">{{ run2.git.abbrev }}</button>
 </span>
 <br>
-<div id="old_preamble" style="display:none">{{ run1.highlighted_preamble }}</div>
-<div id="new_preamble" style="display:none">{{ run1.highlighted_preamble }}</div>
-<div id="preamble_diff" style="display:none">{{ highlighted_preamble_diff }}</div>
+<div id="old_preamble" style="display:none">
+    <pre><code class="language-cpp">{{ run1.preamble|e }}</code></pre>
+</div>
+<div id="new_preamble" style="display:none">
+    <pre><code class="language-cpp">{{ run2.preamble|e }}</code></pre>
+</div>
+<div id="preamble_diff" style="display:none">
+    <pre><code class="language-diff">{{ preamble_diff|e }}</code></pre>
+</div>
 {% else %}
 Preamble matches between runs
 <button style="box-shadow:none" onclick="toggleDiv('preamble')">Preamble</button>
 </span>
 <br>
-<div id="preamble" style="display:none">{{ run1.highlighted_preamble }}</div>
+<div id="preamble" style="display:none">
+    <pre><code class="language-cpp">{{ run1.preamble|e }}</code></pre>
+</div>
 {% endif %}
 {% if new_tests|length > 0 %}
     <h3>New Tests</h3>
@@ -185,14 +199,16 @@ <h3>New Tests</h3>
     <span class="test_name"><b>{{ test.name }}</b>
         <br>
         {% set test_num = loop.index %}
-        {% for code in test.highlighted_code %}
+        {% for code in test.code %}
             &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
             <button style="width: 60pt;
                            box-shadow:none"
                     onclick="toggleDiv('newtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
         </span>
         <br>
-        <div id="newtestcode_{{ test_num }}_{{ loop.index }}" style="display:none">{{ code }}</div>
+        <div id="newtestcode_{{ test_num }}_{{ loop.index }}" style="display:none">
+            <pre><code class="language-cpp">{{ code|e }}</code></pre>
+        </div>
     {% endfor %}
     <br>
 {% endfor %}
@@ -207,14 +223,16 @@ <h3>Removed Tests</h3>
     <span class="test_name"><b>{{ test.name }}</b>
         <br>
         {% set test_num = loop.index %}
-        {% for code in test.highlighted_code %}
+        {% for code in test.code %}
             &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
             <button style="box-shadow:none"
                     onclick="toggleDiv('removedtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
         </span>
         <br>
         <div id="removedtestcode_{{ test_num }}_{{ loop.index }}"
-             style="display:none">{{ code }}</div>
+             style="display:none">
+            <pre><code class="language-cpp">{{ code|e }}</code></pre>
+        </div>
     {% endfor %}
 {% endfor %}
 {% endif %}
@@ -250,9 +268,15 @@ <h3>Test Diffs</h3>
                 onclick="toggleNewCode({{ outer_index }}, {{ loop.index }})">{{ run2.git.abbrev }}</button>
     </span>
     <br>
-    <div id="oldcode_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_code1 }}</div>
-    <div id="newcode_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_code2 }}</div>
-    <div id="diff_{{ outer_index }}_{{ loop.index }}" style="display:none">{{ kernel.highlighted_diff }}</div>
+    <div id="oldcode_{{ outer_index }}_{{ loop.index }}" style="display:none">
+        <pre><code class="language-cpp">{{ kernel.code1|e }}</code></pre>
+    </div>
+    <div id="newcode_{{ outer_index }}_{{ loop.index }}" style="display:none">
+        <pre><code class="language-cpp">{{ kernel.code2|e }}</code></pre>
+    </div>
+    <div id="diff_{{ outer_index }}_{{ loop.index }}" style="display:none">
+        <pre><code class="language-diff">{{ kernel.diff|e }}</code></pre>
+    </div>
 {% endif %}
 {% set loop_vars.total_diffs = loop_vars.total_diffs + 1 %}
 {% endfor %}

From 4ed7817fc8b8bff2650a41c23e896a027a7fa28c Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Mon, 2 Oct 2023 12:48:59 -0400
Subject: [PATCH 19/39] Add --html-omit-preamble option

---
 tools/diff_codegen_nvfuser_tests.py | 16 +++++++++---
 tools/templates/codediff.html       | 40 +++++++++++++++--------------
 2 files changed, 34 insertions(+), 22 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index e5b759667cc..7221dce1e79 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -456,7 +456,7 @@ def to_dict(self):
 
         return d
 
-    def generate_html(self, max_diffs) -> str:
+    def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
         """Return a self-contained HTML string summarizing the codegen comparison"""
         import jinja2
 
@@ -464,6 +464,7 @@ def generate_html(self, max_diffs) -> str:
         env = jinja2.Environment(loader=jinja2.FileSystemLoader(searchpath=tools_dir))
         template = env.get_template("templates/codediff.html")
         context = self.to_dict()
+        context["omit_preamble"] = omit_preamble
         context["max_diffs"] = max_diffs
 
         return template.render(context)
@@ -483,11 +484,16 @@ def generate_html(self, max_diffs) -> str:
         "--show-diffs", action="store_true", help="Print diffs to STDOUT?"
     )
     parser.add_argument(
-        "--max-diffs",
+        "--html-max-diffs",
         default=200,
         type=int,
         help="Limit number of included kernel diffs in HTML output to this many (does not affect exit code).",
     )
+    parser.add_argument(
+        "--html-omit-preamble",
+        action="store_true",
+        help="Omit the preamble in HTML output?",
+    )
     parser.add_argument(
         "-o", "--output-file", help="Location of HTML file output if -h is given."
     )
@@ -507,7 +513,11 @@ def get_abbrev(d):
             run_name = os.path.basename(os.path.abspath(args.dir1))
             output_file = f"codediff_{abbrev1}_{abbrev2}_{run_name}.html"
         with open(output_file, "w") as f:
-            f.write(test_diffs.generate_html(args.max_diffs))
+            f.write(
+                test_diffs.generate_html(
+                    omit_preamble=args.html_omit_preamble, max_diffs=args.html_max_diffs
+                )
+            )
 
     num_differing_kernels = 0
     for k, v in test_diffs.differing_tests.items():
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 3ee03c91178..35b430baa17 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -162,33 +162,35 @@ <h3>
         <h2>Code comparison</h2>
         Command line: <code>{{ run1.command|e }}</code>
         <br>
-        {% if run1.preamble != run2.preamble %}
-            Preamble differs between runs
-            <button style="box-shadow:none" onclick="toggleOldPreamble()">{{ run1.git.abbrev }}</button>
+        {% if not omit_preamble %}
+            {% if run1.preamble != run2.preamble %}
+                Preamble differs between runs
+                <button style="box-shadow:none" onclick="toggleOldPreamble()">{{ run1.git.abbrev }}</button>
+            </span>
+            <button style="width: 60pt; box-shadow:none" onclick="togglePreambleDiff()">Diff</button>
         </span>
-        <button style="width: 60pt; box-shadow:none" onclick="togglePreambleDiff()">Diff</button>
+        <button style="box-shadow:none" onclick="toggleNewPreamble()">{{ run2.git.abbrev }}</button>
     </span>
-    <button style="box-shadow:none" onclick="toggleNewPreamble()">{{ run2.git.abbrev }}</button>
-</span>
-<br>
-<div id="old_preamble" style="display:none">
-    <pre><code class="language-cpp">{{ run1.preamble|e }}</code></pre>
-</div>
-<div id="new_preamble" style="display:none">
-    <pre><code class="language-cpp">{{ run2.preamble|e }}</code></pre>
-</div>
-<div id="preamble_diff" style="display:none">
-    <pre><code class="language-diff">{{ preamble_diff|e }}</code></pre>
-</div>
+    <br>
+    <div id="old_preamble" style="display:none">
+        <pre><code class="language-cpp">{{ run1.preamble|e }}</code></pre>
+    </div>
+    <div id="new_preamble" style="display:none">
+        <pre><code class="language-cpp">{{ run2.preamble|e }}</code></pre>
+    </div>
+    <div id="preamble_diff" style="display:none">
+        <pre><code class="language-diff">{{ preamble_diff|e }}</code></pre>
+    </div>
 {% else %}
-Preamble matches between runs
-<button style="box-shadow:none" onclick="toggleDiv('preamble')">Preamble</button>
+    Preamble matches between runs
+    <button style="box-shadow:none" onclick="toggleDiv('preamble')">Preamble</button>
 </span>
 <br>
 <div id="preamble" style="display:none">
     <pre><code class="language-cpp">{{ run1.preamble|e }}</code></pre>
 </div>
 {% endif %}
+{% endif %}
 {% if new_tests|length > 0 %}
     <h3>New Tests</h3>
     <button style="box-shadow:none" onclick="toggleAllNewTestCode()">Toggle All</button>
@@ -252,7 +254,7 @@ <h3>Test Diffs</h3>
                 <br>
                 <b>WARNING: Only showing {{ max_diffs }} out of {{ total_num_diffs }}
                     total modified kernels. To show more kernels pass a higher value in
-                    the <code>--max-diffs</code> argument to
+                    the <code>--html-max-diffs</code> argument to
                     <code>tools/diff_codegen_nvfuser_tests.py</code>.</b>
                 <br>
             {% elif loop_vars.total_diffs < max_diffs %}

From 2f69df2c4bc97a54ffcd56f84f7b18a8d07b596a Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Mon, 2 Oct 2023 13:19:55 -0400
Subject: [PATCH 20/39] Load cpp and diff for highlighting

---
 tools/templates/codediff.html | 4 ++--
 1 file changed, 2 insertions(+), 2 deletions(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 35b430baa17..b8f552047cb 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -5,8 +5,8 @@
         <link rel="stylesheet"
               href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/styles/default.min.css">
         <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/highlight.min.js"></script>
-        <!-- and it's easy to individually load additional languages -->
-        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/languages/go.min.js"></script>
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/languages/cpp.min.js"></script>
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/languages/diff.min.js"></script>
         <script>hljs.highlightAll();</script>
         <script language="javascript">
         function toggleDiv(divId) {

From c2de705507e7614c950847e436212faf86a58769 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Mon, 2 Oct 2023 15:02:04 -0400
Subject: [PATCH 21/39] Use asdict() instead of custom to_dict

---
 tools/diff_codegen_nvfuser_tests.py | 260 ++++++++++------------------
 tools/templates/codediff.html       |  22 +--
 2 files changed, 105 insertions(+), 177 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 7221dce1e79..5afd0c2ac4a 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -11,8 +11,7 @@
             codegen_comparison/{$commit1,$commit2}/binary_tests
 """
 
-from collections import OrderedDict
-from dataclasses import dataclass, field, InitVar
+from dataclasses import asdict, dataclass, field, InitVar
 import difflib
 import os
 import re
@@ -77,21 +76,11 @@ def git_show(fmt) -> str:
         self.author_time = git_show("%ad")
         self.commit_time = git_show("%cd")
 
-    def to_dict(self):
-        return {
-            "abbrev": self.abbrev,
-            "full_hash": self.full_hash,
-            "author_name": self.author_name,
-            "author_email": self.author_email,
-            "author_time": str(self.author_time),
-            "commit_time": str(self.commit_time),
-            "title": self.title,
-        }
-
 
 @dataclass
 class CompiledKernel:
     filename: str
+    code: str | None = None
     ptxas_info: str | None = None
     gmem_bytes: int | None = None
     smem_bytes: int | None = None
@@ -143,15 +132,21 @@ def find_unique_int(pattern) -> int | None:
             self.cmem_bank_to_bytes = cmem
 
 
+@dataclass
+class CompiledTest:
+    name: str
+    kernels: list[CompiledKernel] | None = None
+
+
 @dataclass
 class TestRun:
     directory: str
-    git_rev: GitRev = field(init=False)
+    git: GitRev = field(init=False)
     run_name: str = field(init=False)
     command: str = field(init=False)
     exit_code: int = field(init=False)
     # map from name of test to list of kernel base filenames
-    kernel_map: dict[str, list[str]] = field(init=False)
+    kernel_map: dict[str, CompiledTest] = field(default_factory=dict)
     # collecting the preamble lets us skip it when diffing, and lets us compare
     # only the preamble between runs
     preamble: str = field(init=False)
@@ -165,7 +160,7 @@ def __post_init__(self):
 
         # get description of this git rev
         abbrev = os.path.basename(os.path.dirname(os.path.abspath(self.directory)))
-        self.git_rev = GitRev(abbrev)
+        self.git = GitRev(abbrev)
 
         self.command = open(os.path.join(self.directory, "command"), "r").read()
 
@@ -207,7 +202,6 @@ def compute_kernel_map(self):
         ansi_re = re.compile(r"(\x9B|\x1B\[)[0-?]*[ -\/]*[@-~]")
         current_test = None
         current_files = []
-        self.kernel_map = {}
         for line in open(logfile, "r").readlines():
             line = ansi_re.sub("", line.strip())
             if line[:13] == "[ RUN      ] ":
@@ -215,7 +209,9 @@ def compute_kernel_map(self):
             elif line[:13] == "[       OK ] ":
                 # Finalize test
                 assert current_test is not None
-                self.kernel_map[current_test] = current_files
+                self.kernel_map[current_test] = CompiledTest(
+                    current_test, current_files
+                )
                 current_test = None
                 current_files = []
             elif line[:10] == "PRINTING: ":
@@ -262,60 +258,40 @@ def find_preamble(self):
         self.preamble_size_lines = len(preamble_lines)
         self.preamble = "\n".join(preamble_lines)
 
-    def to_dict(self):
-        d = {}
-        d["name"] = self.run_name
-        d["command"] = self.command
-        d["exitcode"] = self.exit_code
-        d["git"] = self.git_rev.to_dict()
-        # NOTE: including preamble can add 5-6MB to the file size.
-        # TODO: Optionally skip including the preamble in the report in order
-        # to reduce file size
-        d["preamble"] = self.preamble
-        return d
-
-    def get_kernel(self, test_name, kernel_number, strip_preamble=True) -> str:
+    def get_kernel(
+        self, test_name, kernel_number, strip_preamble=True
+    ) -> CompiledKernel:
         """Get a string of the kernel, optionally stripping the preamble"""
-        kern = self.kernel_map[test_name][kernel_number]
+        kern = self.kernel_map[test_name].kernels[kernel_number]
         basename = kern.filename
         fullname = os.path.join(self.directory, "cuda", basename)
-        code = ""
+        kern.code = ""
         with open(fullname, "r") as f:
             for i, line in enumerate(f.readlines()):
                 if not strip_preamble or i >= self.preamble_size_lines:
                     # replace kernel934 with kernel1 to facilitate diffing
-                    code += re.sub(r"\bkernel\d+\b", "kernelN", line)
-        code = code.rstrip()
-        if strip_preamble and code[-1] == "}":
+                    kern.code += re.sub(r"\bkernel\d+\b", "kernelN", line)
+        kern.code = kern.code.rstrip()
+        if strip_preamble and kern.code[-1] == "}":
             # trailing curly brace is close of namespace. This will clean it up so that we have just the kernel
-            code = code[:-1].rstrip()
-        return code
+            kern.code = kern.code[:-1].rstrip()
+        return kern
 
 
 @dataclass
 class KernelDiff:
     testname: str
     kernel_num: int
-    code1: str
-    code2: str
+    kernel1: CompiledKernel
+    kernel2: CompiledKernel
     diff: str
 
-    def to_dict(self):
-        return {
-            "number": self.kernel_num,
-            "code1": self.code1,
-            "code2": self.code2,
-            "diff": self.diff,
-        }
 
-
-# Lets us maintain test order
-class LastUpdatedOrderedDict(OrderedDict):
-    """Just an ordered dict with insertion at the end"""
-
-    def __setitem__(self, key, value):
-        super().__setitem__(key, value)
-        self.move_to_end(key)
+@dataclass
+class TestDiff:
+    testname: str
+    kernel_diffs: list[KernelDiff] | None = None
+    kernel_number_mismatch: tuple[int, int] | None = None
 
 
 @dataclass
@@ -323,13 +299,12 @@ class TestDifferences:
     run1: TestRun
     run2: TestRun
     # either a list of diffs, or different numbers of kernels present
-    differing_tests: LastUpdatedOrderedDict[
-        str, tuple[int, int] | list[KernelDiff]
-    ] = field(init=False)
-    new_tests: list[str] = field(init=False)
-    removed_tests: list[str] = field(init=False)
-    total_num_diffs: int = field(init=False)
+    test_diffs: list[TestDiff] = field(default_factory=list)
+    new_tests: list[CompiledTest] = field(default_factory=list)
+    removed_tests: list[CompiledTest] = field(default_factory=list)
+    total_num_diffs: int = 0
     show_diffs: InitVar[bool] = False
+    preamble_diff: str = field(init=False)
 
     def __post_init__(self, show_diffs: bool):
         if self.run1.command != self.run2.command:
@@ -343,41 +318,55 @@ def __post_init__(self, show_diffs: bool):
                 file=sys.stderr,
             )
 
-        if self.run1.preamble != self.run2.preamble:
+        self.preamble_diff = "\n".join(
+            difflib.unified_diff(
+                self.run1.preamble.splitlines(),
+                self.run2.preamble.splitlines(),
+                fromfile=self.run1.git.abbrev,
+                tofile=self.run2.git.abbrev,
+                n=5,
+            )
+        )
+        if len(self.preamble_diff) > 0:
             print("Preambles differ between runs indicating changes to runtime files")
 
-        self.differing_tests = {}
-        self.new_tests = []
-        self.removed_tests = []
-        self.total_num_diffs = 0
-        for testname, kernels1 in self.run1.kernel_map.items():
+        for testname, compiled_test1 in self.run1.kernel_map.items():
             if testname not in self.run2.kernel_map:
-                self.removed_tests.append(testname)
+                compiled_test1.kernels = [
+                    self.run1.get_kernel(testname, i)
+                    for i in range(len(compiled_test1.kernels))
+                ]
+                self.removed_tests.append(compiled_test1)
                 continue
 
-            kernels2 = self.run2.kernel_map[testname]
+            compiled_test2 = self.run2.kernel_map[testname]
 
-            if len(kernels1) != len(kernels2):
+            if len(compiled_test1.kernels) != len(compiled_test2.kernels):
                 print(
                     f"WARNING: Test {testname} has different number of kernels "
                     f"in {dir1} than in {dir2}. Not showing diffs for this test.",
                     file=sys.stderr,
                 )
-                self.differing_tests[testname] = (len(kernels1), len(kernels2))
-
-            for kernel_num in range(len(kernels1)):
-                code1 = self.run1.get_kernel(testname, kernel_num, strip_preamble=True)
-                code2 = self.run2.get_kernel(testname, kernel_num, strip_preamble=True)
+                self.test_diffs.append(
+                    TestDiff(
+                        testname,
+                        None,
+                        len(compiled_test1.kernels),
+                        len(compiled_test2.kernels),
+                    )
+                )
 
-                lines1 = code1.splitlines()
-                lines2 = code2.splitlines()
+            kernel_diffs = []
+            for kernel_num in range(len(compiled_test1.kernels)):
+                kern1 = self.run1.get_kernel(testname, kernel_num, strip_preamble=True)
+                kern2 = self.run2.get_kernel(testname, kernel_num, strip_preamble=True)
 
                 diff_str = "\n".join(
                     difflib.unified_diff(
-                        lines1,
-                        lines2,
-                        fromfile=self.run1.git_rev.abbrev,
-                        tofile=self.run2.git_rev.abbrev,
+                        kern1.code.splitlines(),
+                        kern2.code.splitlines(),
+                        fromfile=self.run1.git.abbrev,
+                        tofile=self.run2.git.abbrev,
                         n=5,
                     )
                 )
@@ -385,76 +374,20 @@ def __post_init__(self, show_diffs: bool):
                     if show_diffs:
                         print(testname, kernel_num, diff_str)
                     self.total_num_diffs += 1
-                    diff_obj = KernelDiff(testname, kernel_num, code1, code2, diff_str)
-                    if testname in self.differing_tests:
-                        self.differing_tests[testname].append(diff_obj)
-                    else:
-                        self.differing_tests[testname] = [diff_obj]
-
-        for testname, kernels2 in self.run2.kernel_map.items():
-            if testname not in self.run1.kernel_map:
-                self.new_tests.append(testname)
-
-    def to_dict(self):
-        """Convert to hierarchical dict format for use with jinja"""
-        d = {}
-        d["run1"] = self.run1.to_dict()
-        d["run2"] = self.run2.to_dict()
-
-        d["preamble_diff"] = "\n".join(
-            difflib.unified_diff(
-                self.run1.preamble.splitlines(),
-                self.run2.preamble.splitlines(),
-                fromfile=self.run1.git_rev.abbrev,
-                tofile=self.run2.git_rev.abbrev,
-                n=5,
-            )
-        )
-
-        d["test_diffs"] = []
-        for testname, diffs in self.differing_tests.items():
-            if isinstance(diffs, tuple):
-                # differing numbers of kernels produced by this test
-                d["test_diffs"].append(diffs)
-            else:
-                d["test_diffs"].append(
-                    {
-                        "name": testname,
-                        "kernels": [di.to_dict() for di in diffs],
-                    }
-                )
-
-        d["new_tests"] = []
-        for testname in self.new_tests:
-            kernels_code = []
-            for i in range(len(self.run2.kernel_map[testname])):
-                kernels_code.append(
-                    self.run2.get_kernel(testname, i, strip_preamble=True)
-                )
-            d["new_tests"].append(
-                {
-                    "name": testname,
-                    "code": kernels_code,
-                }
-            )
-
-        d["removed_tests"] = []
-        for testname in self.removed_tests:
-            kernels_code = []
-            for i in range(len(self.run1.kernel_map[testname])):
-                kernels_code.append(
-                    self.run1.get_kernel(testname, i, strip_preamble=True)
-                )
-            d["removed_tests"].append(
-                {
-                    "name": testname,
-                    "code": kernels_code,
-                }
-            )
+                    kernel_diffs.append(
+                        KernelDiff(testname, kernel_num, kern1, kern2, diff_str)
+                    )
 
-        d["total_num_diffs"] = self.total_num_diffs
+            if len(kernel_diffs) > 0:
+                self.test_diffs.append(TestDiff(testname, kernel_diffs))
 
-        return d
+        for testname, compiled_test2 in self.run2.kernel_map.items():
+            if testname not in self.run1.kernel_map:
+                compiled_test2.kernels = [
+                    self.run2.get_kernel(testname, i)
+                    for i in range(len(compiled_test2.kernels))
+                ]
+                self.new_tests.append(compiled_test2)
 
     def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
         """Return a self-contained HTML string summarizing the codegen comparison"""
@@ -463,7 +396,7 @@ def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
         tools_dir = os.path.dirname(__file__)
         env = jinja2.Environment(loader=jinja2.FileSystemLoader(searchpath=tools_dir))
         template = env.get_template("templates/codediff.html")
-        context = self.to_dict()
+        context = asdict(self)
         context["omit_preamble"] = omit_preamble
         context["max_diffs"] = max_diffs
 
@@ -499,7 +432,7 @@ def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
     )
     args = parser.parse_args()
 
-    test_diffs = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
+    td = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
 
     if args.html:
         output_file = args.output_file
@@ -514,28 +447,23 @@ def get_abbrev(d):
             output_file = f"codediff_{abbrev1}_{abbrev2}_{run_name}.html"
         with open(output_file, "w") as f:
             f.write(
-                test_diffs.generate_html(
+                td.generate_html(
                     omit_preamble=args.html_omit_preamble, max_diffs=args.html_max_diffs
                 )
             )
 
-    num_differing_kernels = 0
-    for k, v in test_diffs.differing_tests.items():
-        if isinstance(v, list):
-            num_differing_kernels += len(v)
-
-    if len(test_diffs.differing_tests) == 0:
+    if len(td.test_diffs) == 0:
         print("No differences found in overlapping tests!")
     else:
         print(
-            num_differing_kernels,
-            "from",
-            len(test_diffs.differing_tests),
+            td.total_num_diffs,
+            "kernel differences from",
+            len(td.test_diffs),
             "tests found",
         )
-    if len(test_diffs.new_tests) > 0:
-        print(len(test_diffs.new_tests), "new tests found")
-    if len(test_diffs.removed_tests) > 0:
-        print(len(test_diffs.removed_tests), "removed tests found")
+    if len(td.new_tests) > 0:
+        print(len(td.new_tests), "new tests found")
+    if len(td.removed_tests) > 0:
+        print(len(td.removed_tests), "removed tests found")
 
-    exit(len(test_diffs.differing_tests))
+    exit(len(td.test_diffs))
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index b8f552047cb..c9d6988c0df 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -140,7 +140,7 @@ <h3>
         <br>
         <span>{{ run1.git.author_name|e }}</span> &lt;<span>{{ run1.git.author_email|e }}&gt;</span>
         <br>
-        <span>{{ run1.git.author_datetime }}</span>
+        <span>{{ run1.git.author_time }}</span>
         <br>
         <a href="https://github.com/NVIDIA/Fuser/commit/{{ run1.git.full_hash }}">View commit</a>
         <br>
@@ -153,7 +153,7 @@ <h3>
         <br>
         <span>{{ run2.git.author_name|e }}</span> &lt;<span>{{ run2.git.author_email|e }}&gt;</span>
         <br>
-        <span>{{ run2.git.author_datetime }}</span>
+        <span>{{ run2.git.author_time }}</span>
         <br>
         <a href="https://github.com/NVIDIA/Fuser/commit/{{ run2.git.full_hash }}">View commit</a>
         <br>
@@ -201,7 +201,7 @@ <h3>New Tests</h3>
     <span class="test_name"><b>{{ test.name }}</b>
         <br>
         {% set test_num = loop.index %}
-        {% for code in test.code %}
+        {% for kernel in test.kernels %}
             &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
             <button style="width: 60pt;
                            box-shadow:none"
@@ -209,7 +209,7 @@ <h3>New Tests</h3>
         </span>
         <br>
         <div id="newtestcode_{{ test_num }}_{{ loop.index }}" style="display:none">
-            <pre><code class="language-cpp">{{ code|e }}</code></pre>
+            <pre><code class="language-cpp">{{ kernel.code|e }}</code></pre>
         </div>
     {% endfor %}
     <br>
@@ -225,7 +225,7 @@ <h3>Removed Tests</h3>
     <span class="test_name"><b>{{ test.name }}</b>
         <br>
         {% set test_num = loop.index %}
-        {% for code in test.code %}
+        {% for kernel in test.kernels %}
             &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
             <button style="box-shadow:none"
                     onclick="toggleDiv('removedtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
@@ -233,7 +233,7 @@ <h3>Removed Tests</h3>
         <br>
         <div id="removedtestcode_{{ test_num }}_{{ loop.index }}"
              style="display:none">
-            <pre><code class="language-cpp">{{ code|e }}</code></pre>
+            <pre><code class="language-cpp">{{ kernel.code|e }}</code></pre>
         </div>
     {% endfor %}
 {% endfor %}
@@ -249,7 +249,7 @@ <h3>Test Diffs</h3>
         <span class="test_name">{{ loop.index }}: <b>{{ test.name }}</b></span>
         <br>
         {% set outer_index = loop.index %}
-        {% for kernel in test.kernels %}
+        {% for kernel_diff in test.kernel_diffs %}
             {% if loop_vars.total_diffs == max_diffs + 1 %}
                 <br>
                 <b>WARNING: Only showing {{ max_diffs }} out of {{ total_num_diffs }}
@@ -258,7 +258,7 @@ <h3>Test Diffs</h3>
                     <code>tools/diff_codegen_nvfuser_tests.py</code>.</b>
                 <br>
             {% elif loop_vars.total_diffs < max_diffs %}
-                &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ kernel.number }}</span>
+                &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ kernel_diff.kernel_num }}</span>
                 <button style="box-shadow:none"
                         onclick="toggleOldCode({{ outer_index }}, {{ loop.index }})">{{ run1.git.abbrev }}</button>
             </span>
@@ -271,13 +271,13 @@ <h3>Test Diffs</h3>
     </span>
     <br>
     <div id="oldcode_{{ outer_index }}_{{ loop.index }}" style="display:none">
-        <pre><code class="language-cpp">{{ kernel.code1|e }}</code></pre>
+        <pre><code class="language-cpp">{{ kernel_diff.kernel1.code|e }}</code></pre>
     </div>
     <div id="newcode_{{ outer_index }}_{{ loop.index }}" style="display:none">
-        <pre><code class="language-cpp">{{ kernel.code2|e }}</code></pre>
+        <pre><code class="language-cpp">{{ kernel_diff.kernel2.code|e }}</code></pre>
     </div>
     <div id="diff_{{ outer_index }}_{{ loop.index }}" style="display:none">
-        <pre><code class="language-diff">{{ kernel.diff|e }}</code></pre>
+        <pre><code class="language-diff">{{ kernel_diff.diff|e }}</code></pre>
     </div>
 {% endif %}
 {% set loop_vars.total_diffs = loop_vars.total_diffs + 1 %}

From 2c6fcb1843e38dbf1ff10608be4e0d77f00a38ad Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Mon, 2 Oct 2023 19:46:58 -0400
Subject: [PATCH 22/39] Output LOC, index type, and ptxas info

---
 tools/diff_codegen_nvfuser_tests.py | 89 +++++++++++++++++++----------
 tools/templates/codediff.html       | 48 +++++++++++++++-
 2 files changed, 104 insertions(+), 33 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 5afd0c2ac4a..cf995741c62 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -84,13 +84,13 @@ class CompiledKernel:
     ptxas_info: str | None = None
     gmem_bytes: int | None = None
     smem_bytes: int | None = None
-    # maps from constant memory bank to bytes
-    cmem_bank_to_bytes: dict[int, int] | None = None
+    cmem_bank_bytes: list[int] | None = None
     registers: int | None = None
     target_arch: str | None = None
     stack_frame_bytes: int | None = None
     spill_store_bytes: int | None = None
     spill_load_bytes: int | None = None
+    index_type: str | None = None
 
     def __post_init__(self):
         self.parse_ptxas()
@@ -114,8 +114,8 @@ def parse_ptxas(self):
         self.ptxas_info = re.sub(r"\b_Z.*\b", "[mangled kernel name]", self.ptxas_info)
 
         def find_unique_int(pattern) -> int | None:
-            g = re.search(r"(\d+) bytes gmem").groups()
-            return None if len(g) == 0 else int(g[0])
+            m = re.search(pattern, self.ptxas_info)
+            return None if m is None else int(m.groups()[0])
 
         self.stack_frame_bytes = find_unique_int(r"(\d+) bytes stack frame")
         self.spill_store_bytes = find_unique_int(r"(\d+) bytes spill stores")
@@ -124,12 +124,13 @@ def find_unique_int(pattern) -> int | None:
         self.gmem_bytes = find_unique_int(r"(\d+) bytes gmem")
         self.smem_bytes = find_unique_int(r"(\d+) bytes smem")
 
-        cmem = {}
+        self.cmem_bank_bytes = []
         for m in re.finditer(r"(\d+) bytes cmem\[(\d+)\]", self.ptxas_info):
-            nbytes, bank = m.groups()
-            cmem[bank] = nbytes
-        if len(cmem) != 0:
-            self.cmem_bank_to_bytes = cmem
+            nbytes_str, bank_str = m.groups()
+            bank = int(bank_str)
+            if len(self.cmem_bank_bytes) <= bank:
+                self.cmem_bank_bytes += [0] * (bank + 1 - len(self.cmem_bank_bytes))
+            self.cmem_bank_bytes[bank] = int(nbytes_str)
 
 
 @dataclass
@@ -202,33 +203,45 @@ def compute_kernel_map(self):
         ansi_re = re.compile(r"(\x9B|\x1B\[)[0-?]*[ -\/]*[@-~]")
         current_test = None
         current_files = []
+        ptxas_info = ""
+        kernels = []
+
+        def finalize_kernel():
+            nonlocal ptxas_info
+            if len(current_files) > 0:
+                kernels.append(CompiledKernel(current_files[-1], ptxas_info=ptxas_info))
+            ptxas_info = ""
+
+        def finalize_test():
+            nonlocal current_test
+            nonlocal kernels
+            assert current_test is not None
+            finalize_kernel()
+            if len(current_files) > 0:
+                kernels.append(CompiledKernel(current_files[-1], ptxas_info=ptxas_info))
+                self.kernel_map[current_test] = CompiledTest(current_test, kernels)
+                current_test = None
+                kernels = []
+
         for line in open(logfile, "r").readlines():
             line = ansi_re.sub("", line.strip())
             if line[:13] == "[ RUN      ] ":
                 current_test = line[13:]
             elif line[:13] == "[       OK ] ":
-                # Finalize test
-                assert current_test is not None
-                self.kernel_map[current_test] = CompiledTest(
-                    current_test, current_files
-                )
-                current_test = None
-                current_files = []
+                finalize_test()
             elif line[:10] == "PRINTING: ":
                 if line[-3:] == ".cu":
+                    finalize_kernel()
                     # This avoids comparing the .ptx files that are created then
                     # removed by the MemoryTest.LoadCache tests
-                    current_files.append(CompiledKernel(line[10:]))
+                    current_files.append(line[10:])
             elif line[:6] == "ptxas ":
                 # NVFUSER_DUMP=ptxas_verbose corresponds to nvcc --ptxas-options=-v or --resources-usage
                 # This always prints after printing the cuda filename
                 if len(current_files) == 0:
                     print("WARNING: Cannot associate ptxas info with CUDA kernel")
                     continue
-                if current_files[-1].ptxas_info is None:
-                    current_files[-1].ptxas_info = line
-                else:
-                    current_files[-1].ptxas_info += line + "\n"
+                ptxas_info += line + "\n"
 
     def find_preamble(self):
         """Look for common preamble in collected kernels"""
@@ -242,7 +255,7 @@ def find_preamble(self):
                     line = line.rstrip()
                     # we set nvfuser_index_t in the preamble. We ignore that change for the purposes of this diff
                     if line[:8] == "typedef " and line[-17:] == " nvfuser_index_t;":
-                        line = "typedef int nvfuser_index_t; // NOTE: hardcoded to int for easier diffing"
+                        line = "typedef int nvfuser_index_t; // NOTE: index type hard-coded as int for display only"
                     if first:
                         preamble_lines.append(line)
                     elif i >= len(preamble_lines) or preamble_lines[i] != line:
@@ -268,6 +281,10 @@ def get_kernel(
         kern.code = ""
         with open(fullname, "r") as f:
             for i, line in enumerate(f.readlines()):
+                if kern.index_type is None:
+                    m = re.search(r"typedef\s+(\S*)\s+nvfuser_index_t;", line)
+                    if m is not None:
+                        kern.index_type = m.groups()[0]
                 if not strip_preamble or i >= self.preamble_size_lines:
                     # replace kernel934 with kernel1 to facilitate diffing
                     kern.code += re.sub(r"\bkernel\d+\b", "kernelN", line)
@@ -284,7 +301,19 @@ class KernelDiff:
     kernel_num: int
     kernel1: CompiledKernel
     kernel2: CompiledKernel
-    diff: str
+    diff_lines: InitVar[list[str]]
+    diff: str = field(init=False)
+    new_lines: int = 0
+    removed_lines: int = 0
+
+    def __post_init__(self, diff_lines: list[str]):
+        self.diff = "\n".join(diff_lines)
+
+        for line in diff_lines:
+            if line[:2] == "+ ":
+                self.new_lines += 1
+            elif line[:2] == "- ":
+                self.removed_lines += 1
 
 
 @dataclass
@@ -361,7 +390,7 @@ def __post_init__(self, show_diffs: bool):
                 kern1 = self.run1.get_kernel(testname, kernel_num, strip_preamble=True)
                 kern2 = self.run2.get_kernel(testname, kernel_num, strip_preamble=True)
 
-                diff_str = "\n".join(
+                diff_lines = list(
                     difflib.unified_diff(
                         kern1.code.splitlines(),
                         kern2.code.splitlines(),
@@ -370,13 +399,12 @@ def __post_init__(self, show_diffs: bool):
                         n=5,
                     )
                 )
-                if len(diff_str) > 0:
+                if len(diff_lines) > 0:
+                    kd = KernelDiff(testname, kernel_num, kern1, kern2, diff_lines)
                     if show_diffs:
-                        print(testname, kernel_num, diff_str)
+                        print(testname, kernel_num, kd.diff)
                     self.total_num_diffs += 1
-                    kernel_diffs.append(
-                        KernelDiff(testname, kernel_num, kern1, kern2, diff_str)
-                    )
+                    kernel_diffs.append(kd)
 
             if len(kernel_diffs) > 0:
                 self.test_diffs.append(TestDiff(testname, kernel_diffs))
@@ -466,4 +494,5 @@ def get_abbrev(d):
     if len(td.removed_tests) > 0:
         print(len(td.removed_tests), "removed tests found")
 
-    exit(len(td.test_diffs))
+    # Return 1 if preamble or any kernels are changed, else 0
+    exit(1 if len(td.test_diffs) > 0 or len(td.preamble_diff) > 0 else 0)
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index c9d6988c0df..a9a901643ae 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -244,12 +244,12 @@ <h3>Test Diffs</h3>
 <br>
 <br>
 {% set loop_vars = namespace(total_diffs=0) %}
-{% for test in test_diffs %}
+{% for test_diff in test_diffs %}
     {% if loop_vars.total_diffs < max_diffs %}
-        <span class="test_name">{{ loop.index }}: <b>{{ test.name }}</b></span>
+        <span class="test_name">{{ loop.index }}: <b>{{ test_diff.testname }}</b></span>
         <br>
         {% set outer_index = loop.index %}
-        {% for kernel_diff in test.kernel_diffs %}
+        {% for kernel_diff in test_diff.kernel_diffs %}
             {% if loop_vars.total_diffs == max_diffs + 1 %}
                 <br>
                 <b>WARNING: Only showing {{ max_diffs }} out of {{ total_num_diffs }}
@@ -269,6 +269,48 @@ <h3>Test Diffs</h3>
         <button style="box-shadow:none"
                 onclick="toggleNewCode({{ outer_index }}, {{ loop.index }})">{{ run2.git.abbrev }}</button>
     </span>
+    LOC: <span style="color: green;
+              width: 30pt;
+              text-align: right;
+              display: inline-block">+{{ kernel_diff.new_lines }}</span>
+    <span style="color: red;
+                 width: 30pt;
+                 text-align: left;
+                 display: inline-block">-{{ kernel_diff.removed_lines }}</span>
+    index type:
+    {%- if kernel_diff.kernel1.index_type == kernel_diff.kernel2.index_type %}
+        {# always show index type, even if unchanged #}
+        {{ kernel_diff.kernel1.index_type }}
+    {% else -%}
+        <span style="color: red">{{ kernel_diff.kernel1.index_type }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.index_type }}</span>
+    {%- endif %}
+    {%- if kernel_diff.kernel1.registers != kernel_diff.kernel2.registers -%}
+        registers: <span style="color: red">{{ kernel_diff.kernel1.registers }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.registers }}</span>
+    {%- endif -%}
+    {%- if kernel_diff.kernel1.gmem != kernel_diff.kernel2.gmem -%}
+        gmem: <span style="color: red">{{ kernel_diff.kernel1.gmem }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.gmem }}</span>
+    {%- endif -%}
+    {%- if kernel_diff.kernel1.smem != kernel_diff.kernel2.smem -%}
+        smem: <span style="color: red">{{ kernel_diff.kernel1.smem }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.smem }}</span>
+    {%- endif -%}
+    {%- if kernel_diff.kernel1.stack_frame_bytes != kernel_diff.kernel2.stack_frame_bytes -%}
+        stack frame: <span style="color: red">{{ kernel_diff.kernel1.stack_frame_bytes }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.stack_frame_bytes }}</span>
+    {%- endif -%}
+    {%- if kernel_diff.kernel1.spill_store_bytes != kernel_diff.kernel2.spill_store_bytes -%}
+        spill stores: <span style="color: red">{{ kernel_diff.kernel1.spill_store_bytes }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.spill_store_bytes }}</span>
+    {%- endif -%}
+    {%- if kernel_diff.kernel1.spill_load_bytes != kernel_diff.kernel2.spill_load_bytes -%}
+        spill loads: <span style="color: red">{{ kernel_diff.kernel1.spill_load_bytes }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.spill_load_bytes }}</span>
+    {%- endif -%}
+    {% if kernel_diff.kernel1.cmem_bank_bytes is not none and kernel_diff.kernel2.cmem_bank_bytes is not none %}
+        {% for cmem_bank in range(kernel_diff.kernel1.cmem_bank_bytes|length) %}
+            {% set cmem1 = kernel_diff.kernel1.cmem_bank_bytes[cmem_bank] %}
+            {% set cmem2 = kernel_diff.kernel2.cmem_bank_bytes[cmem_bank] %}
+            {% if cmem1 != cmem2 %}
+                cmem[{{ cmem_bank }}]: <span style="color: red">{{ cmem1 }}</span> &#8594; <span style="color: green">{{ cmem2 }}</span>
+            {% endif %}
+        {% endfor %}
+    {% endif %}
     <br>
     <div id="oldcode_{{ outer_index }}_{{ loop.index }}" style="display:none">
         <pre><code class="language-cpp">{{ kernel_diff.kernel1.code|e }}</code></pre>

From a879cfc6d8c96d9d13a229f7456f2919759b5169 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Mon, 2 Oct 2023 20:16:44 -0400
Subject: [PATCH 23/39] Show stats on new tests

---
 tools/diff_codegen_nvfuser_tests.py | 20 ++++++++++----------
 tools/templates/codediff.html       | 18 ++++++++++++++++++
 2 files changed, 28 insertions(+), 10 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index cf995741c62..5836715e5ec 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -202,26 +202,26 @@ def compute_kernel_map(self):
         # regex for stripping ANSI color codes
         ansi_re = re.compile(r"(\x9B|\x1B\[)[0-?]*[ -\/]*[@-~]")
         current_test = None
-        current_files = []
+        current_file = None
         ptxas_info = ""
         kernels = []
 
         def finalize_kernel():
             nonlocal ptxas_info
-            if len(current_files) > 0:
-                kernels.append(CompiledKernel(current_files[-1], ptxas_info=ptxas_info))
+            nonlocal current_file
+            if current_file is not None:
+                kernels.append(CompiledKernel(current_file, ptxas_info=ptxas_info))
             ptxas_info = ""
+            current_file = None
 
         def finalize_test():
             nonlocal current_test
             nonlocal kernels
             assert current_test is not None
             finalize_kernel()
-            if len(current_files) > 0:
-                kernels.append(CompiledKernel(current_files[-1], ptxas_info=ptxas_info))
-                self.kernel_map[current_test] = CompiledTest(current_test, kernels)
-                current_test = None
-                kernels = []
+            self.kernel_map[current_test] = CompiledTest(current_test, kernels)
+            current_test = None
+            kernels = []
 
         for line in open(logfile, "r").readlines():
             line = ansi_re.sub("", line.strip())
@@ -234,11 +234,11 @@ def finalize_test():
                     finalize_kernel()
                     # This avoids comparing the .ptx files that are created then
                     # removed by the MemoryTest.LoadCache tests
-                    current_files.append(line[10:])
+                    current_file = line[10:]
             elif line[:6] == "ptxas ":
                 # NVFUSER_DUMP=ptxas_verbose corresponds to nvcc --ptxas-options=-v or --resources-usage
                 # This always prints after printing the cuda filename
-                if len(current_files) == 0:
+                if current_file is None:
                     print("WARNING: Cannot associate ptxas info with CUDA kernel")
                     continue
                 ptxas_info += line + "\n"
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index a9a901643ae..f7b26b1d53b 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -207,6 +207,24 @@ <h3>New Tests</h3>
                            box-shadow:none"
                     onclick="toggleDiv('newtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
         </span>
+        registers: {{ kernel.registers }}
+        {% if kernel.gmem is defined and kernel.gmem > 0 %}gmem: {{ kernel.gmem }}{% endif %}
+        {% if kernel.smem is defined and kernel.smem > 0 %}smem: {{ kernel.smem }}{% endif %}
+        {% if kernel.stack_frame_bytes is defined and kernel.stack_frame_bytes > 0 %}
+            stack frame: {{ kernel.stack_frame_bytes }}
+        {% endif %}
+        {% if kernel.spill_store_bytes is defined and kernel.spill_store_bytes > 0 %}
+            spill stores: {{ kernel.spill_store_bytes }}
+        {% endif %}
+        {% if kernel.spill_load_bytes is defined and kernel.spill_load_bytes > 0 %}
+            spill loads: {{ kernel.spill_load_bytes }}
+        {% endif %}
+        {% if kernel.cmem_bank_bytes is not none %}
+            {% for cmem_bank in range(kernel.cmem_bank_bytes|length) %}
+                {% set cmem1 = kernel.cmem_bank_bytes[cmem_bank] %}
+                cmem[{{ cmem_bank }}]: {{ cmem1 }}
+            {% endfor %}
+        {% endif %}
         <br>
         <div id="newtestcode_{{ test_num }}_{{ loop.index }}" style="display:none">
             <pre><code class="language-cpp">{{ kernel.code|e }}</code></pre>

From 6d6a75c99adc2f0f343956048c4129d8b73365a4 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 07:36:54 -0400
Subject: [PATCH 24/39] Add arch, clean up info lines

---
 tools/diff_codegen_nvfuser_tests.py | 21 +++++---
 tools/templates/codediff.html       | 76 +++++++++++++++++------------
 2 files changed, 58 insertions(+), 39 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 5836715e5ec..909407ae1a0 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -82,14 +82,15 @@ class CompiledKernel:
     filename: str
     code: str | None = None
     ptxas_info: str | None = None
-    gmem_bytes: int | None = None
-    smem_bytes: int | None = None
+    gmem_bytes: int = 0
+    smem_bytes: int = 0
     cmem_bank_bytes: list[int] | None = None
     registers: int | None = None
-    target_arch: str | None = None
-    stack_frame_bytes: int | None = None
-    spill_store_bytes: int | None = None
-    spill_load_bytes: int | None = None
+    stack_frame_bytes: int = 0
+    spill_store_bytes: int = 0
+    spill_load_bytes: int = 0
+    mangled_name: str | None = None
+    arch: str | None = None
     index_type: str | None = None
 
     def __post_init__(self):
@@ -111,11 +112,13 @@ def parse_ptxas(self):
         if self.ptxas_info is None:
             return
 
-        self.ptxas_info = re.sub(r"\b_Z.*\b", "[mangled kernel name]", self.ptxas_info)
+        m = re.search(r"Compiling entry function '(.*)' for '(.*)'", self.ptxas_info)
+        if m is not None:
+            self.mangled_name, self.arch = m.groups()
 
         def find_unique_int(pattern) -> int | None:
             m = re.search(pattern, self.ptxas_info)
-            return None if m is None else int(m.groups()[0])
+            return 0 if m is None else int(m.groups()[0])
 
         self.stack_frame_bytes = find_unique_int(r"(\d+) bytes stack frame")
         self.spill_store_bytes = find_unique_int(r"(\d+) bytes spill stores")
@@ -125,12 +128,14 @@ def find_unique_int(pattern) -> int | None:
         self.smem_bytes = find_unique_int(r"(\d+) bytes smem")
 
         self.cmem_bank_bytes = []
+        cmem_banks = 0
         for m in re.finditer(r"(\d+) bytes cmem\[(\d+)\]", self.ptxas_info):
             nbytes_str, bank_str = m.groups()
             bank = int(bank_str)
             if len(self.cmem_bank_bytes) <= bank:
                 self.cmem_bank_bytes += [0] * (bank + 1 - len(self.cmem_bank_bytes))
             self.cmem_bank_bytes[bank] = int(nbytes_str)
+            cmem_banks += 1
 
 
 @dataclass
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index f7b26b1d53b..9dfdb542458 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -207,22 +207,24 @@ <h3>New Tests</h3>
                            box-shadow:none"
                     onclick="toggleDiv('newtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
         </span>
+        index type: {{ kernel.index_type }}
+        arch: {{ kernel.arch }}
         registers: {{ kernel.registers }}
-        {% if kernel.gmem is defined and kernel.gmem > 0 %}gmem: {{ kernel.gmem }}{% endif %}
-        {% if kernel.smem is defined and kernel.smem > 0 %}smem: {{ kernel.smem }}{% endif %}
-        {% if kernel.stack_frame_bytes is defined and kernel.stack_frame_bytes > 0 %}
+        {% if kernel.gmem_bytes is not none and kernel.gmem_bytes > 0 %}gmem: {{ kernel.gmem_bytes }}{% endif %}
+        {% if kernel.smem_bytes is not none and kernel.smem_bytes > 0 %}smem: {{ kernel.smem_bytes }}{% endif %}
+        {% if kernel.stack_frame_bytes is not none and kernel.stack_frame_bytes > 0 %}
             stack frame: {{ kernel.stack_frame_bytes }}
         {% endif %}
-        {% if kernel.spill_store_bytes is defined and kernel.spill_store_bytes > 0 %}
+        {% if kernel.spill_store_bytes is not none and kernel.spill_store_bytes > 0 %}
             spill stores: {{ kernel.spill_store_bytes }}
         {% endif %}
-        {% if kernel.spill_load_bytes is defined and kernel.spill_load_bytes > 0 %}
+        {% if kernel.spill_load_bytes is not none and kernel.spill_load_bytes > 0 %}
             spill loads: {{ kernel.spill_load_bytes }}
         {% endif %}
         {% if kernel.cmem_bank_bytes is not none %}
             {% for cmem_bank in range(kernel.cmem_bank_bytes|length) %}
-                {% set cmem1 = kernel.cmem_bank_bytes[cmem_bank] %}
-                cmem[{{ cmem_bank }}]: {{ cmem1 }}
+                {% set cmemb = kernel.cmem_bank_bytes[cmem_bank] %}
+                cmem[{{ cmem_bank }}]: {{ cmemb }}
             {% endfor %}
         {% endif %}
         <br>
@@ -276,7 +278,7 @@ <h3>Test Diffs</h3>
                     <code>tools/diff_codegen_nvfuser_tests.py</code>.</b>
                 <br>
             {% elif loop_vars.total_diffs < max_diffs %}
-                &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ kernel_diff.kernel_num }}</span>
+                &nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ kernel_diff.kernel_num }}</span>
                 <button style="box-shadow:none"
                         onclick="toggleOldCode({{ outer_index }}, {{ loop.index }})">{{ run1.git.abbrev }}</button>
             </span>
@@ -287,45 +289,57 @@ <h3>Test Diffs</h3>
         <button style="box-shadow:none"
                 onclick="toggleNewCode({{ outer_index }}, {{ loop.index }})">{{ run2.git.abbrev }}</button>
     </span>
-    LOC: <span style="color: green;
-              width: 30pt;
-              text-align: right;
-              display: inline-block">+{{ kernel_diff.new_lines }}</span>
+    loc:
     <span style="color: red;
-                 width: 30pt;
-                 text-align: left;
+                 width: 32pt;
+                 text-align: right;
                  display: inline-block">-{{ kernel_diff.removed_lines }}</span>
+    <span style="color: green;
+                 width: 32pt;
+                 text-align: left;
+                 display: inline-block">+{{ kernel_diff.new_lines }}</span>
     index type:
     {%- if kernel_diff.kernel1.index_type == kernel_diff.kernel2.index_type %}
-        {# always show index type, even if unchanged #}
         {{ kernel_diff.kernel1.index_type }}
     {% else -%}
         <span style="color: red">{{ kernel_diff.kernel1.index_type }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.index_type }}</span>
     {%- endif %}
     {%- if kernel_diff.kernel1.registers != kernel_diff.kernel2.registers -%}
         registers: <span style="color: red">{{ kernel_diff.kernel1.registers }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.registers }}</span>
-    {%- endif -%}
-    {%- if kernel_diff.kernel1.gmem != kernel_diff.kernel2.gmem -%}
-        gmem: <span style="color: red">{{ kernel_diff.kernel1.gmem }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.gmem }}</span>
-    {%- endif -%}
-    {%- if kernel_diff.kernel1.smem != kernel_diff.kernel2.smem -%}
-        smem: <span style="color: red">{{ kernel_diff.kernel1.smem }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.smem }}</span>
-    {%- endif -%}
-    {%- if kernel_diff.kernel1.stack_frame_bytes != kernel_diff.kernel2.stack_frame_bytes -%}
+    {%- else -%}
+        registers: {{ kernel_diff.kernel1.registers }}
+    {%- endif %}
+    {% if kernel_diff.kernel1.gmem_bytes != kernel_diff.kernel2.gmem_bytes -%}
+        gmem: <span style="color: red">{{ kernel_diff.kernel1.gmem_bytes }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.gmem_bytes }}</span>
+    {%- endif %}
+    {% if kernel_diff.kernel1.smem_bytes != kernel_diff.kernel2.smem_bytes -%}
+        smem: <span style="color: red">{{ kernel_diff.kernel1.smem_bytes }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.smem_bytes }}</span>
+    {%- elif kernel_diff.kernel1.smem_bytes > 0 -%}
+        smem: {{ kernel_diff.kernel1.smem_bytes }}
+    {%- endif %}
+    {% if kernel_diff.kernel1.stack_frame_bytes != kernel_diff.kernel2.stack_frame_bytes -%}
         stack frame: <span style="color: red">{{ kernel_diff.kernel1.stack_frame_bytes }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.stack_frame_bytes }}</span>
-    {%- endif -%}
-    {%- if kernel_diff.kernel1.spill_store_bytes != kernel_diff.kernel2.spill_store_bytes -%}
+    {%- elif kernel_diff.kernel1.stack_frame_bytes >0 -%}
+        stack frame: {{ kernel_diff.kernel1.stack_frame_bytes }}
+    {%- endif %}
+    {% if kernel_diff.kernel1.spill_store_bytes != kernel_diff.kernel2.spill_store_bytes -%}
         spill stores: <span style="color: red">{{ kernel_diff.kernel1.spill_store_bytes }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.spill_store_bytes }}</span>
-    {%- endif -%}
-    {%- if kernel_diff.kernel1.spill_load_bytes != kernel_diff.kernel2.spill_load_bytes -%}
+    {%- elif kernel_diff.kernel1.spill_store_bytes >0 -%}
+        spill stores: {{ kernel_diff.kernel1.spill_store_bytes }}
+    {%- endif %}
+    {% if kernel_diff.kernel1.spill_load_bytes != kernel_diff.kernel2.spill_load_bytes -%}
         spill loads: <span style="color: red">{{ kernel_diff.kernel1.spill_load_bytes }}</span> &#8594; <span style="color: green">{{ kernel_diff.kernel2.spill_load_bytes }}</span>
-    {%- endif -%}
+    {%- elif kernel_diff.kernel1.spill_load_bytes > 0 -%}
+        spill loads: {{ kernel_diff.kernel1.spill_load_bytes }}
+    {%- endif %}
     {% if kernel_diff.kernel1.cmem_bank_bytes is not none and kernel_diff.kernel2.cmem_bank_bytes is not none %}
-        {% for cmem_bank in range(kernel_diff.kernel1.cmem_bank_bytes|length) %}
-            {% set cmem1 = kernel_diff.kernel1.cmem_bank_bytes[cmem_bank] %}
-            {% set cmem2 = kernel_diff.kernel2.cmem_bank_bytes[cmem_bank] %}
+        {% for cmem_bank in range([kernel_diff.kernel1.cmem_bank_bytes|length, kernel_diff.kernel2.cmem_bank_bytes|length] | max) %}
+            {% set cmem1 = kernel_diff.kernel1.cmem_bank_bytes[cmem_bank] if cmem_bank < kernel_diff.kernel1.cmem_bank_bytes|length else 0 %}
+            {% set cmem2 = kernel_diff.kernel2.cmem_bank_bytes[cmem_bank] if cmem_bank < kernel_diff.kernel2.cmem_bank_bytes|length else 0 %}
             {% if cmem1 != cmem2 %}
                 cmem[{{ cmem_bank }}]: <span style="color: red">{{ cmem1 }}</span> &#8594; <span style="color: green">{{ cmem2 }}</span>
+            {% elif cmem1 > 0 %}
+                cmem[{{ cmem_bank }}]: {{ cmem1 }}
             {% endif %}
         {% endfor %}
     {% endif %}

From ccc0c9b51bd13ef58efd9f44b123b5c15e18342b Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 07:45:35 -0400
Subject: [PATCH 25/39] Add --json argument

It was trivial, and might be helpful for CI?
---
 tools/diff_codegen_nvfuser_tests.py | 13 +++++++++++++
 1 file changed, 13 insertions(+)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 909407ae1a0..5511dd500c2 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -463,6 +463,10 @@ def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
     parser.add_argument(
         "-o", "--output-file", help="Location of HTML file output if -h is given."
     )
+    parser.add_argument(
+        "--json",
+        help="Location to write JSON output, if given",
+    )
     args = parser.parse_args()
 
     td = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
@@ -485,6 +489,15 @@ def get_abbrev(d):
                 )
             )
 
+    if args.json is not None:
+        import json
+
+        d = asdict(td)
+        # clean up the dict a bit by removing temporary data structures
+        del d["run1"]["kernel_map"]
+        del d["run2"]["kernel_map"]
+        json.dump(d, open(args.json, "w"), indent=2)
+
     if len(td.test_diffs) == 0:
         print("No differences found in overlapping tests!")
     else:

From 409fb132de39c84be4bc1c6e48fa931373399c0e Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 07:48:23 -0400
Subject: [PATCH 26/39] Remove stale pygments ref in template

---
 tools/templates/codediff.html | 1 -
 1 file changed, 1 deletion(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 9dfdb542458..8f311afcc2d 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -1,7 +1,6 @@
 <html>
     <head>
         <title>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</title>
-        <style>{{ pygments_style_defs }}</style>
         <link rel="stylesheet"
               href="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/styles/default.min.css">
         <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/highlight.min.js"></script>

From a92ed127757c401c9592a272ed3ff4a61f9a0d78 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 08:14:00 -0400
Subject: [PATCH 27/39] Record env in compare_codegen.sh

---
 tools/compare_codegen.sh | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/tools/compare_codegen.sh b/tools/compare_codegen.sh
index 31670027025..bc223e1a8c3 100755
--- a/tools/compare_codegen.sh
+++ b/tools/compare_codegen.sh
@@ -130,6 +130,10 @@ run_test() {
     mkdir -p "$testdir"
     echo "$testcmd" > "$testdir/command"
 
+    env > "$testdir/env"
+    nvcc --version > "$testdir/nvcc_version"
+    nvidia-smi --query-gpu=gpu_name --format=csv,noheader > "$testdir/gpu_names"
+
     # Allow next command to fail
     set +e
     $testcmd | tee "$testdir/stdout-$(date +%Y%m%d_%H%M%S).log"
@@ -186,7 +190,7 @@ collect_kernels() {
     export NVFUSER_TEST_RANDOM_SEED=0
     export NVFUSER_DISABLE=parallel_compile
     # run tests and benchmarks with cuda_to_file and dump output to files
-    export NVFUSER_DUMP=cuda_to_file
+    export NVFUSER_DUMP=cuda_to_file,ptxas_verbose
 
     mkdir -p "$outdir/$commit"
 

From 546c54096be66d97eb87f0244dc658da6a18b12c Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 09:34:01 -0400
Subject: [PATCH 28/39] Add env, gpu, nvcc version, with --hide-env option

---
 tools/diff_codegen_nvfuser_tests.py |  37 +++++
 tools/templates/codediff.html       | 200 ++++++++++++++++++----------
 2 files changed, 165 insertions(+), 72 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 5511dd500c2..cb4930dcd9e 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -151,6 +151,9 @@ class TestRun:
     run_name: str = field(init=False)
     command: str = field(init=False)
     exit_code: int = field(init=False)
+    env: str = field(init=False)
+    gpu_names: str = field(init=False)
+    nvcc_version: str = field(init=False)
     # map from name of test to list of kernel base filenames
     kernel_map: dict[str, CompiledTest] = field(default_factory=dict)
     # collecting the preamble lets us skip it when diffing, and lets us compare
@@ -178,6 +181,25 @@ def __post_init__(self):
             )
             sys.exit(1)
 
+        try:
+            self.env = open(os.path.join(self.directory, "env"), "r").read()
+        except FileNotFoundError:
+            self.env = None
+
+        try:
+            self.nvcc_version = open(
+                os.path.join(self.directory, "nvcc_version"), "r"
+            ).read()
+        except FileNotFoundError:
+            self.nvcc_version = None
+
+        try:
+            self.gpu_names = list(
+                open(os.path.join(self.directory, "gpu_names"), "r").readlines()
+            )
+        except FileNotFoundError:
+            self.gpu_names = None
+
         self.exit_code = int(open(os.path.join(self.directory, "exitcode"), "r").read())
 
         self.compute_kernel_map()
@@ -422,6 +444,13 @@ def __post_init__(self, show_diffs: bool):
                 ]
                 self.new_tests.append(compiled_test2)
 
+    def hide_env(self):
+        """Remove private information like env vars and lib versions"""
+        self.run1.env = None
+        self.run2.env = None
+        self.run1.nvcc_version = None
+        self.run2.nvcc_version = None
+
     def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
         """Return a self-contained HTML string summarizing the codegen comparison"""
         import jinja2
@@ -445,6 +474,11 @@ def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
     )
     parser.add_argument("dir1", help="Directory containing stdout-*.log and cuda/")
     parser.add_argument("dir2", help="Directory containing stdout-*.log and cuda/")
+    parser.add_argument(
+        "--hide-env",
+        action="store_true",
+        help="Hide environment variables and nvcc versions in output?",
+    )
     parser.add_argument("--html", action="store_true", help="Write HTML file?")
     parser.add_argument(
         "--show-diffs", action="store_true", help="Print diffs to STDOUT?"
@@ -471,6 +505,9 @@ def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
 
     td = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
 
+    if args.hide_env:
+        td.hide_env()
+
     if args.html:
         output_file = args.output_file
         if output_file is None:
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 8f311afcc2d..fb7378602ce 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -131,7 +131,7 @@
     </head>
     <body>
         <h1>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</h1>
-        <h2>Git information</h2>
+        <h2>Runs</h2>
         <h3>
             Old commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{ run1.git.full_hash }}">{{ run1.git.abbrev }}</a>
         </h3>
@@ -145,6 +145,29 @@ <h3>
         <br>
         <a href="https://github.com/NVIDIA/Fuser/tree/{{ run1.git.full_hash }}">Browse code at this commit</a>
         <br>
+        {% if run1.gpu_names is not none %}
+            <br>
+            {%- if run1.gpu_names | length > 1 %}
+                <b>GPUs:</b>
+                <br>
+                <pre><code>{{run1.gpu_names | e}}</code></pre>
+                %}
+            {%- else -%}
+                <b>GPU:</b> {{ run1.gpu_names[0] | e }}
+                <br>
+            {%- endif %}
+        {% endif %}
+        {% if run1.nvcc_version is not none %}
+            <pre><code class="language-console">&gt; nvcc --version
+{{run1.nvcc_version | e}}</code></pre>
+        {% endif %}
+        {% if run1.env is not none %}
+            <button style="box-shadow:none" onclick="toggleDiv('old_env')">Toggle Env</button>
+            <div id="old_env" style="display:none">
+                {# INI highlighting gives best look out of a number of bad options for env dump #}
+                <pre><code class="language-sh">{{ run1.env|e }}</code></pre>
+            </div>
+        {% endif %}
         <h3>
             New commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{ run2.git.full_hash }}">{{ run2.git.abbrev }}</a>
         </h3>
@@ -158,6 +181,44 @@ <h3>
         <br>
         <a href="https://github.com/NVIDIA/Fuser/tree/{{ run2.git.full_hash }}">Browse code at this commit</a>
         <br>
+        {% if run2.gpu_names is not none %}
+            <br>
+            {% if run2.gpu_names == run1.gpu_names %}
+                {{ "GPUs are" if run2.gpu_names | length > 1 else "GPU is"}} same
+                <br>
+            {% else %}
+                {%- if run2.gpu_names | length > 1 %}
+                    <b>GPUs:</b>
+                    <br>
+                    <pre><code>{{run2.gpu_names | e}}</code></pre>
+                    %}
+                {%- else -%}
+                    <b>GPU:</b> {{ run2.gpu_names[0] | e }}
+                {%- endif %}
+            {% endif %}
+        {% endif %}
+        {% if run2.nvcc_version is not none %}
+            {% if run2.nvcc_version == run1.nvcc_version %}
+                NVCC version is same
+                <br>
+            {% else %}
+                <pre><code class="language-console">&gt; nvcc --version
+{{run2.nvcc_version | e}}</code></pre>
+            {% endif %}
+        {% endif %}
+        {% if run2.env is not none %}
+            {% if run2.env == run1.env %}
+                Environment is same
+                <br>
+            {% else %}
+                <br>
+                <button style="box-shadow:none" onclick="toggleDiv('old_env')">Env</button>
+                <div id="old_env" style="display:none">
+                    {# INI highlighting gives best look out of a number of bad options for env dump #}
+                    <pre><code class="language-sh">{{ run2.env|e }}</code></pre>
+                </div>
+            {% endif %}
+        {% endif %}
         <h2>Code comparison</h2>
         Command line: <code>{{ run1.command|e }}</code>
         <br>
@@ -183,85 +244,81 @@ <h2>Code comparison</h2>
 {% else %}
     Preamble matches between runs
     <button style="box-shadow:none" onclick="toggleDiv('preamble')">Preamble</button>
-</span>
-<br>
-<div id="preamble" style="display:none">
-    <pre><code class="language-cpp">{{ run1.preamble|e }}</code></pre>
-</div>
+    <br>
+    <div id="preamble" style="display:none">
+        <pre><code class="language-cpp">{{ run1.preamble|e }}</code></pre>
+    </div>
 {% endif %}
 {% endif %}
 {% if new_tests|length > 0 %}
-    <h3>New Tests</h3>
-    <button style="box-shadow:none" onclick="toggleAllNewTestCode()">Toggle All</button>
-</span>
-<br>
-<br>
-{% for test in new_tests %}
-    <span class="test_name"><b>{{ test.name }}</b>
-        <br>
-        {% set test_num = loop.index %}
-        {% for kernel in test.kernels %}
-            &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
-            <button style="width: 60pt;
-                           box-shadow:none"
-                    onclick="toggleDiv('newtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
-        </span>
-        index type: {{ kernel.index_type }}
-        arch: {{ kernel.arch }}
-        registers: {{ kernel.registers }}
-        {% if kernel.gmem_bytes is not none and kernel.gmem_bytes > 0 %}gmem: {{ kernel.gmem_bytes }}{% endif %}
-        {% if kernel.smem_bytes is not none and kernel.smem_bytes > 0 %}smem: {{ kernel.smem_bytes }}{% endif %}
-        {% if kernel.stack_frame_bytes is not none and kernel.stack_frame_bytes > 0 %}
-            stack frame: {{ kernel.stack_frame_bytes }}
-        {% endif %}
-        {% if kernel.spill_store_bytes is not none and kernel.spill_store_bytes > 0 %}
-            spill stores: {{ kernel.spill_store_bytes }}
-        {% endif %}
-        {% if kernel.spill_load_bytes is not none and kernel.spill_load_bytes > 0 %}
-            spill loads: {{ kernel.spill_load_bytes }}
-        {% endif %}
-        {% if kernel.cmem_bank_bytes is not none %}
-            {% for cmem_bank in range(kernel.cmem_bank_bytes|length) %}
-                {% set cmemb = kernel.cmem_bank_bytes[cmem_bank] %}
-                cmem[{{ cmem_bank }}]: {{ cmemb }}
-            {% endfor %}
-        {% endif %}
+    <h3>
+        New Tests
+        <button style="box-shadow:none" onclick="toggleAllNewTestCode()">Toggle All</button>
+    </h3>
+    {% for test in new_tests %}
+        <span class="test_name"><b>{{ test.name }}</b>
+            <br>
+            {% set test_num = loop.index %}
+            {% for kernel in test.kernels %}
+                &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
+                <button style="width: 60pt;
+                               box-shadow:none"
+                        onclick="toggleDiv('newtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
+            </span>
+            index type: {{ kernel.index_type }}
+            arch: {{ kernel.arch }}
+            registers: {{ kernel.registers }}
+            {% if kernel.gmem_bytes is not none and kernel.gmem_bytes > 0 %}gmem: {{ kernel.gmem_bytes }}{% endif %}
+            {% if kernel.smem_bytes is not none and kernel.smem_bytes > 0 %}smem: {{ kernel.smem_bytes }}{% endif %}
+            {% if kernel.stack_frame_bytes is not none and kernel.stack_frame_bytes > 0 %}
+                stack frame: {{ kernel.stack_frame_bytes }}
+            {% endif %}
+            {% if kernel.spill_store_bytes is not none and kernel.spill_store_bytes > 0 %}
+                spill stores: {{ kernel.spill_store_bytes }}
+            {% endif %}
+            {% if kernel.spill_load_bytes is not none and kernel.spill_load_bytes > 0 %}
+                spill loads: {{ kernel.spill_load_bytes }}
+            {% endif %}
+            {% if kernel.cmem_bank_bytes is not none %}
+                {% for cmem_bank in range(kernel.cmem_bank_bytes|length) %}
+                    {% set cmemb = kernel.cmem_bank_bytes[cmem_bank] %}
+                    cmem[{{ cmem_bank }}]: {{ cmemb }}
+                {% endfor %}
+            {% endif %}
+            <br>
+            <div id="newtestcode_{{ test_num }}_{{ loop.index }}" style="display:none">
+                <pre><code class="language-cpp">{{ kernel.code|e }}</code></pre>
+            </div>
+        {% endfor %}
         <br>
-        <div id="newtestcode_{{ test_num }}_{{ loop.index }}" style="display:none">
-            <pre><code class="language-cpp">{{ kernel.code|e }}</code></pre>
-        </div>
     {% endfor %}
-    <br>
-{% endfor %}
 {% endif %}
 {% if removed_tests|length > 0 %}
-    <h3>Removed Tests</h3>
-    <button style="box-shadow:none" onclick="toggleAllRemovedTestCode()">Toggle All</button>
-</span>
-<br>
-<br>
-{% for test in removed_tests %}
-    <span class="test_name"><b>{{ test.name }}</b>
-        <br>
-        {% set test_num = loop.index %}
-        {% for kernel in test.kernels %}
-            &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
-            <button style="box-shadow:none"
-                    onclick="toggleDiv('removedtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
-        </span>
-        <br>
-        <div id="removedtestcode_{{ test_num }}_{{ loop.index }}"
-             style="display:none">
-            <pre><code class="language-cpp">{{ kernel.code|e }}</code></pre>
-        </div>
+    <h3>
+        Removed Tests
+        <button style="box-shadow:none" onclick="toggleAllRemovedTestCode()">Toggle All</button>
+    </h3>
+    {% for test in removed_tests %}
+        <span class="test_name"><b>{{ test.name }}</b>
+            <br>
+            {% set test_num = loop.index %}
+            {% for kernel in test.kernels %}
+                &nbsp;&nbsp;&nbsp;&nbsp;<span style="display: inline-block; width: 70pt">Kernel {{ loop.index }}</span>
+                <button style="box-shadow:none"
+                        onclick="toggleDiv('removedtestcode_{{ test_num }}_{{ loop.index }}')">Code</button>
+            </span>
+            <br>
+            <div id="removedtestcode_{{ test_num }}_{{ loop.index }}"
+                 style="display:none">
+                <pre><code class="language-cpp">{{ kernel.code|e }}</code></pre>
+            </div>
+        {% endfor %}
     {% endfor %}
-{% endfor %}
 {% endif %}
-<h3>Test Diffs</h3>
-<button style="box-shadow:none" onclick="toggleAllDiffs()">Toggle All Diffs</button>
-</span>
-<br>
-<br>
+<h3>
+    Test Diffs
+    <button style="box-shadow:none" onclick="toggleAllDiffs()">Toggle All</button>
+</h3>
 {% set loop_vars = namespace(total_diffs=0) %}
 {% for test_diff in test_diffs %}
     {% if loop_vars.total_diffs < max_diffs %}
@@ -288,7 +345,6 @@ <h3>Test Diffs</h3>
         <button style="box-shadow:none"
                 onclick="toggleNewCode({{ outer_index }}, {{ loop.index }})">{{ run2.git.abbrev }}</button>
     </span>
-    loc:
     <span style="color: red;
                  width: 32pt;
                  text-align: right;

From 38cd3bd1fba47fa94ad7e75f05617cef1b179293 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 10:03:36 -0400
Subject: [PATCH 29/39] Add hrs, envs, reformat a bit

---
 tools/templates/codediff.html | 90 ++++++++++++++++++-----------------
 1 file changed, 46 insertions(+), 44 deletions(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index fb7378602ce..c2f1e9c88e2 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -6,6 +6,8 @@
         <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/highlight.min.js"></script>
         <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/languages/cpp.min.js"></script>
         <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/languages/diff.min.js"></script>
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/languages/ini.min.js"></script>
+        <script src="https://cdnjs.cloudflare.com/ajax/libs/highlight.js/11.8.0/languages/shell.min.js"></script>
         <script>hljs.highlightAll();</script>
         <script language="javascript">
         function toggleDiv(divId) {
@@ -131,7 +133,7 @@
     </head>
     <body>
         <h1>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</h1>
-        <h2>Runs</h2>
+        <h2>Git Information</h2>
         <h3>
             Old commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{ run1.git.full_hash }}">{{ run1.git.abbrev }}</a>
         </h3>
@@ -145,86 +147,82 @@ <h3>
         <br>
         <a href="https://github.com/NVIDIA/Fuser/tree/{{ run1.git.full_hash }}">Browse code at this commit</a>
         <br>
+        <h3>
+            New commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{ run2.git.full_hash }}">{{ run2.git.abbrev }}</a>
+        </h3>
+        <span>{{ run2.git.title|e }}</span>
+        <br>
+        <span>{{ run2.git.author_name|e }}</span> &lt;<span>{{ run2.git.author_email|e }}&gt;</span>
+        <br>
+        <span>{{ run2.git.author_time }}</span>
+        <br>
+        <a href="https://github.com/NVIDIA/Fuser/commit/{{ run2.git.full_hash }}">View commit</a>
+        <br>
+        <a href="https://github.com/NVIDIA/Fuser/tree/{{ run2.git.full_hash }}">Browse code at this commit</a>
+        <br>
+        <h2>Code comparison</h2>
+        Command: <code>{{ run1.command|e }}</code>
         {% if run1.gpu_names is not none %}
             <br>
             {%- if run1.gpu_names | length > 1 %}
-                <b>GPUs:</b>
-                <br>
+                {% if run1.gpu_names != run2.gpu_names %}{{ run1.git.abbrev }}{% endif %}
+                GPUs:
                 <pre><code>{{run1.gpu_names | e}}</code></pre>
                 %}
             {%- else -%}
-                <b>GPU:</b> {{ run1.gpu_names[0] | e }}
+                {% if run1.gpu_names != run2.gpu_names %}{{ run1.git.abbrev }}{% endif %}
+                GPU: {{ run1.gpu_names[0] | e }}
                 <br>
             {%- endif %}
         {% endif %}
         {% if run1.nvcc_version is not none %}
-            <pre><code class="language-console">&gt; nvcc --version
+            <pre><code class="language-console">&gt; nvcc --version {%- if run1.nvcc_version != run2.nvcc_version %}# {{run1.git.abbrev}}{% endif %}
 {{run1.nvcc_version | e}}</code></pre>
         {% endif %}
-        {% if run1.env is not none %}
-            <button style="box-shadow:none" onclick="toggleDiv('old_env')">Toggle Env</button>
+        {%- if run1.env is not none %}
+            {%- if run1.env != run2.env %}
+                <button style="box-shadow:none" onclick="toggleDiv('old_env')">{{ run1.git.abbrev }} Env</button>
+            {% else %}
+                <button style="box-shadow:none" onclick="toggleDiv('old_env')">Env</button>
+                matches between runs
+            {% endif -%}
             <div id="old_env" style="display:none">
                 {# INI highlighting gives best look out of a number of bad options for env dump #}
-                <pre><code class="language-sh">{{ run1.env|e }}</code></pre>
+                <pre><code class="language-ini">{{ run1.env|e }}</code></pre>
             </div>
         {% endif %}
-        <h3>
-            New commit: <a href="https://github.com/NVIDIA/Fuser/commit/{{ run2.git.full_hash }}">{{ run2.git.abbrev }}</a>
-        </h3>
-        <span>{{ run2.git.title|e }}</span>
-        <br>
-        <span>{{ run2.git.author_name|e }}</span> &lt;<span>{{ run2.git.author_email|e }}&gt;</span>
-        <br>
-        <span>{{ run2.git.author_time }}</span>
-        <br>
-        <a href="https://github.com/NVIDIA/Fuser/commit/{{ run2.git.full_hash }}">View commit</a>
-        <br>
-        <a href="https://github.com/NVIDIA/Fuser/tree/{{ run2.git.full_hash }}">Browse code at this commit</a>
-        <br>
         {% if run2.gpu_names is not none %}
-            <br>
-            {% if run2.gpu_names == run1.gpu_names %}
-                {{ "GPUs are" if run2.gpu_names | length > 1 else "GPU is"}} same
-                <br>
-            {% else %}
+            {% if run2.gpu_names != run1.gpu_names %}
                 {%- if run2.gpu_names | length > 1 %}
-                    <b>GPUs:</b>
+                    <br>
+                    {{ run2.git.abbrev }} GPUs:
                     <br>
                     <pre><code>{{run2.gpu_names | e}}</code></pre>
-                    %}
                 {%- else -%}
-                    <b>GPU:</b> {{ run2.gpu_names[0] | e }}
+                    {{ run2.git.abbrev }} GPU: {{ run2.gpu_names[0] | e }}
                 {%- endif %}
             {% endif %}
         {% endif %}
         {% if run2.nvcc_version is not none %}
-            {% if run2.nvcc_version == run1.nvcc_version %}
-                NVCC version is same
-                <br>
-            {% else %}
-                <pre><code class="language-console">&gt; nvcc --version
+            {% if run2.nvcc_version != run1.nvcc_version %}
+                <pre><code class="language-console">&gt; nvcc --version  # {{run2.git.abbrev}}
 {{run2.nvcc_version | e}}</code></pre>
             {% endif %}
         {% endif %}
         {% if run2.env is not none %}
-            {% if run2.env == run1.env %}
-                Environment is same
+            {% if run2.env != run1.env %}
                 <br>
-            {% else %}
-                <br>
-                <button style="box-shadow:none" onclick="toggleDiv('old_env')">Env</button>
+                <button style="box-shadow:none" onclick="toggleDiv('old_env')">{{ run2.git.abbrev }} Env</button>
                 <div id="old_env" style="display:none">
                     {# INI highlighting gives best look out of a number of bad options for env dump #}
                     <pre><code class="language-sh">{{ run2.env|e }}</code></pre>
                 </div>
             {% endif %}
         {% endif %}
-        <h2>Code comparison</h2>
-        Command line: <code>{{ run1.command|e }}</code>
         <br>
         {% if not omit_preamble %}
             {% if run1.preamble != run2.preamble %}
-                Preamble differs between runs
+                NVFuser preamble differs between runs
                 <button style="box-shadow:none" onclick="toggleOldPreamble()">{{ run1.git.abbrev }}</button>
             </span>
             <button style="width: 60pt; box-shadow:none" onclick="togglePreambleDiff()">Diff</button>
@@ -242,8 +240,9 @@ <h2>Code comparison</h2>
         <pre><code class="language-diff">{{ preamble_diff|e }}</code></pre>
     </div>
 {% else %}
-    Preamble matches between runs
-    <button style="box-shadow:none" onclick="toggleDiv('preamble')">Preamble</button>
+    <br>
+    <button style="box-shadow:none" onclick="toggleDiv('preamble')">NVFuser preamble</button>
+    matches between runs
     <br>
     <div id="preamble" style="display:none">
         <pre><code class="language-cpp">{{ run1.preamble|e }}</code></pre>
@@ -251,6 +250,7 @@ <h2>Code comparison</h2>
 {% endif %}
 {% endif %}
 {% if new_tests|length > 0 %}
+    <hr>
     <h3>
         New Tests
         <button style="box-shadow:none" onclick="toggleAllNewTestCode()">Toggle All</button>
@@ -294,6 +294,7 @@ <h3>
     {% endfor %}
 {% endif %}
 {% if removed_tests|length > 0 %}
+    <hr>
     <h3>
         Removed Tests
         <button style="box-shadow:none" onclick="toggleAllRemovedTestCode()">Toggle All</button>
@@ -315,6 +316,7 @@ <h3>
         {% endfor %}
     {% endfor %}
 {% endif %}
+<hr>
 <h3>
     Test Diffs
     <button style="box-shadow:none" onclick="toggleAllDiffs()">Toggle All</button>

From 327edcaa1820e46fef0e25119f1c628d166e29f4 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 10:08:40 -0400
Subject: [PATCH 30/39] Add footer

---
 tools/diff_codegen_nvfuser_tests.py | 1 +
 tools/templates/codediff.html       | 4 ++++
 2 files changed, 5 insertions(+)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index cb4930dcd9e..b0cc2836b40 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -461,6 +461,7 @@ def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
         context = asdict(self)
         context["omit_preamble"] = omit_preamble
         context["max_diffs"] = max_diffs
+        context["tool_git"] = GitRev("HEAD")
 
         return template.render(context)
 
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index c2f1e9c88e2..3facde81bfb 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -416,5 +416,9 @@ <h3>
 <br>
 {% endif %}
 {% endfor %}
+<hr>
+<footer>
+    Report generated with <a href="https://github.com/NVIDIA/Fuser/blob/f778681968790e3b19bbff4996b3846441937158/tools/diff_codegen_nvfuser_tests.py">diff_codegen_nvfuser_tests.py</a>
+</footer>
 </body>
 </html>

From c097aceb59fb7fd52b5e8f78b06fe678cbe74d35 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 10:11:47 -0400
Subject: [PATCH 31/39] Add license headers

---
 tools/diff_codegen_nvfuser_tests.py | 3 +++
 tools/templates/codediff.html       | 5 +++++
 2 files changed, 8 insertions(+)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index b0cc2836b40..e70e0737401 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -1,3 +1,6 @@
+# SPDX-FileCopyrightText: Copyright (c) 2023-present NVIDIA CORPORATION & AFFILIATES.
+# All rights reserved.
+# SPDX-License-Identifier: BSD-3-Clause
 """
 Find corresponding .cu files for matching tests, even when new tests are
 introduced between two commits. Diffs are displayed and the return value is the
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 3facde81bfb..1e0771ee127 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -1,3 +1,8 @@
+{#
+SPDX-FileCopyrightText: Copyright (c) 2023-present NVIDIA CORPORATION & AFFILIATES.
+All rights reserved.
+SPDX-License-Identifier: BSD-3-Clause
+#}
 <html>
     <head>
         <title>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</title>

From 76855363656c13e7da73bfdcb117a1dca653000f Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 10:14:47 -0400
Subject: [PATCH 32/39] Fix footer link

---
 tools/templates/codediff.html | 6 +++---
 1 file changed, 3 insertions(+), 3 deletions(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 1e0771ee127..3992f328749 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -1,8 +1,8 @@
-{#
+{#-
 SPDX-FileCopyrightText: Copyright (c) 2023-present NVIDIA CORPORATION & AFFILIATES.
 All rights reserved.
 SPDX-License-Identifier: BSD-3-Clause
-#}
+-#}
 <html>
     <head>
         <title>{{ run1.git.abbrev }} vs {{ run2.git.abbrev }} - NVFuser codegen diff</title>
@@ -423,7 +423,7 @@ <h3>
 {% endfor %}
 <hr>
 <footer>
-    Report generated with <a href="https://github.com/NVIDIA/Fuser/blob/f778681968790e3b19bbff4996b3846441937158/tools/diff_codegen_nvfuser_tests.py">diff_codegen_nvfuser_tests.py</a>
+    Report generated with <a href="https://github.com/NVIDIA/Fuser/blob/{{tool_git.full_hash}}/tools/diff_codegen_nvfuser_tests.py">diff_codegen_nvfuser_tests.py</a>
 </footer>
 </body>
 </html>

From d648f6f96ca919c3ed0367f5c340fe0c1d0272b5 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 10:24:00 -0400
Subject: [PATCH 33/39] Fix a few formatting bugs

---
 tools/templates/codediff.html | 9 ++++-----
 1 file changed, 4 insertions(+), 5 deletions(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 3992f328749..3beb478de36 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -181,7 +181,7 @@ <h2>Code comparison</h2>
             {%- endif %}
         {% endif %}
         {% if run1.nvcc_version is not none %}
-            <pre><code class="language-console">&gt; nvcc --version {%- if run1.nvcc_version != run2.nvcc_version %}# {{run1.git.abbrev}}{% endif %}
+            <pre><code class="language-console">&gt; nvcc --version {%- if run1.nvcc_version != run2.nvcc_version %}  # {{run1.git.abbrev}}{% endif %}
 {{run1.nvcc_version | e}}</code></pre>
         {% endif %}
         {%- if run1.env is not none %}
@@ -217,10 +217,9 @@ <h2>Code comparison</h2>
         {% if run2.env is not none %}
             {% if run2.env != run1.env %}
                 <br>
-                <button style="box-shadow:none" onclick="toggleDiv('old_env')">{{ run2.git.abbrev }} Env</button>
-                <div id="old_env" style="display:none">
-                    {# INI highlighting gives best look out of a number of bad options for env dump #}
-                    <pre><code class="language-sh">{{ run2.env|e }}</code></pre>
+                <button style="box-shadow:none" onclick="toggleDiv('new_env')">{{ run2.git.abbrev }} Env</button>
+                <div id="new_env" style="display:none">
+                    <pre><code class="language-ini">{{ run2.env|e }}</code></pre>
                 </div>
             {% endif %}
         {% endif %}

From cd0c50f2e6540bb2f53d6c28ceda853cab4e53a9 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 10:37:57 -0400
Subject: [PATCH 34/39] Clean env by removing $testdir

---
 tools/diff_codegen_nvfuser_tests.py | 6 +++++-
 1 file changed, 5 insertions(+), 1 deletion(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index e70e0737401..c394bb9609e 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -185,7 +185,11 @@ def __post_init__(self):
             sys.exit(1)
 
         try:
-            self.env = open(os.path.join(self.directory, "env"), "r").read()
+            self.env = ""
+            for line in open(os.path.join(self.directory, "env"), "r").readlines():
+                # remove $testdir which is set by compare_codegen.sh
+                if re.search(r"^testdir=", line) is None:
+                    self.env += line
         except FileNotFoundError:
             self.env = None
 

From 9fb46de1d704c4948ea29349cf922bb6faeb0a8e Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 11:44:59 -0400
Subject: [PATCH 35/39] Strip testdir= from env dump

---
 tools/compare_codegen.sh            | 4 +++-
 tools/diff_codegen_nvfuser_tests.py | 1 +
 2 files changed, 4 insertions(+), 1 deletion(-)

diff --git a/tools/compare_codegen.sh b/tools/compare_codegen.sh
index bc223e1a8c3..b139e1869a6 100755
--- a/tools/compare_codegen.sh
+++ b/tools/compare_codegen.sh
@@ -130,7 +130,9 @@ run_test() {
     mkdir -p "$testdir"
     echo "$testcmd" > "$testdir/command"
 
-    env > "$testdir/env"
+    # exclude $testdir when printing env
+    printenv | grep -v '^testdir=' > "$testdir/env"
+
     nvcc --version > "$testdir/nvcc_version"
     nvidia-smi --query-gpu=gpu_name --format=csv,noheader > "$testdir/gpu_names"
 
diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index c394bb9609e..b8341f29e02 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -188,6 +188,7 @@ def __post_init__(self):
             self.env = ""
             for line in open(os.path.join(self.directory, "env"), "r").readlines():
                 # remove $testdir which is set by compare_codegen.sh
+                # NOTE: compare_codegen.sh should have already removed these lines
                 if re.search(r"^testdir=", line) is None:
                     self.env += line
         except FileNotFoundError:

From 30bfc4c06e1e62cbf08d36f0bbb8eb9bb5011515 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 13:15:35 -0400
Subject: [PATCH 36/39] Change --show-diffs to --hide-diffs

The --show-diffs arg actually had no effect (oops). Fixed that also.
---
 tools/diff_codegen_nvfuser_tests.py | 6 ++++--
 1 file changed, 4 insertions(+), 2 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index b8341f29e02..2a744d3cb4d 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -490,7 +490,7 @@ def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
     )
     parser.add_argument("--html", action="store_true", help="Write HTML file?")
     parser.add_argument(
-        "--show-diffs", action="store_true", help="Print diffs to STDOUT?"
+        "--hide-diffs", action="store_true", help="Print diffs to STDOUT?"
     )
     parser.add_argument(
         "--html-max-diffs",
@@ -512,7 +512,9 @@ def generate_html(self, omit_preamble: bool, max_diffs: bool) -> str:
     )
     args = parser.parse_args()
 
-    td = TestDifferences(TestRun(args.dir1), TestRun(args.dir2))
+    td = TestDifferences(
+        TestRun(args.dir1), TestRun(args.dir2), show_diffs=not args.hide_diffs
+    )
 
     if args.hide_env:
         td.hide_env()

From 6e773558dc496d397dd73a8bcc4953fbceec28d3 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 13:49:17 -0400
Subject: [PATCH 37/39] Match failing tests not just passed

---
 tools/diff_codegen_nvfuser_tests.py | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index 2a744d3cb4d..fdcc41f6ec5 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -262,7 +262,7 @@ def finalize_test():
             line = ansi_re.sub("", line.strip())
             if line[:13] == "[ RUN      ] ":
                 current_test = line[13:]
-            elif line[:13] == "[       OK ] ":
+            elif line[:13] == "[       OK ] " or line[:13] == "[  FAILED  ] ":
                 finalize_test()
             elif line[:10] == "PRINTING: ":
                 if line[-3:] == ".cu":

From 4bc4dd6c368d406d4f008422722d4ab34e46dbc9 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 14:01:07 -0400
Subject: [PATCH 38/39] Include fail/pass if different, or if new test fails

---
 tools/diff_codegen_nvfuser_tests.py | 29 +++++++++++++++++++++--------
 tools/templates/codediff.html       |  9 +++++++--
 2 files changed, 28 insertions(+), 10 deletions(-)

diff --git a/tools/diff_codegen_nvfuser_tests.py b/tools/diff_codegen_nvfuser_tests.py
index fdcc41f6ec5..9cd3fa1fd05 100644
--- a/tools/diff_codegen_nvfuser_tests.py
+++ b/tools/diff_codegen_nvfuser_tests.py
@@ -144,7 +144,8 @@ def find_unique_int(pattern) -> int | None:
 @dataclass
 class CompiledTest:
     name: str
-    kernels: list[CompiledKernel] | None = None
+    kernels: list[CompiledKernel]
+    passed: bool
 
 
 @dataclass
@@ -249,12 +250,12 @@ def finalize_kernel():
             ptxas_info = ""
             current_file = None
 
-        def finalize_test():
+        def finalize_test(passed: bool):
             nonlocal current_test
             nonlocal kernels
             assert current_test is not None
             finalize_kernel()
-            self.kernel_map[current_test] = CompiledTest(current_test, kernels)
+            self.kernel_map[current_test] = CompiledTest(current_test, kernels, passed)
             current_test = None
             kernels = []
 
@@ -262,8 +263,10 @@ def finalize_test():
             line = ansi_re.sub("", line.strip())
             if line[:13] == "[ RUN      ] ":
                 current_test = line[13:]
-            elif line[:13] == "[       OK ] " or line[:13] == "[  FAILED  ] ":
-                finalize_test()
+            elif line[:13] == "[       OK ] ":
+                finalize_test(True)
+            elif line[:13] == "[  FAILED  ] ":
+                finalize_test(False)
             elif line[:10] == "PRINTING: ":
                 if line[-3:] == ".cu":
                     finalize_kernel()
@@ -354,6 +357,8 @@ def __post_init__(self, diff_lines: list[str]):
 @dataclass
 class TestDiff:
     testname: str
+    test1_passed: bool
+    test2_passed: bool
     kernel_diffs: list[KernelDiff] | None = None
     kernel_number_mismatch: tuple[int, int] | None = None
 
@@ -414,9 +419,10 @@ def __post_init__(self, show_diffs: bool):
                 self.test_diffs.append(
                     TestDiff(
                         testname,
+                        compiled_test1.passed,
+                        compiled_test2.passed,
                         None,
-                        len(compiled_test1.kernels),
-                        len(compiled_test2.kernels),
+                        (len(compiled_test1.kernels), len(compiled_test2.kernels)),
                     )
                 )
 
@@ -442,7 +448,14 @@ def __post_init__(self, show_diffs: bool):
                     kernel_diffs.append(kd)
 
             if len(kernel_diffs) > 0:
-                self.test_diffs.append(TestDiff(testname, kernel_diffs))
+                self.test_diffs.append(
+                    TestDiff(
+                        testname,
+                        compiled_test1.passed,
+                        compiled_test2.passed,
+                        kernel_diffs,
+                    )
+                )
 
         for testname, compiled_test2 in self.run2.kernel_map.items():
             if testname not in self.run1.kernel_map:
diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index 3beb478de36..b9fe527e129 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -181,7 +181,7 @@ <h2>Code comparison</h2>
             {%- endif %}
         {% endif %}
         {% if run1.nvcc_version is not none %}
-            <pre><code class="language-console">&gt; nvcc --version {%- if run1.nvcc_version != run2.nvcc_version %}  # {{run1.git.abbrev}}{% endif %}
+            <pre><code class="language-console">&gt; nvcc --version {%- if run1.nvcc_version != run2.nvcc_version %}# {{run1.git.abbrev}}{% endif %}
 {{run1.nvcc_version | e}}</code></pre>
         {% endif %}
         {%- if run1.env is not none %}
@@ -261,6 +261,7 @@ <h3>
     </h3>
     {% for test in new_tests %}
         <span class="test_name"><b>{{ test.name }}</b>
+            {% if not test.passed %}<span style="color: red; font-weight: bold">FAILED</span>{% endif %}
             <br>
             {% set test_num = loop.index %}
             {% for kernel in test.kernels %}
@@ -329,6 +330,10 @@ <h3>
 {% for test_diff in test_diffs %}
     {% if loop_vars.total_diffs < max_diffs %}
         <span class="test_name">{{ loop.index }}: <b>{{ test_diff.testname }}</b></span>
+        {% if test_diff.test1_passed != test_diff.test2_passed -%}
+            <span style="color: red; font-weight: bold">{{"SUCCESS" if test_diff.test1_passed else "FAILED"}}</span> &#8594;
+            <span style="color: green; font-weight: bold">{{"SUCCESS" if test_diff.test2_passed else "FAILED"}}</span>
+        {%- endif -%}
         <br>
         {% set outer_index = loop.index %}
         {% for kernel_diff in test_diff.kernel_diffs %}
@@ -422,7 +427,7 @@ <h3>
 {% endfor %}
 <hr>
 <footer>
-    Report generated with <a href="https://github.com/NVIDIA/Fuser/blob/{{tool_git.full_hash}}/tools/diff_codegen_nvfuser_tests.py">diff_codegen_nvfuser_tests.py</a>
+    Report generated with <a href="https://github.com/NVIDIA/Fuser/blob/{{ tool_git.full_hash }}/tools/diff_codegen_nvfuser_tests.py">diff_codegen_nvfuser_tests.py</a>
 </footer>
 </body>
 </html>

From 932d065ef3482345c57049547aa3316f00c50067 Mon Sep 17 00:00:00 2001
From: Jacob Hinkle <jhinkle@nvidia.com>
Date: Tue, 3 Oct 2023 14:02:12 -0400
Subject: [PATCH 39/39] Change condition for test fail/pass printing

This will show FAILED -> FAILED as well. The only hidden case is now
SUCCESS -> SUCCESS
---
 tools/templates/codediff.html | 2 +-
 1 file changed, 1 insertion(+), 1 deletion(-)

diff --git a/tools/templates/codediff.html b/tools/templates/codediff.html
index b9fe527e129..1cbe78da50a 100644
--- a/tools/templates/codediff.html
+++ b/tools/templates/codediff.html
@@ -330,7 +330,7 @@ <h3>
 {% for test_diff in test_diffs %}
     {% if loop_vars.total_diffs < max_diffs %}
         <span class="test_name">{{ loop.index }}: <b>{{ test_diff.testname }}</b></span>
-        {% if test_diff.test1_passed != test_diff.test2_passed -%}
+        {% if not test_diff.test1_passed or not test_diff.test2_passed -%}
             <span style="color: red; font-weight: bold">{{"SUCCESS" if test_diff.test1_passed else "FAILED"}}</span> &#8594;
             <span style="color: green; font-weight: bold">{{"SUCCESS" if test_diff.test2_passed else "FAILED"}}</span>
         {%- endif -%}